苹果AI终于来了!从2.7到30亿四款大模型代码全开源,AI技术持续“狂飙”|钛媒体AGI

(图片来源:Apple官网)

苹果公司突然公布了一则大新闻。

北京时间4月25日凌晨,苹果在 Hugging Face 平台上发布一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。

据了解,OpenELM有四种尺寸:2.7亿、4.5亿、11亿和30亿个参数版本,定位于超小规模模型,而微软Phi-3模型为38亿。这种小模型运行成本更低,可在手机和笔记本电脑等设备上运行。

同时,在WWDC24开发者大会之前,苹果彻底开源了OpenELM模型权重和推理代码,数据集和训练日志等。而且,苹果还开源了神经网络库CoreNet。

早在今年2月,苹果公司CEO蒂姆·库克(TimCook)就表示,苹果生成式 AI 功能将于“今年晚些时候”推出,有消息称即将在6月发布iOS 18可能是苹果iOS史上“最大”的更新,而9月也将推出首款AI iPhone设备。

如今,苹果似乎在新一轮AI浪潮快到尾声的时刻追赶上了行业脚步。

代码:
https://github.com/apple/corenet

hf: https://huggingface.co/apple/OpenELM

论文:
https://arxiv.org/abs/2404.14619

预训练tokens数量减一半,11亿参数苹果模型效果却比竞品更精准

随着ChatGPT风靡全球,近几个月来,三星、谷歌、小米等手机厂商全面推进大语言模型在手机、平板等端侧上的使用,包括照片处理、文字处理增强等,并形成一大卖点。而苹果很少透露并极少有类似的自带功能,主要是用第三方工具做到类似效果。

今年2月财报会议上,库克首次公布生成式 AI 计划,并将在今年晚些时候将 AI 技术集成到其软件平台(iOS、iPadOS 和 macOS)中。

库克表示,“我只想说,我认为苹果在生成式 AI 和 AI 方面存在着巨大的机会,无需透露更多细节,也无需超出自己的预期。展望未来,我们将继续投资于这些和其他将塑造未来的技术。其中包括 AI,我们继续在 AI 领域花费大量时间和精力,我们很高兴能在今年晚些时候分享我们在该领域正在进行的工作的细节。我们对此非常兴奋。”

实际上,自年初至今,苹果在生成式 AI 领域动作不断。今年3月,苹果技术团队发表论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次披露苹果大模型MM1,涵盖300亿参数、支持多模态、支持MoE架构,超半数作者属于华人。

如今,针对手机、平板等端侧领域,苹果真正的开源模型终于来了。

据论文显示,苹果开源了大语言模型OpenELM,有指令微调和预训练两种模型版本,共有2.7亿、4.5亿、11亿和30亿4种参数,提供生成文本、代码、翻译、总结摘要等功能。

虽然最小的参数只有2.7亿,但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens数据进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。

例如,11亿参数的OpenELM,比12亿参数的OLMo模型的准确率高出2.36%,而使用的预训练数据却只有OLMo的一半。

在训练流程中,苹果采用了CoreNet作为训练框架,并使用了Adam优化算法进行了35万次迭代训练。而苹果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。

苹果在论文中还表示,与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。同时,苹果还发布将模型转换为 MLX 库的代码,以便在苹果设备上进行推理和微调。

“此次全面发布旨在增强和巩固开放研究社区,为未来的开放研究工作铺平道路。”苹果研究团队表示。

此外,OpenELM不使用任何全连接层中的可学习偏置参数,采用RMSNorm进行预归一化,并使用旋转位置嵌入编码位置信息。OpenELM还通过分组查询注意力代替多头注意力,用SwiGLU FFN替换了传统的前馈网络,并使用了Flash注意力来计算缩放点积注意力,能以更少的资源来进行训练和推理。同,苹果使用了动态分词和数据过滤的方法,实现了实时过滤和分词,从而简化了实验流程并提高了灵活性。还使用了与Meta的Llama相同的分词器,以确保实验的一致性。

这次,苹果很有诚意将代码开源,一开到底,把所有内容都贡献出来了。仅1天多的时间,该模型GitHub平台上就获得超过1100颗星。

而目前,大模型领域主要分为开源和闭源两大阵营,国内外知名闭源的代表企业有OpenAI、Anthropic、谷歌、Midjourney、百度、出门问问等;开源阵营有Meta、微软、谷歌、商汤、百川智能、零一万物等。

苹果作为手机闭源领域的领导者,此次却罕见地加入开源大模型阵营。有分析认为,这可能在效仿谷歌的方式先通过开源拉拢用户,再用闭源产品去实现商业化营利。

同时,这也表明苹果进军 AI 大模型领域的坚定决心。

作为同为端侧模型、开源模型企业,商汤科技联合创始人、首席科学家王晓刚近期对钛媒体App表示,开源还是对于整个社区的发展还是非常重要的,是一个重要驱动力。最终大模型的发展包括各种应用,还是要整个社区共同去推动的。对于大模型的应用也分为不同的层次,这么多行业对应用的需求也是不一样的,丰富的开源社区非常重要。

AI 技术持续“狂飙”,OpenAI获得了全球第一块DGX H200

不止是苹果,今天凌晨,国内外 AI 技术依然“狂飙”,相关消息满天飞。

今晨,OpenAI联合创始人、COO Greg Brockman发推文表示,英伟达向该公司移交全球范围内第一块DGX H200,此举旨在“推进人工智能、计算技术与人类的发展”。

同时,他也发布了一张合影,还包括英伟达CEO黄仁勋、OpenAI CEO奥尔特曼(Sam Altman),看起来三人非常开心。

早在2016年,OpenAI刚成立不久,黄仁勋便亲自将全球首台装备了8块英伟达P100芯片的超级计算机DGX-1送到了OpenAI的办公室。

这台价值逾百万美元的DGX-1,是黄仁勋带领英伟达3000名员工,历时三年精心打造的成果。它极大地提升了OpenAI的计算能力,将原本需要一年的训练时间缩短至仅一个月。

当时,OpenAI还处于一个初创阶段的非营利机构,这台超级计算机无疑是一份极具分量的礼物。马斯克、Sam Altman以及其他早期员工对此感到无比激动,纷纷在这台DGX-1上留下了自己的签名。

2023年11月13日,英伟达发布了新一代AI GPU——NVIDIA Grace Hopper H200超级芯片,其内存容量和带宽分别是H100的两倍和1.4倍,最高支持19.5TB,AI 性能达128 petaFLOPS FP8,预计2024年第二季度开始供货。

黄仁勋称,这是拥有万亿规模的新型 AI 超级计算机,为巨型 AI 模型提供具有线性可扩展性的海量共享内存空间,能够在生成式 AI 时代发挥巨大潜力。

如今,黄仁勋亲手将全球第一块DGX H200送给了OpenAI。

同时,据CTech报道,英伟达以约7亿美元收购了以色列AI基础设施编排和管理服务Run:ai,据悉,Run:ai成立于2018 年,迄今已筹集1.18亿美元,同时英伟达还收购了Deci公司。

另外,今天凌晨,拥有全球首个 AI 代码工程师的背后企业Cognition被曝完成了一轮1.75亿美元的融资,由Founders Fund 领投,仅仅一个月内,公司估值从3.5亿美元增长到20亿美元,引发关注。

Gartner分析师John-David Lovelock表示,随着Anthropic、OpenAI 等第一梯队的玩家占据主导地位,AI投资范围正在“向外延展”(spreading out)。

“数十亿美元的投资数量已经放缓,而且几乎已经结束;热钱涌向了新方向——AI 应用。”上述分析师表示,“大模型需要大量投资,但市场现在更多地受到科技公司的影响,这些公司将利用现有的 AI 产品、服务和产品来构建新产品。”

Greylock合伙人Seth Rosenberg认为,人们对于资助AI领域的“大批新玩家”的兴趣本来就较很小。在这个周期的早期阶段,投资基础模型资本非常密集,相比之下,AI 应用和智能体所需的资本较低,这可能是绝对美元融资额下降的原因。

Thomvest Ventures 董事总经理 Umesh Padval 将 AI整体投资的缩减,归因于增长低于预期。他表示,最初的热情已经让位于现实—— AI 面临一部分技术挑战,一部分上市挑战,可能需要数年时间才能解决并完全克服。

”AI 投资放缓反映出人们认识到,我们仍在探索 AI 技术发展及其在各行业应用的早期阶段。虽然长期市场潜力仍然巨大,但最初的热情已被在实际应用中推广 AI 技术的复杂性和挑战所削弱……这表明投资环境更加成熟和敏锐。“Umesh Padval表示。

如今,AI 持续“狂飙”,但整个市场方向已快速转变,端侧模型、AI 应用、行业大模型等都将成为今年整个 AI 领域新趋势。

(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/829089.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Magnet for Mac:高效窗口管理工具

Magnet for Mac是一款专为Mac用户设计的窗口管理工具,旨在帮助用户更高效地管理和布局多个应用程序窗口,提升工作效率。 Magnet for Mac v2.14.0中文免激活版下载 这款软件拥有直观易用的界面和丰富的功能,支持用户将屏幕分割成多个区域&…

Linux操作系统的安装与配置

目录 (1)实验目的: (2)实验内容: (3)实验原理: (4)实验步骤: 1.先下载vmware workstation pro软件,下载地址:https://www.vmware.com/products/workstation-pr o/workstation-pro-evaluation.html 2.下载完成后&…

vue+element 树形结构 改成懒加载模式(原理element有),这里只做个人理解笔记

1 找到属性标签添加 lazy 和 :load"loadNode" 这两个属性 2 引入树形接口,并和后端约定好传值,(拿我的举例 第一次获取全部父级默认第一次传参数:{ parentId : 0},可获取全部父级 第二次通过点击的子级把子级id传进去,这一步就用到了:load"loadNode&quo…

路由器使用docker安装mysql和redis服务

路由器使用docker安装mysql和redis服务 1.先在路由器中开启docker功能 (需要u盘 或者 移动硬盘) 2. docker 管理地址 :http://192.168.0.1:11180/#/ 3. 拉取镜像 4. mysql容器参数设置 MYSQL_ROOT_PASSWORD 5. redis 容器设置 开发经常需要用到 &…

Synchronized关键字的深入分析

一、引言 在多线程编程中,正确地管理并发是确保程序正确运行的关键。Java提供了多种同步工具,其中synchronized关键字是最基本且最常用的同步机制之一。本文旨在深入解析synchronized的实现原理,探讨其在不同应用场景中的使用,并…

​解析什么是物联网接入网关?-天拓四方

随着物联网技术的飞速发展,越来越多的设备、传感器和系统被连接到互联网,形成了一个庞大的、相互连接的智能网络。在这个网络中,物联网接入网关扮演着至关重要的角色,它不仅是连接物联网设备和云平台的桥梁,还是实现设…

数据结构-二叉树-堆(二)

一、建堆的时间复杂度问题 1、除了向上调整建堆,我们还可以向下调整建堆。不能在根上直接开始向下调整。这里的条件就是左右子树必须都是大堆或者小堆。我们可以倒着往前走,可以从最后一个叶子开始调整。但是从叶子开始调整没有意义。所以我们可以从倒数…

mysql的多表查询和子查询

多表查询:查询数据时,需要使用多张表来查询 多表查询分类: 1.内连接查询 2.外连接查询 3.子查询 笛卡尔积: create table class (id int primary key auto_increment,name varchar(10) ); create table student (id int primar…

serdes 同轴电缆和双绞线接法

1、同轴电缆 Coaxial Cable 2、双绞线STP(Shielded Twisted Pair) 比如我们用的车载camera一般就只需要接一路即可,RIN接camera, RIN-通过电容接地。

python基础——正则表达式

📝前言: 这篇文章主要想讲解一下python中的正则表达式: 1,什么是正则表达式 2,re模块三匹配 3,元字符匹配 4,具体示例 🎬个人简介:努力学习ing 📋个人专栏&am…

认识HTTP

HTTP缺点 通信使用明文(不加密),内容可能会被窃听 不验证通信方的身份,可能遭遇伪装 无法证明报文的完整性,所以有可能遭篡改 一、通信使用明文(不加密),内容可能会被窃听 TCP/…

Git--基础学习--面向企业--持续更新

一、基础学习 1.1基本命令 //查询基础信息 git config --global --list //选取合适位置创建 mkdir 文件名 //创建文件夹 //全局配置 git config --global user.email "****e***i" git config --global user.name "*** K****"//--------------------进入…

西瓜书学习——线性判别分析

文章目录 定义LDA的具体步骤1. 计算类内散布矩阵(Within-Class Scatter Matrix)2. 计算类间散布矩阵(Between-Class Scatter Matrix)3. 求解最佳投影向量4. 数据投影5. 分类 定义 线性判别分析(Linear Discriminant A…

php动态高亮web源代码

php动态高亮web源代码 注:配置好不允许高亮的文件名,安全第一 #php实现动态展示目录树结构源代码 适用于开放源代码,结合html缓存使用效果更佳,因循环较多不适合放首页 能力有限没实现行号 演示:show source|开放…

多家企业机密数据遭Lockbit3.0窃取,亚信安全发布《勒索家族和勒索事件监控报告》

本周态势快速感知 本周全球共监测到勒索事件87起,与上周相比勒索事件大幅下降。美国依旧为受勒索攻击最严重的国家,占比45%。 本周Cactus是影响最严重的勒索家族,Lockbit3.0和Bianlian恶意家族紧随其后,从整体上看Lockbit3.0依旧…

git 命令怎么回退到指定的某个提交 commit hash 并推送远程分支?

问题 如下图,我要回退到 【002】Babel 的编译流程 这一次提交 解决 1、先执行下面命令,输出日志,主要就是拿到提交 commit 的 hash,上图红框即可 git log或者 vscode 里面直接右击,copy sha 2、执行下面命令回退 g…

05_Scala运算符

文章目录 **1.Scala运算符****2.scala中没有 --等语法****3.逻辑运算符和Java完全相同****4.scala认为万物皆对象** 1.Scala运算符 Scala底层 使用的是equals() 程序员比较两个量的时候,谁来没事比较内存地址? Java中引用数据类型比较地址&#xff0…

黑马点评(十二) -- UV统计

一 . UV统计-HyperLogLog 首先我们搞懂两个概念: UV:全称Unique Visitor,也叫独立访客量,是指通过互联网访问、浏览这个网页的自然人。1天内同一个用户多次访问该网站,只记录1次。 PV:全称Page View&…

Games101-动画与模拟(基本概念、质点弹簧系统、运动学)

动画:把物体变成活的,让它动起来 更关注的是美学。早期的动画是画出来的,并不关心对不对,符不符合物理,只要看起来对 图形学里对动画理解为对于建模或几何的拓展。动画无非就是在不同的时间或不同的帧有不同的几何形状…

了解Cookie登录:原理、实践与安全指南

什么是Cookie登录? Cookie是什么 当你首次登录网站时,你会输入用户名和密码。在后台,网站的服务器验证这些凭据是否正确。一旦确认你的身份无误,服务器就会创建一个Cookie,并将其发送到你的浏览器。这了解Cookie登录…