Llama 是开源的,但为什么?

原文:towardsdatascience.com/llama-is-open-source-but-why-3f87d290d0d5?source=collection_archive---------5-----------------------#2024-06-25

观点

Meta 开源大模型战略分析

https://haifeng-jin.medium.com/?source=post_page---byline--3f87d290d0d5--------------------------------https://towardsdatascience.com/?source=post_page---byline--3f87d290d0d5-------------------------------- Haifeng Jin

·发表于 Towards Data Science ·6 分钟阅读·2024 年 6 月 25 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9f9d46a904ceb1062f3aa0c3d67d63d6.png

图片由作者使用 DALL-E 创建

训练一个大语言模型可能花费数百万美元。Meta 为什么会花这么多钱训练一个模型,并且让所有人免费使用?

本文分析了 Meta 的 GenAI 和大模型战略,旨在理解开源大模型的考虑因素。我们还讨论了这波开源模型如何与传统开源软件相似,又有何不同。

免责声明:Llama 模型是否真正开源超出了本文的讨论范围。所有信息均来自公开来源。

专有模型的幻象

如果 Meta 开源它的模型,难道人们不会选择自己构建服务,而不是付费使用 Meta 提供的服务(例如,基于 Llama 的 Meta AI 聊天机器人,API,或者帮助你微调模型并高效提供服务)吗?

通过将模型保持为专有,来阻止人们构建自己的解决方案,这不过是一个幻象。无论是否开源你的模型,其他公司,如 Mistral AI、阿里巴巴,甚至 谷歌,都已开源了他们的模型。

目前,OpenAI、Anthropic 和谷歌并没有开源它们最大/最好的模型,因为它们仍然认为自己处于一个开源模型无法企及的领域,无论是能力还是质量。开源这些模型将对他们的业务造成损害。

除非你的模型比其他任何开源模型好几个数量级,否则是否开源你的模型不会影响用户在开源模型上构建应用程序的质量。

你唯一的选择是成为开源模型的首创者和领导者,或者成为一个追随者,在稍后发布你的模型。

为什么要成为开源模型的领导者?

成为开源模型的领导者有许多好处,但最重要的就是吸引人才。

GenAI 的战争是被计算能力瓶颈限制的人才竞争。你获得多少计算能力在很大程度上取决于你与 Nvidia 的现金流关系,除了谷歌。然而,拥有多少人才则是另一个问题。

根据埃隆·马斯克的说法,谷歌拥有三分之二的 AI 人才,为了对抗谷歌的力量,他们创办了 OpenAI。随后,一些最顶尖的人才离开了 OpenAI,创办了 Anthropic,专注于 AI 安全。因此,目前市场上这三家公司拥有最优秀、最多的 AI 专家。其他公司都急需更多的 AI 专家。

成为开源模型的领导者将帮助 Meta 弥合 AI 专家的差距。开源模型通过两种方式吸引人才。

首先,AI 专家们想为 Meta 工作。让全世界都使用你构建的模型是超级酷的。这会为你的工作带来大量曝光,扩大你的专业影响力,并且对你未来的职业生涯有好处。所以,许多有才华的人愿意为他们工作。

其次,社区中的 AI 专家们为 Meta 做了免费的工作。在 Llama 发布后不久,人们开始对其进行实验。他们帮助你开发新的服务技术以降低成本,微调模型以发现新应用,并仔细审查模型以发现漏洞,提升其安全性。例如,根据这篇文章,他们在 Llama 最初发布后一个月内进行了指令调优、量化、质量改进、人类评估、多模态和 RLHF。将这项工作交给社区,帮助 Meta 节省了大量的计算和人力资源。

与社区快速迭代。

使用开源模型,Meta 可以通过直接将其新开发的方法融入其中,迅速与社区一起进行迭代。

如果谷歌要采用社区的新方法,成本会有多高?这个过程分为两个阶段:实现和评估。首先,他们需要重新实现该方法以适配 Gemini。这涉及到用 JAX 重写代码,需要大量的工程资源。在评估阶段,他们需要对其进行一系列基准测试,这又需要大量的计算能力。最重要的是,这需要时间。当最新技术首次可用时,它们无法立即进行迭代。

相反,如果 Meta 想要采纳社区的一个新方法,对他们来说几乎没有成本。社区已经直接对 Llama 模型做了实验和基准测试,因此不需要进一步评估。代码是用 PyTorch 编写的,他们可以直接复制并粘贴到自己的系统中。

Llama 在 Meta 和社区之间建立了一个飞轮。Meta 从社区引入最新技术,并将其下一代模型推向社区。PyTorch 是他们共同使用的语言。

他们还能赚钱吗?

模型是开源的。人们不会直接建立自己的服务吗?为什么他们还要为一个建立在开源模型上的服务付费给 Meta 呢?当然会。即使是开源模型,构建服务依然很困难。

你如何微调和调整模型以适应你的特定应用?你如何平衡服务成本和模型质量?你是否了解所有技巧,能够充分利用你的 GPU?

知道这些问题答案的人很难找到,且招聘成本高。即使有足够的人力,想要获得足够的计算能力来微调和服务模型也很难。试想一下,如何从开源的 Llama 模型构建 Meta AI。我预计需要数百名员工和大量 GPU 参与其中。

所以,如果将来有任何类似的 Meta GenAI 服务,人们仍然可能会为其付费。

这就像开源软件,但又不完全是。

情况与传统的开源软件非常相似。“免费代码,付费服务” 这一框架依然适用。代码或模型是免费的,用来吸引更多用户加入生态系统。随着生态系统的扩大,拥有者能收获更多的利益。建立在免费代码之上的服务则是为了盈利。

然而,它也并不像开源软件。主要的区别可以总结为低用户留存率和一种新型的生态系统。

用户留存率低

开源模型的用户留存率较低。迁移到新模型比迁移到新软件要容易得多。

迁移软件很困难。PyTorch 和 HuggingFace 为深度学习框架和模型池建立了强大的生态系统。试想一下,如果你创建一个新的深度学习框架或模型池来与他们竞争,想要稍微改变他们的主导地位有多么困难。

一个很好的例子是 JAX。它对大规模分布式训练提供了更好的支持,但由于生态系统和社区较小,很难吸引用户使用 JAX。它缺乏一个能帮助用户解决问题的有力社区。而且,将整个基础设施迁移到新的框架的工程成本对大多数公司来说太高了。

开源模型没有这些问题。它们易于迁移,几乎不需要用户支持。因此,人们可以轻松转向最新和最好的模型。要在开源模型中保持领导地位,你必须不断发布位于排行榜顶部的新模型。这也是成为开源模型领导者的一大挑战或缺点。

一种新型的生态系统

开源模型创造了一种新型的生态系统。与开源软件创造贡献者和新软件生态系统不同,开源模型创造了微调和量化模型的生态系统,这些模型可以看作是原始模型的分支。

因此,一个开源基础模型不必在每个具体任务上都表现得非常优秀,因为用户可以通过领域特定的数据对其进行微调以适应他们的应用需求。基础模型最重要的特点是能够满足用户的部署要求,例如推理时的低延迟,或者足够小以适应终端设备。

这就是为什么 Llama 为每个版本提供多个尺寸的原因。例如,Llama-3 有三个版本:8B、70B 和 400B。他们希望确保涵盖所有的部署场景。

总结

即使 Meta 不开源他们的模型,其他公司也会开源。所以,Meta 提前开源并领导开源模型将是明智之举。然后,Meta 可以与社区快速迭代,改进其模型,赶上 OpenAI 和 Google。

在开源你的模型时,不必担心人们不使用你的服务,因为基础模型与构建良好的服务之间仍然存在巨大的差距。

开源模型类似于开源软件,它们都遵循“自由代码付费服务”框架,但在用户留存率和所创建的生态系统类型上有所不同。

未来,我预计会看到更多来自更多公司的开源模型。与已集中在 PyTorch 上的深度学习框架不同,开源模型将在很长一段时间内保持多样性和竞争力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1125983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OLAP助力大数据:实现快速决策的秘诀

OLAP助力大数据:实现快速决策的秘诀关键词:OLAP、大数据分析、多维数据、快速决策、商业智能摘要:在数据爆炸的今天,企业如何从海量数据中快速“挖”出决策所需的关键信息?OLAP(联机分析处理)正…

SpringBoot+Vue 甘肃非物质文化网站管理平台源码【适合毕设/课设/学习】Java+MySQL

💡实话实说: 有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。 摘要 在全球化与数字化快速发展的背景下,非物质文化遗产的保护与传承显得尤为重要。甘肃作为中国西北地区文化资源丰富的省份&#xff0c…

这是一份简洁实用的 CSS 开发速成手册

好的&#xff0c;这是一份简洁实用的 CSS 开发速成手册&#xff0c;涵盖核心概念和常用技巧&#xff1a;一、 基础概念选择器作用&#xff1a;指定哪些 HTML 元素应用样式。常见类型&#xff1a;元素选择器&#xff1a;p { ... } (选择所有 <p> 元素)类选择器&#xff1a…

cat /proc/interrupts 验证nvme 中断聚合

最近做了一次实验 用cat /proc/interrupts 抓取nvme的中断次数 &#xff0c;来验证开启了中断聚合后&#xff0c;中断次数是否会减少 1 首先我们先看下盘的默认值是多少 [debian~]#nvme get-feature /dev/nvme9 -f 0x7 -H #查看支持的最大队列 get-feature:0x7 (Number of Que…

大数据分析中的文本挖掘:非结构化数据决策

大数据分析中的文本挖掘:非结构化数据决策 关键词:文本挖掘、非结构化数据、自然语言处理、情感分析、主题建模、词嵌入、决策支持 摘要:本文深入探讨大数据分析中文本挖掘技术的核心原理和应用。我们将从非结构化数据的特点出发,逐步解析文本挖掘的关键技术流程,包括文本…

SpringBoot+Vue 教师工作量管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

&#x1f4a1;实话实说&#xff1a;有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着教育信息化的快速发展&#xff0c;高校教师工作量管理逐渐成为教学管理中的重要环节。传统的人工统计方式效率低下&#xff0c;容易出错&#…

ICLR 2026 Workshop 征稿开启:迈向 Lifelong Agent 终身智能新范式

人工智能正在进入一个新的转折点。以大语言模型&#xff08;LLM&#xff09;、强化学习&#xff08;RL&#xff09;和具身智能&#xff08;Embodied AI&#xff09;为核心的 AI Agent 迅速崛起&#xff0c;展现出规划、推理、工具调用、自主决策等多维能力。然而&#xff0c;当…

GEO优化服务商技术全景评估:从原理到实践的专业导航

摘要随着ChatGPT、Kimi、豆包等AI搜索引擎成为信息获取新入口&#xff0c;传统SEO规则正在失效&#xff0c;“品牌隐身”成为企业新痛点。GEO&#xff08;生成式引擎优化&#xff09;应运而生&#xff0c;旨在通过理解AI认知逻辑、构建权威知识源&#xff0c;使品牌在AI对话中被…

GEO优化服务报价与全功能解析

摘要当潜在客户越来越多地使用ChatGPT、Kimi、文心一言等AI对话引擎来替代传统搜索&#xff0c;提出诸如“制造业用什么MES系统好&#xff1f;”或“本地可靠的B2B软件供应商推荐&#xff1f;”等问题时&#xff0c;许多企业的品牌信息却在这些关键决策场景中“消失”了。这并非…

【毕业设计】SpringBoot+Vue+MySQL 在线文档管理系统平台源码+数据库+论文+部署文档

&#x1f4a1;实话实说&#xff1a;有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着信息化技术的快速发展&#xff0c;传统纸质文档管理模式已难以满足现代企业和机构的高效协作需求。在线文档管理系统通过数字化手段实现文档的…

网上点餐系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

&#x1f4a1;实话实说&#xff1a;有自己的项目库存&#xff0c;不需要找别人拿货再加价&#xff0c;所以能给到超低价格。摘要 随着互联网技术的快速发展和智能手机的普及&#xff0c;线上点餐已成为餐饮行业的重要趋势。传统的线下点餐方式存在效率低、人力成本高、顾客等待…

3分钟定位OA系统GC瓶颈:DeepFlow全栈可观测平台实战解析

摘要&#xff1a;本文深入探讨了 DeepFlow全栈可观测性平台 在企业核心OA系统中的实战应用。针对某大型客户OA系统长期存在的响应迟缓、偶发故障等顽疾&#xff0c;DeepFlow通过零侵扰数据采集技术&#xff0c;构建了从网关到应用、数据库的全景拓扑与实时告警体系。在一次典型…

基于时间片划分的提醒算法设计与实现

文章目录前言理论基础时间片概念算法核心原理提醒算法详解1. 核心数据结构定义2. 时间片计算核心算法3. 核心提醒判断逻辑4.测试用例使用场景用户通知系统系统维护提醒健康管理应用企业任务管理总结前言 在现代软件系统中&#xff0c;定时提醒功能是许多业务场景的核心需求&am…

芯科科技出展CES 2026并展出如何加速互联智能的未来

专为Zephyr优化的全新Simplicity SDK助力下一代物联网简化实时操作系统部署 低功耗无线解决方案创新性领导厂商Silicon Labs&#xff08;亦称“芯科科技”&#xff0c;NASDAQ&#xff1a;SLAB&#xff09;再度出展国际消费电子展&#xff08;CES&#xff09;&#xff0c;并全面…

基于SpringBoot+Vue的网上超市设计与实现管理系统设计与实现【Java+MySQL+MyBatis完整源码】

&#x1f4a1;实话实说&#xff1a;CSDN上做毕设辅导的都是专业技术服务&#xff0c;大家都要生活&#xff0c;这个很正常。我和其他人不同的是&#xff0c;我有自己的项目库存&#xff0c;不需要找别人拿货再加价。我就是个在校研究生&#xff0c;兼职赚点饭钱贴补生活费&…

微软星标25万!AI Agents入门教程爆火,零基础也能轻松构建智能体

2025年被业界公认为“AI Agent元年”&#xff0c;这一技术已从概念验证全面迈入企业级规模化落地阶段&#xff0c;据Gartner调研数据显示&#xff0c;截至2025年4月&#xff0c;已有79%的企业开始将AI Agent融入核心工作流程&#xff0c;成为降本增效的关键引擎。就在这一技术风…

Java Web 网上点餐系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

&#x1f4a1;实话实说&#xff1a;CSDN上做毕设辅导的都是专业技术服务&#xff0c;大家都要生活&#xff0c;这个很正常。我和其他人不同的是&#xff0c;我有自己的项目库存&#xff0c;不需要找别人拿货再加价。我就是个在校研究生&#xff0c;兼职赚点饭钱贴补生活费&…

SpringBoot中的DAO以及DTO、VO和Converter的介绍

DAO&#xff08;Data Access Object&#xff09;&#xff1a;数据访问对象 &#x1f4c1; 在 Spring Boot 中的现状&#xff1a; MyBatis 体系中&#xff0c;通常用 Mapper 替代 DAO 的概念。JPA&#xff08;Spring Data JPA&#xff09;中&#xff0c;Repository 接口承担 DAO…

SpringBoot+Vue 网上购物商城系统管理平台源码【适合毕设/课设/学习】Java+MySQL

&#x1f4a1;实话实说&#xff1a;CSDN上做毕设辅导的都是专业技术服务&#xff0c;大家都要生活&#xff0c;这个很正常。我和其他人不同的是&#xff0c;我有自己的项目库存&#xff0c;不需要找别人拿货再加价。我就是个在校研究生&#xff0c;兼职赚点饭钱贴补生活费&…

前后端分离甘肃非物质文化网站系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

&#x1f4a1;实话实说&#xff1a;CSDN上做毕设辅导的都是专业技术服务&#xff0c;大家都要生活&#xff0c;这个很正常。我和其他人不同的是&#xff0c;我有自己的项目库存&#xff0c;不需要找别人拿货再加价。我就是个在校研究生&#xff0c;兼职赚点饭钱贴补生活费&…