【杂谈】-DeepSeek如何以560万美元突破成本障碍

DeepSeek如何以560万美元突破成本障碍

文章目录

  • DeepSeek如何以560万美元突破成本障碍
    • 1、高效人工智能的经济学
    • 2、实现不可能的工程
    • 3、人工智能生态系统的连锁反应

传统的人工智能观点认为,构建大型语言模型 (LLM)需要大量资金——通常需要数十亿美元的投资。但中国人工智能初创公司DeepSeek的最新成果打破了这一模式:仅用 560 万美元就开发出了一个世界级的人工智能模型。

DeepSeek 的V3 模型可以与谷歌 Gemini和OpenAI 的最新产品等行业巨头一较高下,同时仅使用典型计算资源的一小部分。这一成就引起了许多行业领袖的关注,尤其引人注目的是,尽管面临美国出口限制,无法获得最新的Nvidia 芯片,该公司仍取得了这一成就。

1、高效人工智能的经济学

这些数字说明了效率的惊人。虽然大多数先进的人工智能模型需要16,000到100,000个 GPU 进行训练,但DeepSeek仅用2,048个GPU运行了57天。该模型的训练在Nvidia H800芯片上消耗了278万个 GPU 小时——对于 6710 亿个参数的模型来说,这个数字非常适中。

从这个角度来看,Meta 需要大约 3080 万个GPU 小时(大约是计算能力的 11 倍)来训练其Llama 3 模型,而该模型的参数实际上更少,只有 4050 亿个。DeepSeek 的方法类似于在约束条件下进行优化的大师班。借助 H800 GPU(Nvidia 专为中国市场设计的、功能有限的 AI 芯片),该公司将潜在的限制转化为创新。他们没有使用现成的解决方案进行处理器通信,而是开发了可最大限度提高效率的定制解决方案。

尽管竞争对手仍然认为需要进行大规模投资,但 DeepSeek 已证明,独创性和高效的资源利用可以使竞争更加公平。

在这里插入图片描述

图片来源:https://artificialanalysis.ai/models/deepseek-v3

2、实现不可能的工程

DeepSeek 的成就在于其创新的技术方法,表明有时最有影响力的突破来自于在约束条件下工作,而不是投入无限的资源来解决问题。

这项创新的核心是一种称为“无辅助损失负载平衡(auxiliary-loss-free load balancing)”的策略。可以将其想象成协调一个大规模并行处理系统,传统上,您需要复杂的规则和惩罚才能使一切顺利运行。DeepSeek 颠覆了这种传统观念,开发了一种可以自然保持平衡的系统,而无需传统方法的开销。

该团队还率先采用了所谓的“多标记预测”(Multi-Token Prediction,MTP)技术,该技术通过同时预测多个标记,让模型提前思考。在实践中,这意味着这些预测在各个主题中的接受率高达 85-90%,处理速度比以前的方法快 1.8 倍。

技术架构本身就是效率的杰作。DeepSeek 的 V3 采用混合专家(mixture-of-experts,MoE)方法,总共有 6710 亿个参数,但巧妙之处在于它只为每个 token 激活 370 亿个参数。这种选择性激活意味着他们可以获得大规模模型的好处,同时保持实际效率。

他们选择 FP8 混合精度训练框架是又一次飞跃。他们没有接受传统的精度降低限制,而是开发了定制解决方案,在保持精度的同时显著降低了内存和计算要求。

3、人工智能生态系统的连锁反应

DeepSeek 的成就的影响远远超出了一个成功的模型。

对于欧洲的人工智能发展来说,这一突破意义非凡。许多先进的模型无法进入欧盟,因为像 Meta 和 OpenAI 这样的公司无法或不愿适应欧盟的《人工智能法案》。DeepSeek 的方法表明,构建尖端人工智能并不总是需要大规模的 GPU 集群——更重要的是高效利用可用资源。

这一发展也表明出口限制实际上可以推动创新。DeepSeek 对高端硬件的有限使用迫使他们以不同的方式思考,从而实现了在资源丰富的环境中可能永远不会出现的软件优化。这一原则可能会重塑我们在全球范围内处理人工智能开发的方式。

尽管行业巨头仍在投入数十亿美元,但 DeepSeek 已经为高效、经济的 AI 开发制定了蓝图。这可能会为之前因资源限制而无法竞争的小型公司和研究机构打开大门。

然而,这并不意味着大规模计算基础设施正在变得过时。业界正在将重点转向扩展推理时间——模型生成答案所需的时间。随着这一趋势的持续,大量计算资源仍将是必要的,随着时间的推移,这种需求可能会更加迫切。

但 DeepSeek 从根本上改变了这一话题。其长期影响显而易见:我们正在进入一个创新思维和高效资源利用比单纯的计算能力更重要的时代。对于人工智能社区来说,这意味着不仅要关注我们拥有什么资源,还要关注我们如何创造性和高效地利用这些资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65900.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 系统 Activity 系统层深度定制的方法、常见问题以及解决办法

Android 系统 Activity 系统层深度定制的方法、常见问题以及解决办法 目录 引言Activity 系统层概述Activity 系统架构图Activity 系统层深度定制的方法 4.1 自定义 Activity 生命周期4.2 自定义 Activity 启动流程4.3 自定义 Activity 转场动画4.4 自定义 Activity 窗口管理4…

TIOBE 指数 12 月排行榜公布,VB.Net排行第九

IT之家 12 月 10 日消息,TIOBE 编程社区指数是一个衡量编程语言受欢迎程度的指标,评判的依据来自世界范围内的工程师、课程、供应商及搜索引擎,今天 TIOBE 官网公布了 2024 年 12 月的编程语言排行榜,IT之家整理如下: …

vs2022编译opencv 4.10.0

参考:Windosw下Visual Studio2022编译OpenCV与参考区别在于,没有用cmake GUI,也没有创建build目录,直接用vs2022打开了C:\code\opencv目录,即CMakeLists.txt所在根目录。没有修改默认下载地址,采用手动下载…

未来教育:AI知识库如何重塑学习体验

在科技日新月异的今天,教育领域正经历着前所未有的变革。人工智能(AI)技术的快速发展,特别是AI知识库的广泛应用,正在重塑我们的学习体验,使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影…

c#实现繁体转简体的方法

在软件开发中,使用了Syncfusion第三方控件,Syncfusion通过资源库实现汉化,但Syncfusion提供的资源库SfResources.zh.resx为繁体的,通过研究发现了使用C#完成繁体到简体转换,在 C# 中,处理繁体转简体的任务可…

Android Camera压力测试工具

背景描述: 随着系统的复杂化和业务的积累,日常的功能性测试已不足以满足我们对Android Camera相机系统的测试需求。为了确保Android Camera系统在高负载和多任务情况下的稳定性和性能优化,需要对Android Camera应用进行全面的压测。 对于压…

大中厂面试经验分享:如何使用消息队列(MQ)解决系统问题

在大中型互联网公司中,消息队列(MQ)作为一种关键的分布式系统组件,广泛应用于解决系统中的高并发、异步处理、解耦等问题。 在面试中,尤其是针对后端工程师或系统架构师的职位,面试官常常会通过询问消息队列…

C# 设计模式(结构型模式):组合模式

C# 设计模式(结构型模式):组合模式 在软件设计中,有时我们需要处理的是一组对象,而这些对象既可以是单独的元素,也可以是由多个子元素组成的复合体。这时,组合模式(Composite Patte…

JDK8源码分析Jdk动态代理底层原理

本文侧重分析JDK8中jdk动态代理的源码,若是想看JDK17源码分析可以看我的这一篇文章 JDK17源码分析Jdk动态代理底层原理-CSDN博客 两者之间有着略微的差别,JDK17在JDK8上改进了不少 目录 源码分析 过程 生成的代理类大致结构 本文侧重分析JDK8中jdk…

Spire.PDF for .NET【页面设置】演示:向 PDF 添加平铺背景图像

平铺背景通常是指用一个或多个小图像重复填充的背景。在本文中,您将学习如何在 PDF 中平铺图像,并使用 C# 和 VB.NET 为您的 PDF 创建平铺背景。 Spire.PDF for .NET 是一款独立 PDF 控件,用于 .NET 程序中创建、编辑和操作 PDF 文档。使用 …

大带宽服务器和普通服务器相比较的优势

服务器作为各个企业线上业务中重要的网络设备,能够在网络中为其他客户机提供计算或者是应用服务,不同的应用场景中也会运用不同的服务器类型,本文就来为大家介绍一下大带宽服务器与普通服务器相比较来说的优势都有哪些! 大带宽服务…

如何通过设置失效时间清除本地存储的数据

一、使用localStorage和时间戳(JavaScript) 1. 原理 localStorage是浏览器提供的一种在本地存储数据的方式,数据没有过期时间限制。但是可以通过自己记录时间戳来模拟数据过期的功能。在存储数据时,同时存储一个时间戳&#xff…

ImageNet 2.0?自动驾驶数据集迎来自动标注新时代

引言: 3DGS因其渲染速度快和高质量的新视角合成而备受关注。一些研究人员尝试将3DGS应用于驾驶场景的重建。然而,这些方法通常依赖于多种数据类型,如深度图、3D框和移动物体的轨迹。此外,合成图像缺乏标注也限制了其在下游任务中的…

stm32 智能语音电梯系统

做了个stm32智能语音控制的电梯模型,总结一下功能,源码用ST的HAL库写的,整体流程分明。 实物图 这个是整个板子的图片,逻辑其实并不复杂,只是功能比较多,在我看来都是一些冗余的功能,但也可能是…

多模态论文笔记——CogVLM和CogVLM2

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍多模态模型的LoRA版本——CogVLM和CogVLM2。在SD 3中使用其作为captioner基准模型的原因和优势。 文章目录 CogVLM论文背景VLMs 的任务与挑战现有方法及…

【react】Redux的设计思想与工作原理

Redux 的设计理念 Redux 的设计采用了 Facebook 提出的 Flux 数据处理理念 在 Flux 中通过建立一个公共集中数据仓库 Store 进行管理,整体分成四个部分即: View (视图层)、Action (动作)、Dispatcher (派发器)、Stor…

PCB层叠结构设计

PCB层叠结构设计 层叠结构设计不合理完整性相关案例:在构成回流路径时,由于反焊盘的存在,使高速信号回流路径增长,造成信号回流路径阻抗不连续,对信号质量造成影响。 PCB层叠结构实物:由Core 和 Prepreg&a…

爬虫在分析网站结构时的注意事项及代码示例

在进行网络爬虫的开发时,准确分析目标网站的结构是至关重要的一步。这不仅关系到爬虫的效率和效果,还涉及到是否能够合法合规地获取数据。本文将探讨在分析网站结构时需要注意的几个关键点,并提供相应的代码示例。 1. 网站的响应方式 首先&…

LLM训练的数据以及流程,怎么微调

LLM训练的数据以及流程,怎么微调 训练数据来源 互联网文本:从网页、新闻文章、博客、论坛等收集大量的文本内容。例如,Common Crawl项目会定期抓取大量的网页数据,为LLM训练提供了丰富多样的文本来源,这些数据涵盖了各种领域和主题,如科技、文化、娱乐、政治等.书籍文献…

【Cesium】七、设置Cesium 加载时的初始视角

文章目录 一、前言二、实现方法2.1 获取点位、视角2.2 设置 三、App.vue 一、前言 在前面的文章 【Cesium】三、实现开场动画效果 中有提到过 虽然也能回到初始点位但是有一个明显的动画过程。下面方法加载时就是在初始点位 没有动画效果,根据需求选择。 本文参考…