关于deepseek的一些普遍误读

最近deepseek成为全球最热门的话题,甚至没有之一,无论是北美,欧洲,各大IT巨头,各个投资机构,政府官员,乃至脱口秀演员,都在不断提及这个话题,而国内,自媒体也享受了一批十万加盛宴,惭愧,我的前一篇也算是其中之一。

但在这些信息的不断传播和讨论中,鉴于流量的偏好,或者说公众的偏好,在很多自媒体和非专业人士的报道和解读中,一些关键信息存在较多的误导。

我觉得这个话题甚至可以作为一个认知能力的评判标准,我所理解的合理认知是,我前几天直播讲了一下,就是掐头去尾。所谓头和尾是什么,过度神话,以及无脑贬低。

1、过度神话

我旧文 DeepSeek,逆转时刻? 其实也说到了,它非常棒,对行业发展的促进价值是值得肯定的,但谈及颠覆,还为时尚早。一些专业测评来看,在一些关键问题的解决上,并没有超越chatgpt。比如我看到有人测试,模拟典型的小球在封闭空间的弹跳代码,deepseek编写出来的程序表现,和chatgpt o3-mini 相比,从物理学的遵循度角度来看,还是有差距的。

o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观

当然,我没有亲测,单一案例也许不能证明太多,但至少目前看到的多个测评来说,最多只能说各有千秋,deepseek还不能说实现了反超。

2、无脑贬低

不要过度神话它,但无脑贬低也是很扯淡的事情。

微软说deepseek蒸馏了chatgpt的结果,所以一些人也借题发挥,把deepseeek贬低的一钱不值。这个事情该怎么看,那么一些证据也是有的,比如你问deepseek自己是谁,它会说自己是chatgpt,从某种意义来说,这个很有可能是他们采纳了一些chatgpt的一些语料信息训练,但如果你说他们的成就是基于蒸馏chatgpt的,我是不信的,根据我的测试,deepseek答案的脑洞很大,很多问题的解答会比chatgpt发散,而我所理解的蒸馏,通常是为了提升效率,会带来更收敛的结果。

我的个人判断是,deepseek的训练中,可能部分利用了一些蒸馏的语料信息,或者做了少许的蒸馏验证,但这个对它整个模型的质量和价值影响应该很低。而且既然人家都开源了,复现和测试也很容易,全球做AI大模型的专家已经人手一份在研究了,就此而言,在这个环节上翻车的概率极低。但我也认同一个事实,基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,但毕竟需要联网API,能获得的信息非常有限,不太可能是决定性的影响因素,相对于海量的互联网数据信息来说,通过api调用领先大模型能获得的语料杯水车薪,合理的猜测是更多用于对策略的验证分析,而不是直接用作大规模训练。

所有大模型都需要从互联网获得语料训练,而领先的大模型也在不断为互联网贡献语料,从这个角度来说,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命,但其实也没必要把这个当作是决定成败的关键。最终大家都是你中有我,我中有你,迭代前进。

3、成本优势

关于DeepSeek成本优势这块,误读是最多的,也是最容易去写段子,打鸡血的,所谓中国创业公司不到600万美元干翻所有巨头,各种自媒体喜欢这样讲,普通老百姓也分辨不了。

那么实际上,这个数据的来源是DeepSeek论文里提到的数据,而人家论文提到的数据是有前提的,就是最终版本的训练成本,人家说的这个前提很清楚,没有包括研发成本,前期硬件购置成本,以及前期测试和迭代的训练成本,只是最终版本的训练成本,或者说,你拿着人家开源代码,你有对方完整语料,去做完整复现的算力成本。

我举个例子你们就明白了,这就好比告诉你配方和生产流程,你去做仿制药的成本(还不包括人工),但是原研药的成本是仿制药的多少倍,稍微懂点行的都知道吧。

很多硅谷大佬出来说这个事,国内的人会认为这些大佬在贬低DeepSeek,其实很多真不是,他们也要给自己团队找点场子对吧,自己投入几十亿美金,被中美两边的老百姓们嘲笑,要对公众澄清一点,Deepseek真实成本绝对不是几百万美金,我们这些巨头投入的几十亿美金也不是因为我们人傻对吧,所以很多大佬其实只是澄清事实,为自己的团队正名而已。

但硅谷某些人的言论我也是不太认同的,说deepseek有五万张H100,投入十几亿到二十亿美金,这个我还真不信,我觉得这就是另一个极端了。

我给读者们算个帐

其一,网上说幻方不差钱,但他们背后其实是私募基金,私募基金啥意思,有投资人的,你梁文峰有情怀,人家投资人给你钱是炒股票的,不是给你情怀的,幻方几百亿人民币的资金盘子,是投资人的钱,不是梁文峰的钱,他们炒股一年赚大几十亿人民币(网上数据),是给投资人赚的钱,按照行规他们能分十几个亿,管理费+利润佣金,大概率过不了二十亿。然后还有各种税费要交,核心团队怎么说也要分分钱,以及人员和正常的量化系统的维护成本,这个钱当然不算少,比起很多国内上市公司利润还多,但即便如此,算来算去,怎么看他们也不像能拿出十几个亿美金搞事的样子,七扣八扣,一年能拿出来十个亿人民币都难,这是我的个人判断。

其二,人家优化算法,对内存的控制策略,摆明了是针对H800的内存局限做的,要有那么多H100搞这么复杂的内存优化干嘛,就算做优化也不会对内存占用卡的那么狠对吧。

那么结合之前看到的一些数据和介绍,幻方有上万张,乃至几万张卡是真的,前期成本肯定不是几百万美金那么少,但是比起行业巨头来说,他们的资金其实也有限,能拿到的资源也有限,我觉得合理估算,几年来累计投入十几个亿甚至二十多亿人民币我认为是有可能的(硬件采购成本,员工成本,前期训练和迭代的试错成本等等),肯定不是个小数字,也不是普通创业公司能玩的起来的,但比起美国同行,比起行业巨头,肯定也是抠门了很多,总研发成本比美国同行低一个数量级也是合理的。

没有网传那么省钱,但确实还是挺省钱的,这是我的结论。

4、合规风险和生态诉求

另一个巨大的误读,就是很多人没意识到,DeepSeek这个词背后究竟是什么。

其实我们所说的DeepSeek,实际上包括了两个产品,一个是DeepSeek这个风靡世界的App,另一个是github上的开源代码库。

前者可以认为是后者的Demo,一个完整的能力展示,而从他们产品的动作来看,我甚至怀疑他们压根没有将DeepSeek App商业化的打算,做个类比来看,就好比微信刚推出小游戏功能的时候,推出了一个跳格子小游戏,当时全网的人都在疯玩跳格子,但微信根本不在乎跳格子这个游戏的价值,他们要的是微信小游戏这个生态的建立。

现在网上有很多新闻,说某些国家某些地区禁用了DeepSeek,又说某些巨头接入和提供了DeepSeek。很多人把这两件事混为一谈,其实这是完全独立的两件事。

DeepSeek这个App貌似没有做全球分区处理,没有针对任何地区做本地化处理,从这一点来说,确实很多国家和地区会有针对性的政策。(微信在不同国家和地区都有不同的处理,有不同的功能会在不同区域被禁用,很多国内产品出海都会存在类似的问题,海外合规是个非常大的话题,不展开讲了)。小红书其实也是类似,我直播里就讲过,小红书压根没打算去接网民所谓的泼天富贵,对小红书来说,这也不是泼天富贵。它以前只做中文流量,不显山不露水的与世无争,被突然推到前台其实合规麻烦也是数不清。好在这俩产品目前都具有很好的统战价值,合规麻烦暂时主要在海外,国内目前官方都还是积极支持的。

但开源系统就不一样了,而且DeepSeek还选择了最大气的开源协议(太大气了,完全不限制商用,真的是情怀,无比佩服。),据我所知,不太会有哪个政府傻缺到去限制开源软件的部署。所以各个国际巨头快速部署并提供相关服务,这个和某些政府所谓的限制使用DeepSeek App,完全是两回事,一点不冲突,而且他们限制的是政府雇员使用,并没有限制普通群众使用。

你换位思考一下,中国会允许政府机构和军队使用部署在海外的数据产品么,为什么。但是海外开源系统的内部私有化部署一定是合规的(当然前提是经得起代码审计),而且也一定是广泛存在的。

如果我们放眼DeepSeek生态,而不是纠结于那个App,目前全球正在处于蓬勃发展的阶段,还没有看到任何禁令阻止这一趋势的发展。而且我相信,从梁文峰当下的做事风格来看,相关生态环境的发展也是他真正所期待的。

5、行业影响

很多人觉得英伟达完了,美国巨头完了,我不这么看,我觉得DeepSeek最大的贡献是,会加速整个AI产业的迭代效率,它们提供了一些新的优化思路,工程思想理念,会被所有行业巨头广泛吸收采纳,并用于产品的快速迭代和优化,用不了几个月,我相信就会看到显著的成果。

其实最近几天,就能看到chatgpt产品迭代突然提速了,我觉得重头戏还在后面。

至于CUDA,有人觉得CUDA架构面临崩塌,我也不太信。

确实,这给受限于美国制裁的中国厂商提供了新的思路,从PTX入手,一样可以做出优秀的产品,但Cuda也会与时俱进啊,你的内存利用方式很优秀,我学过来,整合到我的新版本里不行么。下个版本更新发布的时候,包含一些新的方法和特性,基于它的生态架构,用户还是会继续使用顺手的产品。

DeepSeek用卓越的工程思想,促进AI全行业的快速迭代,并促进相关开源生态的快速发展,这既是我对它的预测,也是我对它的价值认定。

当然,负面也是有的,因为它的训练成本真的低,效果也确实真的好,而且还全部开源,如果一些黑灰产领域在没有合规约束的情况下进行训练和使用,说真的,想想也挺可怕的,而且,还真没想到有什么好办法去应对。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70211.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue 3 30天精进之旅:Day 15 - 插件和指令

欢迎来到“Vue 3 30天精进之旅”的第15天!今天我们将深入探讨Vue 3中的插件和自定义指令。这两个主题能够帮助我们扩展Vue的功能,使我们的应用更加灵活和强大。 一、插件概述 1. 什么是插件? 在Vue中,插件是一种功能扩展机制。…

PostgreSQL 数据库备份与还原

为了安全与数据共享等,创建好的数据库有时候需要备份操作和还原操作。数据库的备份与还原主要是三个命令:pg_dump、pg_dumpall 和 pg_restore 。 其中pg_dump用于备份单个数据库,它支持多种备份格式(SQL、自定义等)&a…

排序算法--计数排序

唯一种没有比较的排序(指没有前后比较,还是有交换的)。统计每个元素出现的次数,直接计算元素在有序序列中的位置,要求数据是整数且范围有限。适用于数据为小范围整数(如年龄、成绩),数据重复率较高时效率更优。可用于小…

Ubuntu重启搜狗输入法

Ubuntu的搜狗输入法重启_ubuntu sogou reset-CSDN博客 # fictx自带的重启 fcitx -r

C#结合html2canvas生成切割图片并导出到PDF

目录 需求 开发运行环境 实现 生成HTML范例片断 HTML元素转BASE64 BASE64转图片 切割长图片 生成PDF文件 小结 需求 html2canvas 是一个 JavaScript 库,它可以把任意一个网页中的元素(包括整个网页)绘制到指定的 canvas 中&#xf…

java进阶专栏的学习指南

学习指南 java类和对象java内部类和常用类javaIO流 java类和对象 类和对象 java内部类和常用类 java内部类精讲Object类包装类的认识String类、BigDecimal类初探Date类、Calendar类、SimpleDateFormat类的认识java Random类、File类、System类初识 javaIO流 java IO流【…

static成员变量的本质?静态变量?静态类有什么意义?全局变量?类函数?

static成员变量的本质 面向对象编程语言喜欢将全局变量转移到类内部变成static变量,看起来不像全局变量。事实上,编译器会将static成员变量和全局变量看做的一样的,编程语言的写法减少程序员随意操作全局变量的可能,虽然事实上它们…

RK3566-移植5.10内核Ubuntu22.04

说明 记录了本人使用泰山派(RK3566)作为平台并且成功移植5.10.160版本kernel和ubuntu22.04,并且成功配置&连接网络的完整过程。 本文章所用ubuntu下载地址:ubuntu-cdimage-ubuntu-base-releases-22.04-release安装包下载_开源…

笔记day7

文章目录 1 分页功能实现2 分页器的展示需要哪些数据(条件)?3 自定义分页器4 分页器存在问题5 分页器动态展示6 开发某一个商品的详情页面 1 分页功能实现 为什么很多项目采用分页功能,比如电商平台同时展示的数据有很多&#xf…

【starrocks学习】之将starrocks表同步到hive

目录 方法 1:通过HDFS导出数据 1. 将StarRocks表数据导出到HDFS 2. 在Hive中创建外部表 3. 验证数据 方法 2:使用Apache Spark同步 1. 添加StarRocks和Hive的依赖 2. 使用Spark读取StarRocks数据并写入Hive 3. 验证数据 方法 3:通过…

stm32点灯 GPIO的输出模式

目录 1.选择RCC时钟 2.SYS 选择调试模式 SW 3.GPIO 配置 4.时钟树配置( 默认不变)HSI 高速内部时钟8Mhz 5.项目配置 6.代码 延时1s循环LED亮灭 1.选择RCC时钟 2.SYS 选择调试模式 SW 3.GPIO 配置 4.时钟树配置( 默认不变&#xff09…

Docker基础以及单体实战

Docker 一、Docker1.1 Docker组成1.2 Dcoker运行图1.3 名称空间Namepace 1.4 docker、Docker compose、kubermetes 二、Docker安装2.1 在线Docker安装2.2 使用官方通用安装脚本2.3 二进制安装Docker三、Docker基础命令3.1 启动类3.2 镜像类3.3 容器类3.4 网络类3.5 Docker comp…

搭建Python环境:为量化交易做准备

搭建Python环境:为量化交易做准备 在量化交易的世界里,一个稳定且高效的Python环境是成功的关键。本文将指导您如何从零开始搭建适用于量化交易的本地Python环境,并介绍一些常用的代码编辑器和工具。 Python环境安装指南 官网安装&#xf…

Vue.js组件开发

Vue.js 是一个用于构建用户界面的渐进式 JavaScript 框架,组件化开发是 Vue.js 的核心特性之一,它允许你将页面拆分成多个小的、可复用的组件,从而提高代码的可维护性和可复用性。以下是关于 Vue.js 组件开发的详细介绍: 1. 组件…

备考蓝桥杯嵌入式7——ADC电压采集

目录 ADC电压采集 代码书写 ADC电压采集 ADC的含义就是将一个范围内的电压映射成为数字传入进来。举个例子,当我们想要做一个非常简单的电压测量计的时候,使用ADC就会将我们的模拟电压信号转化为数字电压信号。 我们的板子上有两个电压采集旋钮&#…

【大模型实战】0代码基于DeepSeek-R1搭建本地知识库,打造专属智能助手

【大模型实战】0代码基于DeepSeek-R1搭建本地知识库,打造专属智能助手 一、ollama下载与安装二、部署deepseek私有模型三、部署embedding模型四、可视化操作工具(1)下载与安装工具(2)部署安装的模型(3) 添加知识库(4)添加智能体助手(5) 助手问答一、ollama下载与安装…

Java进阶(vue基础)

目录 1.vue简单入门 ?1.1.创建一个vue程序 1.2.使用Component模板(组件) 1.3.引入AXOIS ?1.4.vue的Methods(方法) 和?compoted(计算) 1.5.插槽slot 1.6.创建自定义事件? 2.Vue脚手架安装? 3.Element-UI的…

Java 面试真题

本题适合一到三年 Java 开发 ,以下问题都是按照原面试官提问记录 文章目录 我要进大厂系列面试题二面 我要进大厂系列面试题 全部真题,欢迎投稿你的面试经验。 本篇涉及基础较多,但要耐性看完。 JVM内存模型垃圾回收器用的哪个gc各个算法…

前端组件标准化专家Prompt指令的最佳实践

前端组件标准化专家Prompt 提示词可作为项目自定义提示词使用,本次提示词偏向前端开发的使用,如有需要可适当修改关键词和示例 推荐使用 Cursor 中作为自定义指令使用Cline 插件中作为自定义指令使用在力所能及的范围内使用最好的模型,可以…

windows环境下安装Python3.13.2

1. 下载 Python 3.13.2 访问 Python 官方网站。 在下载页面中,找到 Python 3.13.2 的版本。如果下载其他版本,可以点击页面底部的“Previous releases”链接,查找旧版本。 选择适合 Windows 的安装包(通常是 .exe 文件&#xff…