dots.llm1:小红书开源的 MoE 架构大语言模型 - 实践

news/2025/9/23 21:23:24/文章来源:https://www.cnblogs.com/wzzkaifa/p/19108110

本文转载自:https://www.hello123.com/dots-llm1

**

相关图片

一、✨ dots.llm1:小红书出品的高效 AI 语言模型

dots.llm1 是小红书旗下人文智能实验室(hi lab)在 2025 年 6 月开源的一款大型语言模型。它采用了先进的MoE(混合专家)架构,虽然模型总参数量高达 1420 亿,但在实际推理时每次只激活 140 亿参数。这种设计让它既能保持强大的性能,又显著降低了计算成本和响应时间,是一个十分 “聪明” 且 “经济” 的 AI 模型。

它基于11.2 万亿高质量的真实数据进行训练(未应用合成数据),特别擅长处理中文和英文任务,并且能理解长达32K 上下文的文本,非常适合用来构建各种智能应用。

项目官网与模型地址:https://huggingface.co/rednote-hilab

1.1、 核心功能亮点

  • 智能稀疏激活(MoE 架构):模型总参数高达1420 亿,但通过 MoE 架构,每次处理任务时动态选择并仅激活 140 亿参数。这就像拥有一支庞大的专家团队,每次只邀请最相关的几位专家来解决问题,极大地提升了效率。
  • 高质量训练数据:其训练素材经过严格的三级清洗流程(文档准备、规则处理、模型处理),仅使用11.2 万亿高质量 token,证明了 “素材质量远比内容规模更重要” 的理念。
  • ⚙️ 深度工程优化:在训练过程中采用了与英伟达合作优化的1F1B 流水线调度分组 GEMM 计算,使得训练效率大幅提升,前向传播和反向传播速度分别比原有方案提升14%6.7%
  • 强大的中文理解与生成:在多项权威基准测试中表现出色,在C-Eval上的得分达到92.2,在CLUEWSC(中文语义理解)上更是达到了92.6的业界领先水平,展现了其在中文任务上的强大竞争力。
  • 超长上下文帮助:支持32K tokens的长上下文窗口,能够更好地理解和生成长文档,非常适合需要进行长文阅读、摘要生成或复杂推理的任务。
  • 开放与透明:不仅开源了最终模型,还开放了训练过程中的所有中间检查点(每 1 万亿 token 一个),并采用MIT 许可证,为研究者和开发者献出了极大的透明度和二次开发的便利。

1.2、 关键应用场景

  • 智能问答与客服系统:能构建流畅、知识丰富的多轮对话助手,适用于电商客服、企业咨询、教育答疑等场景。
  • 内容创作与营销文案生成:非常擅长生成社交媒体文案、营销文案、新闻稿等各类文本,是内容创作者和品牌方的得力助手。
  • 语义搜索与信息检索:许可提升搜索引擎和电商平台的查询理解能力和结果相关性,让用户更快找到所需信息。
  • 文本摘要与知识管理:能快速为长篇文章、报告、论文生成精准的摘要,帮忙企业高效处理内部文档和构建知识库。
  • ‍ 教育辅助与 AI 辅学:可用于智能出题、答题解析、作文润色等,为老师和学生提供学习帮助。
  • 翻译与跨语言应用:其强大的中英双语能力使其能胜任高质量的翻译任务以及跨语言的信息检索和内容生成。

1.3、 资源获取与体验

你可以通过以下方式体验模型、获取代码和技术报告:

  • 在线体验 Demo:https://huggingface.co/spaces/rednote-hilab/dots-demo
  • 模型下载(Hugging Face):https://huggingface.co/rednote-hilab
  • 技术报告与代码(GitHub):https://github.com/rednote-hilab/dots.llm1

二、 dots.llm1 深度评测与竞品对比

dots.llm1 的发布,为 2025 年的大模型赛道带来了新的活力。它不仅技术上有亮点,其 “高效” 和 “开放” 的理念也引起了广泛关注。下面我们来看看它的实际表现,并与市场上的其他主流模型做个比较。

2.1、✅ 核心优点

  1. 极高的性能效率比:这是 dots.llm1 最突出的优势。它以仅激活 140 亿参数的代价,构建了接近甚至部分超越Qwen2.5-72B等大规模密集模型的效果。这意味着在推理速度更快、计算成本更低的情况下,用户能获得顶级模型的体验。
  1. 卓越的中文理解和生成能力:在C-Eval、CLUEWSC等权威中文基准测试中取得了顶尖分数(C-Eval: 92.2, CLUEWSC: 92.6),甚至超过了 DeepSeek-V3 等模型,使其在处理中文任务时极具竞争力。
  1. 工程优化深入,训练透明开放:团队在底层训练框架上进行了大量优化(如 1F1B 流水线、分组 GEMM),显著提升了训练效率。更重要的是,开源了全部训练中间检查点,这种开放性对研究社区极为友好,是其他很多模型未能做到的。
  1. 数据质量至上:仅用11.2T 高质量数据就达到了惊人效果,证明了其数据清洗和构建流程的优越性,为 “大模型≠大信息” 给出了成功范例。

2.2、❌ 主要缺点

  1. 代码能力尚有提升空间:尽管综合能力强劲,但其在代码生成方面的表现与最顶尖的模型(如 GPT-4o、Qwen3)相比,仍存在一定差距,这可能限制了它在纯编程辅助场景的应用。
  1. MoE 路由的稳定性挑战:这是所有 MoE 模型的共同课题。在处理某些极端或特殊输入时,专家选择的稳定性和最终输出的一致性可能需要进一步的实践验证。
  1. 社区生态与工具链处于早期:作为新发布的模型,其周边的微调工具、部署优化方案、应用案例相比发布更早的模型(如 Qwen、DeepSeek)还不够丰富,需要社区和时间去积累。

2.3、 与主要竞品对比

在当前的开源大模型领域,dots.llm1 面临着几个强大的对手,主要包括阿里的 Qwen2.5-72B/Qwen3 系列DeepSeek-V3,以及Meta 的 Llama 3 系列等。

特性维度

dots.llm1 (小红书)

Qwen2.5-72B (阿里)

DeepSeek-V3 (深度求索)

Llama 3-70B (Meta)

核心架构

MoE (142B 总,14B 激活)

密集 (72B)

密集 (未知)

密集 (70B)

突出优势

极高的效率比顶尖中文能力训练完全透明

综合能力均衡生态成熟

综合能力强大长上下文支持出色

英语能力强劲全球生态丰富

主要不足

代码能力非顶尖、MoE 路由稳定性需验证

计算和推理成本较高

模型细节开源不够

中文处理相对较弱

中文能力

顶尖 (C-Eval: 92.2)

优秀 (C-Eval: 89.3)

优秀 (C-Eval: 低于 92.2)

一般

开源协议

MIT (商用友好)

Apache 2.0 (商用友好)

自定义许可证

自定义许可证

适用场景

追求高效的中文应用学术研究

需要均衡能力的企业应用

需要强大综合能力的企业应用

以英语为主的全球应用

方便总结一下一款特点鲜明的模型,它在就是:dots.llm1 效率、中文能力和开放性上做到了极致,非常适合那些特别关注成本效益、主要处理中文任务、并希望深度定制模型的企业和研究者。假如你需要极致的代码能力,可能需要关注其他专项更强的模型;如果你的应用场景全球化且多语言可靠选择;而如果你追求的是就是,Llama 3 等仍综合能力的绝对顶尖和稳定的企业级支持,Qwen 和 DeepSeek 系列则值得优先考虑。选择哪一款,最终取决于你的具体需求、技术栈和资源预算。dots.llm1 的出现,无疑为市场提供了一个高质量的新选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913926.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

哪些ERP系统值得长期使用?2025年最新盘点来了!

哪些ERP系统值得长期使用?2025年最新盘点来了!在数字化转型加速的背景下,企业对ERP系统的依赖日益加深。根据行业调研数据显示,持续应用集成化ERP系统的企业在运营效率、数据准确性和战略决策能力上较传统管理模式有…

商品网站建设设计思路dw怎么做网站

文章目录 一、redis1.1 redis概述1.2 redis安装 二、string2.1 基础命令2.2 存储结构2.3 应用 三、list3.1 基础命令3.2 应用 四、hash4.1 基础命令4.2 存储结构4.3 应用 五、set5.1 基础命令5.2 存储结构5.3 应用 六、zset6.1 基础命令6.2 存储结构6.3 应用 一、redis 1.1 re…

下载网站源码行业网站设计公司

文章来源:http://www.bjfhrd.com 体育木地板上有许多暗门,以制造特殊效果,如火焰、烟雾,使房屋、树木、山或人物在一瞬间出现或销售。这种特殊的要求,对于专业体育木地板德施工就有了一定的要求。 专业体育木地板施工&…

湖南教育平台网站建设查公司注册信息怎么查

转载自 关于SimpleDateFormat时间格式化线程安全问题昨天推送的文章《关于创建和销毁对象》一文中,2.1重复利用对象这一小节所举的SimpleDateFormat格式化时间的例子是不合适的,因为多线程场景下,SimpleDateFormat存在线程安全问题。在此&am…

网站的建设与维护需要资质吗网站设置子目录

HTTP HTTP版本HTTP2和HTTP3区别 HTTP版本 HTTP(超文本传输协议)的发展史可以分为以下几个版本: 1. HTTP/0.9:最初的版本只能传输HTML文本,并且没有header和body,仅支持GET请求。 2. HTTP/1.0&#xff1a…

如何对网站的图片做cdn如何做企业文化培训

1、什么是流 我们可以先想象水流是怎样的?溪水不断流动,最终融入大海;我们今天的学习IO其实如同水流一样,当我们读取文件信息或者写入信息时,如同水流一样,不断读取或者写入,直到业务流程结束。…

个人导航网站怎么备案网站上线准备

本文来自腾讯蓝鲸智云社区用户: CanWay 平台化工程涉及双重核心意义。一方面,是类似利用IDE等工具提高工程师效率的平台化工程,如GitOps或命令行调度般便捷。然而,本文重点探讨的是基于价值流的平台化工程,尤其针对传统金融行业&a…

部队网站模板html网页框架代码实例

分类算法之逻辑回归逻辑回归(Logistic Regression),简称LR。它的特点是能够是我们的特征输入集合转化为0和1这两类的概率。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果…

好看的单页面网站中小企业网站功能

#需要资源或有问题的,可私博主!!! #需要资源或有问题的,可私博主!!! #需要资源或有问题的,可私博主!!! 某企业根据自身业务需求&…

内网环境怎么安装软件(用 yum / apt 下载离线包并搬入内网)

目录内网环境怎么安装软件(用 yum / apt 下载离线包并搬入内网) 内网环境怎么安装软件(用 yum / apt 下载离线包并搬入内网) 很多同学觉得在内网装软件很简单:在有网络的机器上把包下载好,再拷贝到内网安装。思路…

tanh函数

tanh函数(双曲正切函数)是神经网络中一种常用的激活函数,它的数学表达式为: $$\tanh(x) = \frac{e^x - e{-x}}{ex + e^{-x}}$$ 它的输出范围是 $(-1, 1)$。 tanh函数的特点非线性:和 Sigmoid 函数一样,tanh 函数…

P13617 [ICPC 2024 APC] Bit Counting Sequence

P13617 [ICPC 2024 APC] Bit Counting Sequence对于一个非负整数 \(x\),令 \(p(x)\) 为 \(x\) 的二进制表示中 1 的个数。例如,\(p(26)=3\),因为 \(26=(11010)_2\)。 给定长为 \(n\) 的整数序列 \((a_1, a_2, ..., …

成都捕鱼网站建设做设计需要知道的几个网站

【2023高教社杯】D题 圈养湖羊的空间利用率 问题分析、数学模型及MATLAB代码 1 题目 题目 D 题 圈养湖羊的空间利用率 规模化的圈养养殖场通常根据牲畜的性别和生长阶段分群饲养,适应不同种类、不同阶段的牲畜对空间的不同要求,以保障牲畜安全和健康&a…

网页模板素材网站最新网球赛事新闻

烛秋 http://www.cnblogs.com/cswuyg/archive/2011/09/30/dll.html 动态链接库的使用有两种方式,一种是显式调用。一种是隐式调用。 (1) 显式调用:使用LoadLibrary载入动态链接库、使用GetProcAddress获取某函数地址。 &am…

如何修改网站底部重庆点优定制网站建设

文章目录 语法使用举例 $millisecond聚合运算符返回日期中毫秒部分的数字值为0到999之间 语法 { $millisecond: <dateExpression> }参数说明&#xff1a; <dateExpression>为可解析为Date、Timestamp或ObjectID或者参数也可以是一个文档&#xff1a; { date: &l…

淘宝网站模板是什么做的html中文网

dockerfiletodo item基础命令编写dockefiel基于centos镜像制作tomcatjdk的镜像todo item 是用来构建docker镜像的脚本&#xff1b;命令参数脚本。构建步骤:1、编写一个dockerfile文件2、 docker build 构建为一个镜像3、docker run 运行镜像4、docker push 发布镜像(dockerhub…

网站建设进度总结网站设为主页功能怎么做

前端技术知识&#xff08;含八股&#xff09;总结 - 持续更新中 参考文献1.HTML和CSS1.1 语义化标签1.2 CSS 选择器及优先级 / position 定位 / box-sizing 属性 / transition / 继承属性&#xff08;如字体文字类的属性大部分有继承&#xff09;/ 行内元素和块级元素 / html的…

装饰公司为什么做网站怎么区别网站开发语言

可以按这样的方式来存放 长度A 长度A 用于调整Short JMP 用于存放一些信息 |调整后的原HOOK代码 |原始代码(HOOK) |临时LONG JMP区| 信息区| 1). 调整…

上海网站制作怎么选怎么做学校官方网站

雪花算法学习笔记 来源 https://pdai.tech/md/algorithm/alg-domain-id-snowflake.html概述 雪花算法是推特开源的分布式ID生成算法&#xff0c;以划分命名空间的方式将64位分割成多个部分&#xff0c;每一个部分代表不同的含义&#xff0c;这种就是将64位划分成不同的段&…

建设租房子的网站住房和城乡建设部资质延期

声明 该图并非原创&#xff0c;原文出处不可考&#xff0c;因此在这里附加说明。 示意图