收藏必备!大模型知识蒸馏技术调研:黑盒、白盒与混合方法全解析

文章调研了大模型知识蒸馏近年工作,分为黑盒和白盒两种类型。黑盒蒸馏在工业界应用更广,白盒蒸馏在学术界研究较多。文章介绍了代表性文献,包括DeepSeek-R1、MiniPLM等黑盒方法,以及DistilQwen2.5等黑白盒结合方法,并讨论了蒸馏效果评估,旨在将大模型知识转移到小模型中。


调研了一下大模型知识蒸馏方向近几年的一些工作。

概述

知识蒸馏的目的是将知识从大型复杂模型转移到更小更高效的模型中。

按照实现类型,大体可分为两种:

  • 黑盒蒸馏(Black-box):学生模型仅可访问教师模型的输入和输出
  • 白盒蒸馏(White-box):除了教师模型输入输出外,教师模型的输出分布或中间隐藏状态也可访问

当前的主要趋势是:黑盒蒸馏在工业界使用更广泛,因为黑盒蒸馏能利用闭源模型的能力。学术界用白盒蒸馏的研究也比较多,容易挖掘创新点。此外,也有一些工作开始采用白盒蒸馏与黑盒蒸馏相结合,逐渐成为新的发展方向。

代表性文献

综述性文章

A Comprehensive Survey on Knowledge Distillation[1] 这篇是25年10月的综述,内容比较详尽,它将白盒蒸馏和黑盒蒸馏细分成以下几个类别:

其中,白盒蒸馏是根据模型的架构去分,分成基于BERT和只基于Decoder的,这种分发个人觉得比较粗暴,不是很合理。

黑盒蒸馏是根据方法区分,比较合理,主要分为以下三种:

  • 思维链(Chain of Thought):教师模型对已有数据生成思维链,供学生模型训练
  • 指令遵循(Instruction Following):教师模型对训练数据生成指令、输入和输出样本,供学生模型训练
  • 上下文学习(In-context Learning):构造任务,收集教师模型在不同上下文情况下的输出,结果供学生模型训练

Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application[2] 是另一篇综述性的研究,发布时间是24年1月,内容不如上一篇丰富,不过也提出了一些不同的梳理和思考。

A Survey on Knowledge Distillation of Large Language Models[3]这篇24年的文章则是根据具体的方法论,汇总了各种知识蒸馏的方法,研究细分领域可以参考。

黑盒蒸馏文章

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning[4]这篇文章就是黑盒蒸馏的典型代表。

在这篇文章中,有6个蒸馏的小模型,4个基座是Qwen,两个基座是Llama3.1。

DeepSeek-R1小模型的蒸馏方式:将DeepSeek-v3(671B)模型生成的数据作为小模型训练集。

训练数据量包含两部分:推理数据(60w)+非推理数据(20w)

MiniPLM: Knowledge Distillation for Pre-Training Language Models[5]是最新比较典型的黑盒蒸馏方法。

具体思路是:根据教师模型和学生模型之间的输出概率分布差异,调整学生模型预训练数据的语料库。

根据概率分布,做出以下调整:

  • 减少简单样本
  • 增加复杂/多样性样本
  • 提出噪音/有害样本

它的实验中教师模型参数量为1.8B,学生模型的参数量为200M/500M/1.2B。

其中,Pre-Train w/o KD为未经蒸馏的小模型性能表现。

黑盒与白盒结合蒸馏文章

DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models[6] 是通义实验室发布的一篇比较经典的黑白盒相结合的文章。

具体方案是:

  • 黑盒蒸馏:使用Qwen3-Max(1T)和GPT-4o(闭源)作为教师模型,来生成小模型的训练数据
  • 指令问题生成:根据问题指令,输出相关响应
  • 优化训练数据:为原始训练数据增加思维链(CoT)
  • 训练数据筛选:根据信息量、任务平衡性筛选数据
  • 验证问题正确性:对已有答案进行事实核验
  • 白盒蒸馏:让学生模型的输出和教师模型输出尽可能接近

白盒蒸馏除交叉熵损失外,还采用知识蒸馏损失来最小化学生模型与教师模型的输出的Token序列之间的散度。

模型蒸馏前后的性能如下表所示:

蒸馏前后总体会有提升,部分任务可能无变化或下降。

后面我会进一步从代码角度分析这篇文章的思路。

蒸馏效果评估

在调研具体方法时,还发现了Quantification of Large Language Model Distillation[7]这一篇有关蒸馏效果量化评估的工作。

里面解释了一个有趣的现象:当问大模型身份性问题时,它可能会答出其它厂商的答案。

比如,问Qwen-Max它的开发团队是谁,它会说它是由Anthropic开发的。

按照这篇文章提出的评估方法,蒸馏水平越靠近右上角,采用蒸馏的程度越高。

图中表明,Claude、Doubao和Gemini的蒸馏程度较低,而Qwen-Max的蒸馏程度最高。

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

4. 大模型项目实战

学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1195963.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LangChain多智能体架构全解析:5种模式实战+收藏级代码实现

本文详解LangChain多智能体系统架构,介绍Subagents、Handoffs、Skills、Router和Custom workflow五种实现模式,并通过搜索智能体案例展示两种实际应用方案。多智能体系统通过群体智能突破单智能体能力边界,适合复杂、动态、大规模任务场景&am…

热销榜单:2026年高口碑企业加密软件评测公司口碑排行榜单,数据防泄露系统机构推荐

在2026年的企业加密软件评测中,各家公司以其卓越的服务和产品质量脱颖而出,形成了较为明显的口碑差距。评测依据包括易用性、安全性及用户反馈等多个维度,整体展示了各大公司的综合实力和市场表现。例如,中安网脉(…

2026年腐殖酸钾优质厂家推荐指南适配多场景

2026年腐殖酸钾优质厂家推荐指南 一、行业背景与筛选依据 据《2025-2030年中国腐殖酸肥料行业发展白皮书》数据,国内腐殖酸肥料市场年复合增长率达8.2%,其中腐殖酸钾因兼具养分补给与土壤调控功能,市场需求占比提升…

TDengine 字符串函数 GROUP_CONCAT 用户手册 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

亚马逊、敦煌网商家突围必备!自养号测评补单提升店铺排名销量秘籍

在跨境电商领域,otto、wayfair、亚马逊、速卖通、阿里国际站、敦煌网、虾皮、lazada、美客多等平台已然成为众多卖家逐鹿的战场。在这些平台上,产品的排名与销量,就如同企业的生命线,直接决定着卖家在全球市场中的竞争力与盈利水平…

【强烈收藏】7天打造AI知识库:每天10分钟,把你的经历变成可复用的知识资产

这是一款7天知识库搭建打卡营,每天仅需10分钟,通过双线并行方式(明线学工具,暗线显化经验),帮助知识工作者从零开始建立个人知识库系统。课程无需技术基础,强调"先完成再完美"原则&am…

十大防脱生发品牌排行榜评测,秋冬脱发严重,防脱育发液哪个牌子效果最好?

导语:脱发诱因包括营养失衡、精神压力或不当护发等。通过简单自测和日常调整,我们可逆转早期脱发,重拾自信风采。 观察每日掉发量‌:用宽齿梳梳头,收集掉落头发统计。正常每天脱落‌50-100根‌属生理范围。如果连…

【必看收藏】2023年RAG最新突破!12种前沿架构深度解析,让大模型不再胡说八道

文章介绍了12种最新的RAG高级架构与方法,包括Mindscape-Aware RAG、基于超图记忆的多步RAG、基于共现统计的动态RAG等。这些方法针对长文档处理、减少幻觉、多模态知识构建、安全防御等方面进行创新,每项研究均提供论文链接和部分代码链接,展…

深圳昊客网络|社媒外贸GEO外贸推广代运营公司/服务商:排名前十机构哪好点?

2026 年外贸出海竞争白热化,海外社媒 GEO 推广成为企业破局的关键。在深圳众多代运营机构中,排名前十的服务商各有特色,但真正能实现 “精准引流 + 高效转化” 的,往往离不开硬核技术支撑。其中,深圳昊客网络凭借…

止痒防脱洗发水怎么选?2026实测最有效榜单,国货黑马逆袭出圈

面对货架上琳琅满目的止痒防脱洗发水,不少人陷入选择困境:标注“强效止痒”的产品可能刺激头皮,主打“温和固发”的又见效缓慢;看似成分相似的单品,实际使用效果却天差地别。更令人困扰的是,多数人盲目跟风购买网…

2026年全网热议的活动搭建品牌推荐,帮你提升活动效果

在选择活动搭建服务时,了解几个知名公司的优势十分重要。一方面,青岛音象恒文化传媒有限公司以其杰出的舞美工程策划闻名于业内,提供高水准的设备和专业服务。另一方面,华彩则凭借其创新的设计和优质服务,在客户中…

c4d.python克隆体缓存操作 割草代码--支持事件回滚

import c4d from c4d import utilsdef GetClonerCache(cloner_obj, doc):# 强制更新文档缓存(确保克隆体已计算)doc.ExecutePasses(None, True, True, True, c4d.BUILDFLAGS_NONE)# 获取克隆对象的缓存根节点cache_root cloner_obj.GetCache()if cache_…

东瀛匠心・数智绿筑 2026:日本展台设计搭建的精密范本

开篇:日本展台搭建的匠心基因与合规使命 2026 年的日本会展业,正由两大核心事件重塑行业规则:9 月爱知・名古屋亚运会配套展会首次采用 “赛事 + 产业” 双展模式,带来 “轻量化搭建 + 文化展示” 的精准需求;1 月…

Arthas使用 - 倾听

1. Arthas 介绍 Arthas 是阿里巴巴开源的 Java 诊断工具,用于:实时监控线上应用(无需重启) 快速定位 CPU、内存、线程问题 分析方法执行耗时、参数、返回值 支持 JDK 6+(包括 JDK 21)✅ 核心优势:通过 JVM Atta…

2026年苏州昆山AI推广/geo优化公司/服务商哪家好?TOP5哪家好?看实战合规与本土适配

据苏州AI产业研究院2025年度《苏州GEO服务行业发展白皮书》显示,苏州TOB制造业及本地生活服务领域GEO服务渗透率达72.3%,其中合规性与本土产业适配能力成为企业选型首要考量,占比分别达81.2%、76.5%。伴随苏州装备制…

阿里上新 AI 平台「呜哩」,生图生视频免费开放!

今天发现一个新 AI 生图、生视频平台,阿里做的「呜哩 AI」。不多说,重点就是:现在用不要钱。免费用!免费用!免费用!01.呜哩一下,让对话长出新世界呜哩(Wuli) 是阿里巴巴推…

大模型基础概念解析——优化

前言 大模型(LLM)正面临类似的挑战。一个拥有数百甚至数千亿参数的模型,其“原生态”存在几个核心痛点: 巨大的计算和内存开销:训练需要成千上万的GPU数月时间,推理(使用)时也需要昂…

Shiro反序列化漏洞一站式综合利用工具

工具介绍 ShiroExploit,是一款Shiro反序列化漏洞一站式综合利用工具。 工具功能 1、区分ShiroAttack2,采用分块传输内存马,每块大小不超过4000。 2、可打JDK高版本的shiro,确保有key、有gadget就能rce。 3、依托JavaChains动态…

day158—回溯—全排列(LeetCode-46)

题目描述 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]示例 2: 输入&#x…

空气泵选购全指南:2026年市场、品牌与前瞻分析

空气泵,这个在实验室、医院、工厂乃至水产养殖中默默工作的设备,正经历着一场“静音革命”。走进一家现代化的环境监测实验室,您会发现,以往那些发出持续轰鸣的背景噪音源已悄然消失,取而代之的是运行声音轻柔如图…