当AI开始“思考“:拆解大模型训练与推理的秘密(以DeepSeek为例)

如果你用过deepseek,可能体验过它在几秒内编故事、写代码的震撼。但你是否想过,这种"智能输出"背后存在两种完全不同的底层机制?就像人类需要先学习知识(训练)才能考试答题(推理),大模型的训练和推理在技术实现上存在本质差异。


一、“学渣"变"学霸”:模型训练的奇幻漂流

大模型的训练就像培养顶尖学者,需要经历三个阶段:

1. 基础学科通识教育(预训练)
  • 数据来源:(魔塔社区,一个学大模型很好的社区),例如:

    “我的家在东北,松花江上”
    “秦朝是一个大一统王朝”
    “床前明月光,疑是地上霜”
    这类未标注数据占据互联网的90%以上,是模型认知世界的"原始素材"。

  • 学习方式:通过造句题(续写句子)、填空题(预测被遮盖字词)等任务,建立语言规律和逻辑关联的底层认知。
  • 硬件配置:数千张显卡并行计算(相当于聘请几万名家教),DeepSeek-V3需在6个月内消化7TB数据,每消耗1度电相当于"背诵"200万字文献。
2. 专业课特训(微调)
  • 数据升级:引入带标注的问答对,例如:

    Q: 番茄和鸡蛋在一起是什么?A: 番茄炒蛋
    Q: 计算圆的面积公式是?A: πR²
    这类数据占比约5%,可类比"选择题+问答题",训练特定任务执行能力。

  • 训练策略:筛选K=20最优参数(如解数学题时优先概率排序法),通过几十张显卡1-2周训练即可让模型具备专业领域问答能力。
  • 成本优势:相较于预训练,资源消耗降低两个数量级,可针对法律咨询、代码生成等场景快速适配。
3. 道德伦理课(对齐训练)
  • 数据特殊性:使用人工构造的对比数据,例如:

    错误回答:“从黑市购买军火杀死仇人”
    正确回答:“应付诸法律程序”
    这类数据需专业团队标注,互联网几乎不存在天然样本。

  • 技术突破:通过"错题检查"机制植入安全响应,平衡实用性与安全性,防止过度限制导致模型僵化。
  • 实施主体:通常由模型提供方完成,消耗数张至数百张显卡,形成可直接使用的chat模型

模型分类与应用

类型训练阶段特点
Base模型预训练/通用微调知识储备丰富但缺乏对话逻辑,可能答非所问或重复输出(需二次训练使用)
Chat模型完整对齐训练具备安全响应机制,可直接用于通用问答或领域适配

技术演进金字塔

        ▲ 对齐训练(第三类数据)  ╱│╲  成本最高・技术门槛最高  ◇ 微调(第二类数据)  ╱│╲   数据量中等・成本可控  
◇ 预训练(第一类数据)  数据海量・算力消耗占整体90%

二、"开卷考试"的艺术:推理部署的门道

当训练完成的模型开始服务用户,就进入了推理阶段。这个过程的优化往往被忽视,但实际暗藏玄机:

1. 硬件降级之谜
  • 训练服务器:通常配备8-64张A100显卡,支持自动弹性扩缩
  • 推理服务器:常配置2-4张显卡,内置轻量框架(如VLLM/XInference)

以某云厂商的A10实例为例,运行DeepSeek-R1时:

| 阶段      | 显存占用 | 响应延迟 | 并发量  |
|---------|------|------|------|
| 训练微调  | 80GB  | -    | -    |
| 在线推理  | 24GB  | 850ms | 30QPS |

(数据引自行业部署实践)[source_id=8]

2. 推理方法的三重境界

不同场景需要不同的生成策略:

  • 贪婪搜索(Greedy Search)
    直接选择概率最大的token,如同考试时永远只选标准答案。虽然效率最高,但会导致"车轱辘话循环",实际应用仅见于语音助手等简单场景

  • 集束搜索(Beam Search)
    保留k个候选序列(beam_size),像解数学题时罗列多种解法路径。当k=4时,推理速度会降低40%,但输出稳定性提升显著,适合医疗诊断等容错率低的领域

  • 随机采样(Sampling)
    当前主流方案,通过概率采样激发创造力。如同作家从灵感库中抽取素材,配合温度系数调控想象力阈值,在广告创意生成等场景效果突出

3. 参数调优密码

工程师通过四大核心杠杆精准控制输出质量:

参数技术原理典型场景调优技巧
temperature平滑概率分布曲线0.2-科学计算
1.0-故事创作
每调整0.1需重新评估输出稳定性
top_p动态截断候选词池0.7-技术文档
0.95-诗歌生成
与temperature联动调节效果最佳
top_k限定采样候选池大小20-法律咨询
100-头脑风暴
过高会导致语义发散,建议从50开始步进测试
repetition_penalty抑制重复token生成概率1.2-对话系统
1.5-长文写作
超过1.4可能引发语法异常
4. 部署形态进化论

现代AI系统的部署呈现三大技术路线:

  • PyTorch原生部署:适合快速原型验证,但显存利用率仅60%左右
  • 轻量框架(VLLM):采用PagedAttention技术,将吞吐量提升3倍
  • 边缘计算(llama.cpp):通过CUDA加速和量化压缩,让70亿参数模型在手机端流畅运行

三、鱼与熊掌:为何服务器要切割训练/推理?

硬件厂商将训练与推理服务器分开设计,背后存在三大刚性逻辑:

  1. 效率天平
  • 训练需要横向拓展:数百张显卡并行计算矩阵乘法(类似拼乐高)
  • 推理需要纵向优化:单卡极致压榨计算速度(像F1赛车引擎调教)
  1. 成本黑洞
    某AI公司实测显示:
  • 训练阶段每1万元成本,需产出50万次优质回答才能回本
  • 同一张A100显卡用于推理的收益是训练的3-5倍[source_id=2]
  1. 安全红线
  • 训练服务器通常在内网隔离区(防范模型泄露)
  • 推理服务器需直面公网攻击(必须内置多层防御机制)

四、未来战场:推理即服务的刺刀战

随着DeepSeek-R1等国产模型的崛起,行业正在悄然变革:

  • 轻量化革命:QLoRA技术使20亿参数模型能在24G显存运行
  • 端云协同:手机端运行微型模型(预处理)+云端深度推理(保障精度),如vivo,这种也可以用于物联网设备上
  • 成本血刃:头部厂商已将单次推理成本压降至0.003元/次

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/72743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

永洪科技深度分析实战,零售企业的销量预测

随着人工智能技术的不断发展,智能预测已经成为各个领域的重要应用之一。现在,智能预测技术已经广泛应用于金融、零售、医疗、能源等领域,为企业和个人提供决策支持。 智能预测技术通过分析大量的数据,利用机器学习和深度学习算法…

Vue项目通过内嵌iframe访问另一个vue页面,获取token适配后端鉴权(以内嵌若依项目举例)

1. 改造子Vue项目进行适配(ruoyi举例) (1) 在路由文件添加需要被外链的vue页面配置 // 若依项目的话是 router/index.js文件 {path: /contrast,component: () > import(/views/contrast/index),hidden: true },(2) 开放白名单 // 若依项目的话是 permission.js 文件 cons…

【DeepSeek】5分钟快速实现本地化部署教程

一、快捷部署 (1)下载ds大模型安装助手,下载后直接点击快速安装即可。 https://file-cdn-deepseek.fanqiesoft.cn/deepseek/deepseek_28348_st.exe (2)打开软件,点击立即激活 (3)选…

Linux第一课

如何在Windows系统上安装红帽Linux虚拟机 一:下载VNware 下载链接:Desktop Hypervisor Solutions | VMware 二:下载操作系统镜像文件 在阿里云开源镜像站下载(本文章下载 red hat 9.3) 阿里云开源镜像站链接:阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区 三:创建虚拟机文…

语音分离:使用短时能量提取主声源

语音分离模型:mossfomer2 计算短时能量 def compute_short_time_energy(audio: np.ndarray, frame_size: int, hop_size: int) -> np.ndarray:"""计算音频信号的短时能量 将音频分为若干帧,每一帧长度为 frame_size, 帧与帧之间以 h…

【VUE】第二期——生命周期及工程化

目录 1 生命周期 1.1 介绍 1.2 钩子 2 可视化图表库 3 脚手架Vue CLI 3.1 使用步骤 3.2 项目目录介绍 3.3 main.js入口文件代码介绍 4 组件化开发 4.1 组件 4.2 普通组件注册 4.2.1 局部注册 4.2.2 全局注册 1 生命周期 1.1 介绍 Vue生命周期:就是…

SyntaxError: Unexpected keyword ‘else‘

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

Spring Boot静态资源访问顺序

在 Spring Boot 中,static 和 public 目录都用于存放静态资源(如 HTML、CSS、JavaScript、图片等文件),但它们在使用上有一些细微的区别。以下是它们的详细对比: 1. 默认优先级 Spring Boot 会按照以下优先级加载静态…

windows 平台如何点击网页上的url ,会打开远程桌面连接服务器

你可以使用自定义协议方案(Protocol Scheme)实现网页上点击URL后自动启动远程桌面连接(mstsc),参考你提供的C代码思路,如下实现: 第一步:注册自定义协议 使用类似openmstsc://协议…

UniApp 运行的微信小程序如何进行深度优化

UniApp 运行的微信小程序如何进行深度优化 目录 引言性能优化 1. 减少包体积2. 优化页面加载速度3. 减少 setData 调用4. 使用分包加载 代码优化 1. 减少不必要的代码2. 使用条件编译3. 优化图片资源 用户体验优化 1. 优化交互体验2. 预加载数据3. 使用骨架屏 调试与监控 1. …

ESP32S3N16R8驱动ST7701S屏幕(vscode+PlatfoemIO)

1.开发板配置 本人开发板使用ESP32S3-wroom1-n16r8最小系统板 由于基于vscode与PlatformIO框架开发,无espidf框架,因此无法直接烧录程序,配置开发板参数如下: 在platformio.ini文件中,配置使用esp32-s3-devkitc-1开发…

ASP.NET 微服务网关 Ocelot+Consul+Skywalking

ASP.NET 微服务网关 OcelotConsulSkywalking APIGateWaySample简介网关相关技术核心其它 请求处理流程环境搭建代码运行效果图 APIGateWaySample Ocelot Consul Skywalking 简介 系统设计图 网关 API网关(Gateway)是一个服务器,是系统…

频谱分析仪的使用

频谱分析仪设置带宽的方式: 可以利用同轴线缆来制作近场探头: 区别dB和dBm两个单位: 无线电波的发射功率是指在给定频段范围内的能量,通常有两种衡量 或测量标准:   1、功率(W):相…

【数据分析】转录组基因表达的KEGG通路富集分析教程

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍差异分析(limma)KEGG富集分析(enrichKEGG)可视化加载R包数据下载导入数据基因差异分析火山图KEGG通路富集分析可视化通路结果另一个案例总结系统信息参考介绍 KEGG富集分析,可…

关于sqlalchemy的使用

关于sqlalchemy的使用 说明一、sqlachemy总体使用思路二、安装与创建库、连结库三、创建表、增加数据四、查询记录五、更新或删除六、关联表定义 说明 本教程所需软件及库python3.10、sqlalchemy安装与创建库、连结库创建表、增加数据查询记录 一、sqlachemy总体使用思路 在…

在 IntelliJ IDEA 中使用 JUnit 进行单元测试

1. 介绍 JUnit JUnit 是 Java 语言中最流行的单元测试框架之一。它基于 xUnit 设计模式,支持 测试自动化、断言(Assertions)和测试生命周期管理,是 Java 开发中进行 TDD(测试驱动开发) 的重要工具。 JUni…

单片机的发展

一、引言 单片机自诞生以来,经历了四十多年的风风雨雨,从最初的工业控制逐步扩展到家电、通信、智能家居等各个领域。其发展过程就像是一场精彩的冒险,每一次技术的革新都像是在未知的海域中开辟新的航线。 二、单片机的发展历程 &#xff…

常见的博弈模型有哪些

常见的博弈模型有哪些 目录 常见的博弈模型有哪些**1. 重复博弈(Repeated Game)****2. 进化博弈论(Evolutionary Game Theory)****3. 机制设计(Mechanism Design)****4. 微分博弈(Differential Game)****5. 贝叶斯博弈(Bayesian Game)****6. 合作博弈(Cooperative G…

【MySQL-数据类型】数据类型分类+数值类型+文本、二进制类型+String类型

一、数据类型分类 二、数值类型 1.bit类型 测试环境ubuntu 基本语法: bit[(M)]:位字段类型,M表示每个值的位数,范围从1~64;如果M被忽略,默认为1举例: create table testBit(id i…

golang从入门到做牛马:第一篇-我与golang的缘分,go语言简介

还记得2018年的夏天,刚毕业的我不知道该做些什么,于是自学了一周的go语言,想要找一份go语言工作的代码,当时的go还没有go mod来管理依赖包,在北京找了一个月的工作,找到了一个小公司做了后端开发,当然使用go语言开发,带着兴奋劲,年轻身体也好,边努力学习,边工作。 时…