【硬核干货】大模型开发核心:预训练技术深度剖析,附完整代码实现!

在逐一熟悉各类主流 AI 应用场景:聊天交互、检索增强生成(RAG)知识库、网络搜索、工具调用、AI Coding等之后,接下来就是要进一步探究这些应用的核心支撑 —— 大语言模型(LLM, Large Language Model)的底层实现细节。

一般而言,训练一个完整的 LLM 需要经过图中的三个阶段——预训练(Pretrain)、指令监督微调(SFT )和 强化学习(RLHF)。其中,预训练是从零构建大语言模型的首要基础环节,本文将围绕这一阶段展开详细介绍。

1. 什么是预训练

Pretrain,即预训练,是训练 LLM 最核心也是工程量最大的第一步,也是制作和自研模型不可缺少的一步。

LLM 的预训练和传统预训练模型非常类似,同样是使用海量无监督文本对随机初始化的模型参数进行训练。目前主流的 LLM 几乎都采用了 Decoder-Only 的类 GPT 架构(LLaMA 架构),它们的预训练任务也都沿承了 GPT 模型的经典预训练任务——因果语言模型(Causal Language Model,CLM)
因果语言模型建模,即和最初的语言模型一致,通过给出上文要求模型预测下一个 token 来进行训练。这种预训练过程其实就是无监督学习的过程,即使用无标注的原始数据,将文本输入,通过分词Token化后,模型会预测出下一个token,接着计算损失函数,再反向传播优化模型权重,再将此token作为输入,直到触发结束条件。

训练过程通常要经过数百万次甚至更多个训练批次,在经历不断调整权重后,模型能够内化我们给它训练的知识,从而去拟合我们提供的知识。这本质就是“概率统计的高级复读机”:通过多层Transformer结构,模型学习数据中长距离依赖和抽象语义,进而通过层次化表示实现对知识的重组,展现非机械复现的涌现能力

涌现能力是指同样的模型架构与预训练任务下,某些能力在小型模型中不明显,但在大型模型中特别突出。涌现能力的显现就像是模型性能随着规模增大而迅速提升,超过了随机水平,也就是我们常说的量变引起了质变

2. 数据集构建

训练数据是预训练 LLM不可或缺的一环 ,想要成功训练一个性能优异的大语言模型,往往需要储备数百 B 乃至超过 1T 规模的预训练语料。研究表明,LLM 所掌握的知识绝大部分都是在预训练过程中学会的,为了让最终训练出的模型拥有更全面的知识覆盖范围,预训练语料需要组织多种来源的数据,并以一定比例进行混合。目前,主要的开源预训练语料包括CommonCrawl、C4、Github、Wikipedia等。

除了训练语料的选择,**数据的处理与清洗**也非常重要。甚至可以说,预训练数据的质量往往比体量更加重要,预训练数据处理一般包括以下流程:
  1. URL过滤:列举主流网站的URL,对有害网站URL进行过滤,例如垃圾站点、成人内容等

  2. 文本提取:从URL网站响应的文本中提取文字内容

  3. 文本语言过滤:如仅针保留英文或者中文内容

  4. Gopher 过滤:去除无意义、低信息量或有害内容(如垃圾文本、暴力、偏见等)

  5. MinHash 去重:用于快速检测并移除数据集中的重复或近似重复的文本片段(如文档、段落或句子)。其核心目的是减少数据冗余,避免模型因重复数据过拟合或偏向高频内容,同时节省计算资源。

  6. C4 过滤:C4(Colossal Clean Crawled Corpus) 数据集进行清洗和筛选的步骤,旨在从原始网页文本中提取高质量、多样化的语料,同时去除噪声、重复和低效内容。

  7. 自定义过滤:针对通用过滤方法(如MinHash去重、C4/Gopher过滤)无法覆盖的领域特殊性问题,进行更精细化的数据质量控制。

  8. 个人身份信息移除:从原始数据中识别并删除或匿名化个人身份信息(Personally Identifiable Information, PII),旨在保护用户隐私、遵守数据保护法规(如GDPR、CCPA),并降低模型泄露敏感信息的风险。

    不同的 LLM 还会在开源预训练语料基础上,加入部分私有高质量语料,再基于自己实验得到的最佳配比来构造预训练数据集。数据配比向来是预训练 LLM 的“核心秘籍”,不同的配比会在很大程度上影响最终模型训练出来的性能。

    此外,对于垂直领域的数据,若直接采用通用的数据清洗规则,可能会带来一些问题。例如,一些专业术语或者特有技术的缩写,在通用数据清洗规则下可能会被当作噪声处理,导致模型无法识别这些词汇的特定意义,只能将其当作普通无意义的文本处理。因此,需要针对特定领域的专业数据集进行专门的去噪和特征保留设计。

3. 分词

为了将文字转化成模型能够理解的数字,需要通过分词(令牌化,Tokenization)操作将输入的文本拆分为模型可以理解的离散单元(Token)。经过分词操作的文本会变成数据表示的一维token序列,其中的各个token都拥有相对的完整性和独立的语义,供后续任务的使用。 分词的质量好坏能直接影响到模型对文本的理解能力和执行效率。是很多LLM问题的核心:为什么大模型无法完成像反转字符串这样极其简单的字符串处理任务?为什么大模型在非英语语言(例如日语)上的表现较差?为什么大模型不擅长算数?……痛苦的真正根源是什么?是分词。

在可视化分词结果网站上分别用gpt2和gpt4的Tokenizer去可视化中英文、数字和代码。可以看到相比gpt2,gpt-4o的分词器词汇表更大,相同内容最后的token总数更少,每一个token包含的语义更连贯也更准确。对话过程中输入的token越多,越分散注意力,降低模型准确性和性能,节约成本。不丢失信息的情况,越短越好,性能成本都会提升。(所以在与AI聊不同的主题应该开不同的会话窗口) 分词实际上就是一层映射包装,过粗、过细的分词都不利于训练和模型性能表现,分词的粒度可分为词粒度word,字符粒度char和子词粒度subword。词粒度和字符粒度的分词方法各有优劣:分词过细(字符粒度char)会导致长序列,计算开销大,分词过粗(词粒度)则会导致词汇表爆炸,内存占用高。子词粒度介于两者之间,可以在词表大小和语义表达能力之间找到较好的平衡。分词算法如BPE(Byte-Pair Encoding,如GPT)和WordPiece(如BERT),分词库如SentencePiece,就是将文本转化为子词粒度subword。 如下是对常见的分词算法和分词库的简单介绍:
  1. BPE(Byte-Pair Encoding):从一个基础小词表开始,通过不断合并最高频的连续token对来产生新的token。

  2. BBPE(Byte-level BPE):BPE算法下,来自噪声文本或字符丰富的语言(如中文)的稀有字符可能会不必要地占用词汇表,限制其紧凑性。为了解决该问题,BBPE将BPE从字符级别扩展到字节级别。

  3. WrodPiece:与BPE类似,从一个基础小词表出发,通过不断合并来产生最终的词表。差别在于,BPE是根据频率来合并token对,而WordPiece按照token间的互信息进行合并。

  4. ULM(Unigram Language Model):先初始化一个大词表,然后通过unigram语言模型计算删除不同子词造成的损失来衡量子词重要性,保留重要性较高的子词,从而倾向于留下那些以较高频率出现在很多分词结果中的子词。

  5. SentencePiece库:快速且轻量化,支持多分词粒度、多语言分词,可以实现简单且可逆的编解码,无需pre-tokenization,即直接从原始文本中进行训练。

    对比来看,Wordpiece和BPE都是走的合并思路,通过将语料拆分成最小单元(例如英文中 26 个字母加上各种符号作为初始词表)然后进行合并,词表从小到大;核心区别就在于wordpiece是按 token间的互信息来进行合并而BPE是按照token一同出现的频率来合并的。Wordpiece和ULM的都使用语言模型来挑选子词,区别在于前者词表由小到大,而后者词表由大到小:先初始化一个大词表,根据评估准则不断丢弃词表,直到满足限定条件。ULM算法考虑了句子的不同分词可能,因而能够输出带概率的多个分词结果。

    主流大语言模型的词表大小如下(按数值从小到大排序):

  6. 原版LLaMA:词表大小为 32,000 (32K),但中文token较少(仅几百个)。

  7. 中文LLaMA/Alpaca:通过合并中文tokenizer后,词表扩展至 49,953 (约50K)。

  8. 部分研究将词表从32K扩展至 43,000 (43K),显著提升下游任务性能。

  9. 理论预测的Llama2-70B最优词表大小为 216,000 (216K),但尚未实际部署。

  10. 多语言模型(如XLM-R、Bloom):词表普遍较大,约 250,000 (250K)。

4. 词嵌入

输入数据经过分词之后,需要把离散的信息(比如单个单词、一张图片,甚至一整篇文档),对应到一个连续的向量空间里,变成一个个 “点”,从而将非数值的数据,转成神经网络能读懂、能处理的格式。词嵌入Embedding本质上就是一种映射(单射)关系,是物理量(文本、图像)到数字的一种状态表征。 词嵌入中 “维度” 可以从 1 维到几千维不等。一般来说,维度越高,越能捕捉到数据里那些细微的关系 —— 比如单词之间更复杂的关联。但是维度越高计算代价就更高,计算起来会更慢,效率会下降,所以还需要做出权衡。 常见的词嵌入方法包括:
  1. OneHot:0/1二值化向量,不同的类型存储在垂直的空间
  2. Word2Vec:取一层隐藏层的神经网络输出作为词向量表示,映射的向量长度小于OneHot编码,且可以在训练时根据任务需要指定向量长度。可分为CBOW(Continus bag-of-word,根据语境预测当前词)和Skip-gram(根据当前词预测语境)两种方式
  3. FastText:本质上和CBOW一样都是快速文本分类算法,只不过CBOW输入的是目标单词的上下文,而FastText输入的是多个单词及其n-gram特征

5. 模型架构

提到模型架构,就必须先说Transformer,其结构主要由 Encoder、Decoder两个部分组成,两个部分分别具有不一样的结构和输入输出。事实上,不管是预训练语言模型,还是后续的大语言模型,基本都是对 Encoder-Decoder 部分进行改进来构建新的模型架构。 针对Encoder、Decoder的特点,有不同的对Transformer 进行优化的思路:
  1. Encoder-Decoder:同时保留 Encoder 与 Decoder打造预训练的 Transformer 模型,输入双向注意力,输出的是单向注意力。例如由 Google发布的T5模型,适合翻译等序列到序列Seq2Seq的任务。

  2. Encoder-Only:仅选取 Encoder 层进行深度堆叠,以掩码语言模型(Masked Language Model,MLM)作为预训练任务,使用双向注意力理解上下文。这一方法在自然语言理解(Natural Language Understanding,NLU)领域上表现出色,代表模型有BERT及其众多变体。

  3. Decoder-Only:使用从左到右的单向注意力,例如OpenAI选择Decoder层实现原有的语言模型(Language Model,LM)任务,通过不断增加模型参数和预训练语料,打造了在 NLG(Natural Language Generation,自然语言生成)任务上具有SOTA性能的GPT系列模型。

    目前主流的大语言模型LLM的基座模型大多采用Decoder-Only架构,包括 GPT 系列、LLaMA 系列、DeepSeek 系列、Anthropic 的 Claude、Google Gemini 的文本模块,以及 Qwen 系列等。通过采用单向因果注意力掩码,确保模型在生成时仅能关注前文信息。下图展示了LLaMA-3的模型结构。

Decoder-Only 架构在自然语言生成(NLG)任务中表现突出,核心在于其 “预测下一个 Token(Next Token Prediction)” 的预训练范式:这一范式使得预训练目标与下游生成任务的形式高度统一,无需对模型结构进行大幅修改,仅通过调整提示词(Prompt)即可适配多种任务,实现统一的训练与推理。得益于这种设计,即使在零样本(Zero-Shot)场景下也能高效完成文本生成与理解任务。

6. 分布式训练

LLM 的参数量通常达到数百亿甚至上千亿级别,规模最小的模型也在十亿(1B)以上。以GPT-3为例,其有96个Decoder 层,12288的hidden\_size为和96个注意力头,总参数量高达 1750 亿(175B),比 BERT 大出近三个数量级。即使是目前流行的轻量级模型(如 Qwen-1.8B),也拥有 24 个 Decoder 层、2048 的隐藏层维度和 16 个注意力头,整体参数量约为 18 亿(1.8B)。
模型hidden_layershidden_sizeheads整体参数量预训练数据量
BERT-base12768120.1B3B
BERT-large241024160.3B3B
Qwen-1.8B242048161.8B2.2T
LLaMA-7B324096327B1T
GPT-3961228896175B300B
不仅如此,LLM的训练还依赖更大规模的预训练语料。根据 OpenAI 提出的Scaling Law(C ~ 6ND,其中C为计算量,N为模型参数,D为训练 token 数量),实验表明训练token数量大约应为模型参数的**1.7 倍**。以175B参数的GPT-3为例,这意味着它需要约300B token的数据进行预训练。 而Meta提出的LLaMA系列进一步指出,使用20倍于参数数量的token进行训练可使模型性能达到更佳状态。例如,一个 175B 参数的模型若使用约3.5T token进行训练,理论上能实现更优的性能表现。 如此庞大的模型参数与预训练数据,使得训练一个LLM需要极高的算力资源。即便是训练一个 1B 规模的模型,通常也需要多卡分布式GPU集群,并借助分布式训练框架对模型参数、优化器状态及训练数据进行切分,才能在以天为单位的持续训练中完成任务。百亿级参数的LLM往往需要约1024 张A100训练一个多月;而十亿级参数的模型通常也需要约256张A100训练数天。因此,需要使用分布式训练框架实现对LLM的预训练。 分布式训练框架的核心思路是数据并行和模型并行。数据并行适用于模型尺寸可以被单张 GPU 内存完整容纳的情况。随着训练batch size增大占用更多显存,导致无法使用较大的batch size;同时,由于训练数据量通常非常庞大,单张GPU的训练速度往往难以满足需求。

数据并行的核心做法是让多个模型实例在不同 GPU 上并行处理不同的数据批次。每个 GPU 独立完成一次前向传播与反向传播后,系统会收集所有实例的梯度并进行聚合,计算出全局梯度后更新模型参数,再将更新后的参数同步到所有 GPU。在数据并行模式下,所有 GPU 上的模型参数始终保持一致,而训练的总批次大小等于各 GPU 批次大小之和。

数据分片能够缓解内存与存储的压力,当完整数据集无法一次性加载到单张 GPU 时,通过将数据切分为多个分片,每个节点只需处理其中一部分数据。而且不同分片在不同 GPU 上并行训练,能缩短整体训练时间。此外,数据分片还具备一定的容错能力:即使某个分片损坏或处理失败,只需重新处理该分片,无需重新运行整个数据集。

当 LLM 扩大到上百亿参数,单张 GPU 内存往往就无法存放完整的模型参数。在这种情况下,可以将模型拆分到多个 GPU 上,每个 GPU 上存放不同的层或不同的部分,从而实现模型并行。

在数据并行和模型并行的基础上,还演化出了多种更高效的分布式方式,例如张量并行、3D 并行、ZeRO(Zero Redundancy Optimizer,零冗余优化器)等。例如Megtron-LM使用的张量并行,就是将单个矩阵运算拆分到多个GPU上。常见的分布式训练框架包括Deepspeed、Megatron-LM、ColossalAI 等。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190164.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

终极游戏手柄测试指南:零配置实时检测解决方案

终极游戏手柄测试指南:零配置实时检测解决方案 【免费下载链接】gamepadtest Gamepad API Test 项目地址: https://gitcode.com/gh_mirrors/ga/gamepadtest Gamepad API Test 是一款专为游戏开发者和玩家设计的轻量级手柄测试工具,能够实时可视化…

2026冷风机厂家权威推荐榜:奥德冷风机、工业冷风机、冷风机供应商及品牌实力解析

在工业制冷与通风领域,冷风机作为核心设备,其性能与稳定性直接影响生产效率与能耗成本。据行业数据显示,2025年国内冷风机市场规模已突破120亿元,年复合增长率达8.3%,其中工业冷风机占比超65%。面对市场需求的多元…

2026年学术论文降AI实战测评:谁是过关斩将的利器? - 品牌观察员小捷

步入2026年,学术界对AIGC的监管力度达到了前所未有的高度。随着各大期刊和高校将“AI率”列为与“查重率”同等重要的考核指标,毕业生们面临着严峻挑战。数据显示,超过七成的应届生在论文提交前都遭遇了AI检测超标的…

AI训练数据集供应商推荐:专业图片、视频、AI数据训练服务商精选 - 品牌2025

在人工智能模型训练如火如荼的今天,高质量、合规化的数据已成为决定项目成败的基石。无论是寻求AI训练图片素材供应商、AI训练视频素材供应商,还是更广泛的AI训练数据集供应商,企业面临的共同挑战是如何从海量信息中…

科研新范式:Claude 4.5 Sonnet 深度集成 Benchling,打通实验与写作全链路 - 147API

科研效率的瓶颈,很多时候不在“实验做不出来”,而在“做出来之后跑不成链路”。记录写在 Benchling,证据散在 PubMed,分析在脚本/表格里滚来滚去,最后写作又回到 Word/Overleaf:一旦项目变复杂,团队就会把大量时…

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 还在为抖音视频的水印烦恼吗?想要批量下载学习素材却无从下手&#…

【CDA干货】5款神级AI数据分析工具,帮你搞定 80% 的工作难题!

在数字化运营的时代,AI已成为处理数据的更强大、高效且易于接近的解决方案。 AI 不仅改变了数据处理的速度和准确性,还极大地降低了数据分析的门槛,让普通用户也能轻松驾驭复杂的数据分析任务。 一、AI在数据分析中的应用 众所周知&#x…

2025上海不锈钢控制柜厂家推荐:专精特新+高新技术认证指南 - 品牌排行榜

一、上海不锈钢控制柜市场的产业升级窗口 根据中国电器工业协会发布的《2024年电气成套设备行业发展报告》,上海地区不锈钢配电箱制造厂家年产值突破320亿元,占全国市场份额的18.7%。随着新能源汽车、半导体制造、生…

Wekan开源看板:从入门到精通的完整实践指南

Wekan开源看板:从入门到精通的完整实践指南 【免费下载链接】wekan The Open Source kanban (built with Meteor). Keep variable/table/field names camelCase. For translations, only add Pull Request changes to wekan/i18n/en.i18n.json , other translations…

免费的问卷调查平台盘点:微信QQ微博多渠道分发集成(2025最新榜单) - 品牌排行榜

2025年在线问卷调查已成为企业决策、学术研究、市场洞察的核心工具,据艾瑞咨询数据,国内问卷调查平台用户规模达4.2亿,企业通过问卷获取的用户反馈数据转化率较传统访谈提升280%。但市场上免费的问卷调查平台普遍存在&…

Dolphinscheduler分布式调度系统实战:从架构解析到生产级部署深度指南

Dolphinscheduler分布式调度系统实战:从架构解析到生产级部署深度指南 【免费下载链接】dolphinscheduler Dolphinscheduler是一个分布式调度系统,主要用于任务调度和流程编排。它的特点是易用性高、可扩展性强、性能稳定等。适用于任务调度和流程自动化…

iOS免越狱个性化定制:Cowabunga Lite隐藏技巧与高阶玩法全解析

iOS免越狱个性化定制:Cowabunga Lite隐藏技巧与高阶玩法全解析 【免费下载链接】CowabungaLite iOS 15 Customization Toolbox 项目地址: https://gitcode.com/gh_mirrors/co/CowabungaLite 厌倦了千篇一律的iOS界面?每次看到朋友的个性化iPhone都…

元数据管理革命:ExifToolGUI如何让GPS定位与批量处理变得简单高效

元数据管理革命:ExifToolGUI如何让GPS定位与批量处理变得简单高效 【免费下载链接】ExifToolGui A GUI for ExifTool 项目地址: https://gitcode.com/gh_mirrors/ex/ExifToolGui 还在为照片的元数据管理而头疼吗?面对海量图片的GPS定位需求&#…

2026年仿古铝瓦权威推荐:西安睿驰古建以金属智慧守护古建之美 - 深度智识库

在古建修复与仿古建筑蓬勃发展的时代背景下,金属仿古瓦凭借耐久性、环保性及文化复刻能力,已成为传统陶瓦、树脂瓦的革新替代品。据中国建筑金属结构协会2024年数据,国内仿古铝瓦市场份额已达32.5%,年增长率超18%。…

Windows 下 tree 命令学习笔记

Windows(PowerShell)从 0 创建结构 → tree 查看 → Markdown 使用(完整流程) 本文档说明如何在 Windows(PowerShell)环境下, 从零开始创建目录与文件,并使用 系统自带的 tree 命令生…

DLSS Swapper终极指南:一键升级游戏画质的免费神器

DLSS Swapper终极指南:一键升级游戏画质的免费神器 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 还在为游戏画面模糊、帧率不稳定而烦恼吗?DLSS Swapper作为专业的游戏画质优化工具&#xff0…

2026年仿古铝瓦厂家TOP5权威推荐:西安睿驰古建引领行业革新! - 深度智识库

传统建筑的美学得以传承,现代工程的可靠性得以实现,这一切源于仿古铝瓦技术的革命性突破。 古建筑修缮与仿古建筑营造领域正经历一场静默的材料革命。传统陶瓦易碎、树脂瓦易老化的痛点,促使市场寻找更优解决方案。…

Prompt(提示词工程)

一、基本概念 Prompt ⁠工程(Prompt Eng‌ineering)又叫提示词工程,简单来说,就是输入‎给 AI 的指令。比如下面‌这段内容,就是提示词: 能帮我写个数学题吗?AI 大模型生成⁠的内容是不确定的…

导师严选8个AI论文软件,MBA毕业论文高效写作必备!

导师严选8个AI论文软件,MBA毕业论文高效写作必备! AI 工具助力论文写作,高效与精准并存 在当前的学术环境中,AI 工具已经成为许多 MBA 学生和研究者不可或缺的助手。尤其是在撰写毕业论文的过程中,如何在保证内容质量的…

AI赋能在线设计:从工具革命到人机协同新生态

在数字化浪潮与人工智能技术的双重驱动下,在线设计领域正经历一场深刻的范式变革。从平面创意到UI/UX设计,从工业建模到空间规划,AI技术不再是单纯的辅助工具,而是重构设计流程、拓展创意边界的核心力量。中研普华研究院数据显示&…