根据模型的数据流程方向和自己的经验列出:
一、模型输入
分词器:BPE,BBPE
 位置编码:绝对位置编码,三角函数编码,ROPE
 词向量模型:词袋,监督学习模型;BGE,BCE,BERT
 transformers:手写数据集构造类、数据集加载函数colloctor
二、模型结构
transformers:结构,解码器only为啥比编码器好,llama在原始解码器上的改进及原因
 归一化:层归一化,RNSnorm,批归一化,Pre-LN和Post-LN的区别
 激活函数:tanh,relu,gelu,silu
 FFN结构
 注意力机制:自注意力,多头注意力,分组查询注意力,多查询注意力(前两个要手写)
 softmax和sigmoid函数
 llama结构,GLM结构
三、模型推理
推理原理
 解码策略:温度等参数,需要结合代码理解
 KVcache
 长度外推:滑动窗口,rope,位置插值,yarn的原理
 推理部署框架:vllm,fastapi
 多轮对话实现原理
 流式输出实现原理
四、模型训练
分布式:数据并行,模型并行,流水线并行
 deepseed经验
 多机多卡经验
 参数调优经验
 数据配比经验
 高效微调:lora原理,peft使用
 混合精度
 模型量化
 ppo,KTO ,dpo原理
 损失函数:交叉熵的手动实现,熵的定义,最大似然函数,MSE
五、数据工程
预训练、sft、dpo数据集格式
 主流数据集
六、多模态大模型
模型架构:BILP2、LLAVA1.5,书生2
 模态数据处理:多图,多视频,图文交错
 模型两阶段训练经验
 数据集构造经验
六、产品应用
RAG:作用,流程,性能调优经验
 agent:作用,实现方法,优化经验