一、DeepSeek基本信息介绍(扩展)
DeepSeek作为中国首个实现全栈自主可控的开源大模型体系,其技术演进经历了DeepSeek LLM→DeepSeek MoE→DeepSeek-V2→DeepSeek-V3→DeepSeek R1五大阶段。核心突破在于:
- 架构创新:在Transformer基础上引入分组查询注意力(GQA),推理成本降低40%;
- 数据规模:预训练使用2万亿token双语数据集(中文占比30%),覆盖科技论文、专利文档、行业报告等高价值语料;
- 训练策略:首创"预训练-强化学习"双阶段对齐模式,跳过传统监督微调(SFT),训练成本仅为GPT-4的3%-5%。
技术里程碑:
- 2024年1月:发布Dee