书生·浦语大模型全链路开源开放体系
- 大模型成为热门关键词
 - 书生·浦语大模型开源历程
 - 书生·浦语20B开源大模型性能
 - 从模型到应用
 - 书生·浦语全链路开源开放体系
 - 数据
 - 预训练
 - 微调
 - 评测
 - 部署
 - 智能体
 
大模型成为热门关键词

 大模型成为发展通用人工智能的重要途径

书生·浦语大模型开源历程

 
书生·浦语20B开源大模型性能
- 全面领先相近量级的开源模型(包含Llama-33B、Llama2-13B以及国内主流的7B、13B开源模型)
 - 以不足三分之一的参数量,达到Llama2-70B水平

 
从模型到应用

书生·浦语全链路开源开放体系

数据

 总数据量 2TB
 包含:
- 文本数据 50亿个文档
 - 图像-文本数据集 2200万个文件
 - 视频数据 超1000个文件

 
预训练

微调
- 增量续训 
- 垂直领域知识 文章、书籍、代码等
 
 - 有监督微调 
- 高质量的对话、问答数据

 
 - 高质量的对话、问答数据
 
评测
提出了OpenCompass评测体系
 6大维度 80+评测集、40万+评测题目
 
 
部署

 
智能体

 局限:
- 最新信息和知识的获取
 - 回复的可靠性
 - 数学计算
 - 工具使用和交互


