LLM学习笔记DAY10

news/2025/10/23 18:44:03/文章来源:https://www.cnblogs.com/szhAC/p/19161398

📘 大语言模型全面学习笔记

一、大语言模型评测体系

1.1 常见评测指标

任务类型 评测指标 说明
分类任务 精确率、召回率、F1 基于混淆矩阵计算
语言建模 困惑度(PPL) 衡量文本建模概率
文本生成 BLEU、ROUGE 衡量与参考文本的重叠度
问答任务 准确率、EM、F1 判断答案正确性
执行类任务 成功率、Pass@k 衡量代码或任务执行成功比例
偏好排序 Elo评分 通过成对比较动态评分

1.2 评测范式与方法

(1)基于评测基准

  • MMLU:多任务知识理解
  • BIG-Bench:204项挑战任务
  • HELM:全面评测框架
  • C-Eval:中文综合评测
  • GSM8K、MATH:数学推理

(2)基于人类评估

  • Chatbot Arena:众包成对比较 + Elo排名
  • HELM:人工评分摘要与虚假信息任务

(3)基于模型评估

  • AlpacaEval、MT-Bench:使用LLM替代人类评估

1.3 各能力维度评测

(1)语言生成

  • 语言建模:LAMBADA(预测段落最后一个词)
  • 机器翻译:WMT + BLEU
  • 文本摘要:XSum + ROUGE
  • 代码合成:HumanEval + Pass@k

(2)知识利用

  • 闭卷/开卷问答:Natural Questions
  • 知识补全:关系抽取任务
  • 主要问题
    • 幻象(内在/外在)
    • 知识时效性
    • 解决方案:RAG + 外部工具

(3)复杂推理

  • 知识推理:CommonsenseQA、PIQA
  • 符号推理:伪字母拼接、硬币翻转
  • 数学推理:GSM8K、MATH
  • 主要问题
    • 推理不一致性
    • 数值计算能力弱
    • 解决方案:CoT、外部计算器、过程反馈

(4)人类对齐

  • 有用性:完成任务能力
  • 诚实性:TruthfulQA
  • 无害性:CrowS-Pairs、Winogender

(5)环境交互

  • ALFWorld:文本模拟家庭环境
  • WebShop:在线购物交互
  • PaLM-SayCan:机器人指令执行

(6)工具使用

  • 搜索工具:HotpotQA
  • API调用:APIBench、Gorilla
  • 综合工具:ToolBench(16,000+ API)

二、大语言模型资源大全

2.1 公开模型检查点

模型系列 开发机构 特点 代表模型
LLaMA Meta 多尺寸、多模态 LLaMA-3.1-405B
ChatGLM 智谱AI & 清华 中英双语、长文本 GLM-4-9B
Falcon TII 首个180B开源 Falcon-180B
Baichuan 百川智能 中英双语、轻量 Baichuan2-13B
InternLM 上海AI Lab 全栈工具链 InternLM2-20B
Qwen 阿里巴巴 多尺寸、多模态 Qwen2.5-72B
DeepSeek 幻方AI MoE架构、推理强 DeepSeek-V3(671B)
Mixtral Mistral AI 8×7B MoE Mixtral 8x7B
Gemma Google 轻量开放 Gemma-2B/7B
MiniCPM 面壁智能 & 清华 小模型强性能 MiniCPM-2B

2.2 预训练数据集

(1)网页数据

  • 通用:Common Crawl、C4、RefinedWeb、RedPajama
  • 中文:ChineseWebText、WanJuan、WuDaoCorpora、SkyPile

(2)书籍与论文

  • BookCorpus、Project Gutenberg、arXiv、S2ORC

(3)代码数据

  • The Stack、StarCoder、BigQuery

(4)混合数据集

  • The Pile(800GB)、ROOTS(1.6TB)、Dolma(3T token)

2.3 微调数据集

(1)指令微调

  • P3:270+ NLP任务,2000+提示
  • FLAN:多任务指令 tuning
  • Self-Instruct:自动生成指令数据
  • Alpaca-52K:基于Self-Instruct构建

(2)对话数据

  • ShareGPT:用户与ChatGPT对话
  • OpenAssistant:多语言人工标注
  • Dolly:Databricks员工标注

(3)人类对齐数据

  • HH-RLHF:有用性+无害性
  • SHP:18个领域偏好数据
  • PKU-SafeRLHF:安全对齐
  • CValues:中文安全价值观

2.4 代码库资源

(1)Hugging Face生态

  • Transformers:模型架构统一接口
  • Datasets:数据集加载与处理
  • Accelerate:分布式训练简化

(2)训练优化库

  • DeepSpeed:ZeRO、混合精度、RLHF
  • Megatron-LM:模型并行、张量并行

三、规划与智能体技术

3.1 规划方法

  • 一次性生成:简单任务完整方案
  • 迭代生成(ReAct):思考-行动循环
  • 反思修正(Reflexion):基于反馈回溯优化

3.2 智能体架构

  • 规划模块:任务分解、反思、子目标
  • 记忆模块:长期/短期记忆
  • 执行模块:动作执行
  • 工具模块:外部API调用

3.3 多智能体系统

  • 通讯机制:协议、拓扑、内容格式
  • 协同机制:协作、竞争、协商
  • 示例
    • WebGPT:浏览网络回答问题
    • MetaGPT:多角色协作开发
    • 《西部世界》沙盒:人类行为模拟

四、复杂推理与慢思考

4.1 思维链(CoT)

  • 通过中间推理步骤提升答案正确率
  • 显著提升数学、符号推理能力

4.2 慢思考推理模型

  • 代表模型:OpenAI o1、DeepSeek-R1、Kimi k1.5
  • 训练方法
    • RL强化学习:GRPO算法,奖励=准确率+语言一致性
    • 课程学习:先易后难
    • 长度控制:惩罚过长输出,提升token效率

4.3 训练流程(以DeepSeek-R1为例)

  1. 冷启动SFT:少量示例微调
  2. 推理RL:在数学/代码任务上强化学习
  3. RFT & SFT:合成数据微调Base模型
  4. 全场景RL:兼顾推理与安全性

4.4 影响与挑战

  • 影响:自动化科研、编程能力突破
  • 挑战
    • 推理成本高(硬件要求高、延迟大)
    • 控制不足(overthinking/underthinking)
    • 语言混杂、安全问题

五、未来展望:AGI路径

  • ANI → AGI → ASI
  • 推理模型是迈向AGI的关键一步
  • 未来可能在科研、编程、决策等领域实现人类水平性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/944592.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

日志级别

日志级别日志级别(Log Levels) 🔊 五种日志级别(从低到高):级别 含义说明 使用场景TRACE 追踪,最详细 用于追踪程序执行的每一步,如方法入参、变量变化。DEBUG 调试,用于诊断问题 记录流程细节,如“用户登录…

noipd8t2 - Slayer

要理解这段代码,需结合题目要求和题解的逆变换 + 辗转相除思路,逐部分分析:题目核心与题解思路 回顾题目要求:给定两个线性变换 \(T1((x,y))=(x+y,y)\)、\(T2((x,y))=(x,x+y)\),对于每个查询向量 \((x,y)\),统计…

OJ模拟面试3(异步判题架构)

1、请详细描述一条判题消息从生产到消费的完整生命周期。你在生产者端、Broker端和消费者端分别做了哪些具体配置和编码保证? 这是一个考察消息队列端到端可靠性的经典问题。我的设计目标是:消息绝不能丢。生产者端 …

Edge浏览器网页设置深色模式(仅搜索结果界面)

偶然清除了Edge的浏览数据后发现搜索结果界面变成了白色,很不适应,于是在网络搜索,基本都非常相似,主要分为两种方法Edge浏览器网页设置深色模式/暗模式的小技巧_网页深色模式-CSDN博客①在Edge浏览器打开edge://f…

2025 年 AI 编程工具 TOP5 排名:谁在重新定义研发效率?

当 “写代码” 从 “手动敲” 变成 “AI 帮你想”,研发效率的天花板被彻底打破。2025 年最新出炉的 AI 编程工具排名,不仅是技术实力的较量,更是企业降本增效的 “选型指南”—— 这 5 款工具,已经帮数万家企业实现…

请求中断的原理与分类

本文分享自天翼云开发者社区《请求中断的原理与分类》.作者:尹****聪 1 中断的原理 在nginx中所有的http请求是流式的处理逻辑,当client发出一个请求后,nginx把请求代理到upstream上。如果upstream已经返回了200 OK…

LLM学习笔记DAY9

大语言模型学习笔记 一、大语言模型的局限性 1.1 规划能力不足示例:汉诺塔问题中步骤错误,缺乏校验与修正机制。 需引入规划策略与反思检查策略。1.2 知识时效性与计算能力不足示例:GPT-4回答“美国总统”错误,数值…

【Go】go学习笔记

# 一、Go基础 ## 1. 编译运行 ``` go // 构建二进制文件 go build hello.go ./hello.gogo run hello.go ```## 2. 数据类型 - 布尔型 - 数字类型 - 字符串 - 派生类型- 指针 pointer- 数组- 结构化类型 struct- channe…

破局内容运营效率:2025 微信编辑器 10 款深度测评

破局内容运营效率:2025 微信编辑器 10 款深度测评2025微信编辑器AI革命:全链路解决方案重塑内容生产 一、引言:运营者的效率焦虑与工具迭代机遇 2025年新媒体行业进入“精耕细作”阶段,一篇爆款推文不仅需要优质内…

Web3 行业 Solidity 高级后端开发工程师岗位要求

基本学历与经验要求学历:本科及以上,计算机科学、软件工程、密码学或相关专业优先。 工作经验:3-5 年后端开发经验,其中至少 2 年 Solidity 智能合约开发经验(强制),参与过实际 Web3 项目(如 DeFi、NFT、DAO、…

2025氮化硼陶瓷高温绝缘体/坩埚/套管/基板/高温构件/耐腐蚀构件推荐榜:福维科(山东)引领国产化,3 家企业凭技术实力登榜

在半导体、新能源等高精制造领域,对关键材料的性能要求持续升级,氮化硼陶瓷因兼具优异导热性、绝缘性与耐温性,成为支撑产业升级的核心材料之一。2025 年,随着高端制造国产化进程加快,具备核心技术与稳定产能的氮…

无需接入执行器,0 代码改造实现微服务任务调度

本篇文章通过分析现有解决方案的不足,提出一种新的轻量级解决方案,该方案无需业务改造,且支持多语言,能够有效解决分布式环境下的任务调度幂等执行以及批处理问题。作者:陈欣渝(恰橙) 概述 在现代分布式系统中,…

利用排列组合法实现TOPN路径计算

本文分享自天翼云开发者社区《利用排列组合法实现TOPN路径计算》.作者:罗****斌 1 背景在进行TOPN选路性能摸底时,发现其在100*100节点级别以上的两两互相探测情况下的选路性能不太理想,整体压测后分析发现,选路算…

达梦数据库获取判断字段中的json数据中的值

达梦数据库获取判断字段中的json数据中的值-- 版本支持情况: -- DM7.1.6及之前版本:不支持原生JSON类型,只能用VARCHAR/CLOB存储 -- DM7.6及以后版本:开始支持JSON相关功能 -- DM8.0及以后版本:完整支持JSO…

2025 废气处理/废气治理/环保/污水/分子筛/除臭设备推荐榜:上海深城以专利技术破局,3 家企业凭场景适配登榜,助力异味治理升级

随着工业生产与市政服务的精细化发展,除臭设备与 VOCs 异味治理需求持续增长,高效、低耗、无二次污染的解决方案成为行业核心诉求。2025 年,我们从技术创新性、案例落地能力、工艺成熟度等维度筛选企业,推出本次推…

API 搜索的下一代形态-Apipost智能搜索:只需用业务语言描述需求,就能精准定位目标接口!

在大型项目中,API 数量庞大、命名不一,导致“找接口”耗时费力。传统工具依赖关键词搜索,难以应对语义模糊或命名不规范的场景。Apipost AI 智能搜索功能,支持自然语言查询,如“和用户登录有关的接口”,系统可理…

2025包装机/全自动包装机/非标定制生产线厂家推荐昆仑智能装备,专业高效!

2025包装机/全自动包装机/非标定制生产线厂家推荐昆仑智能装备,专业高效! 一、包装机械行业面临的技术挑战与创新需求 随着制造业智能化转型的深入,包装机械领域正面临前所未有的技术挑战。根据行业调研数据显示,目…

2025拖鞋机/酒店拖鞋生产线厂家推荐昆仑智能,高效稳定自动化解决方案

2025年拖鞋机/酒店拖鞋生产线厂家推荐昆仑智能,高效稳定自动化解决方案 行业技术挑战与现状分析 在当今快速发展的酒店用品制造领域,拖鞋机和酒店拖鞋生产线面临着多重技术挑战。据行业数据显示,传统拖鞋生产设备的…

2025年口罩机厂家权威推荐榜单:全自动口罩机器,全自动KN95口罩机,高效智能生产线专业选购指南

2025年口罩机厂家权威推荐榜单:全自动口罩机器,全自动KN95口罩机,高效智能生产线专业选购指南 随着全球公共卫生意识的持续提升,口罩作为基础防护用品已从应急物资转变为常态化需求。在产业升级与技术迭代的双重驱…

[sed] replace the first line with certain info

If you want to use sed to replace the first line of a file with <div id="lexicoEntryPage">then the proper command is: sed 1s/.*/<div id="lexicoEntryPage">/ inputfile >…