LLM学习笔记DAY9
大语言模型学习笔记
一、大语言模型的局限性
1.1 规划能力不足
- 示例:汉诺塔问题中步骤错误,缺乏校验与修正机制。
- 需引入规划策略与反思检查策略。
1.2 知识时效性与计算能力不足
- 示例:GPT-4回答“美国总统”错误,数值计算不准确。
- 需外部工具支持(如搜索引擎、计算器)。
1.3 缺乏记忆与身份一致性
- 重启后丢失历史对话与身份设定。
- 需记忆组件记录会话历史与中间结果。
二、基于大语言模型的规划
2.1 规划概述
- 将复杂任务分解为子任务,制定动作,获取反馈并调整。
- 组件:
- 任务规划器(LLM)
- 规划执行器
- 存储单元
- 工具模块

2.2 规划方案生成方式
(1)一次性生成
- 适用于简单任务,如菜谱生成、代码加速。
- 输出形式:自然语言或代码。
(2)迭代式生成(ReAct)
- 模拟人类“思考-行动”循环。
- 示例:查询与河北省接壤的省份面积。
- 问题:可能失败,需回溯策略。
2.3 反思与修正(Reflexion)
- 根据反馈修正错误步骤。
- 示例:第二轮规划中排除“直辖市”,成功找到正确答案。
三、基于大语言模型的智能体
3.1 智能体演进
3.2 智能体核心组件
- 规划模块:任务分解、反思、子目标设定
- 记忆模块:
- 长期记忆(用户画像、历史行为)
- 短期记忆(当前会话、上下文)
- 执行模块:执行规划动作(如观影、聊天)
- 工具模块:调用外部接口(如推荐系统、搜索引擎)
3.3 多智能体系统
- 通讯机制:协议、拓扑、内容(自然语言/代码)
- 协同机制:协作、竞争、协商
- 示例:
- WebGPT:浏览网络回答问题
- MetaGPT:多角色协作开发软件
- 《西部世界》沙盒:模拟人类日常行为
四、复杂推理与慢思考
4.1 思维链(Chain-of-Thought, CoT)
- 通过中间推理步骤提升答案正确率。
- 示例:长方形内最大正方形面积计算。
2. 慢思考/推理模型
- 代表模型:OpenAI o1、DeepSeek-R1、Kimi k1.5
- 特点:
- 输出长思维链(
<think>
+ <answer>
)
- 需训练时扩展与测试时扩展
- 输出长度与性能正相关
3. 慢思考训练方法
(1)基于RL的方法
- 使用可验证数据(数学、代码、科学问题)
- 奖励 = 准确率奖励 + 语言一致性奖励
- 示例:DeepSeek-R1-Zero 使用GRPO算法训练
(2)训练流程(以DeepSeek-R1为例)
- 冷启动SFT:少量示例微调
- 推理RL:强化学习提升推理能力
- RFT & SFT:合成数据微调Base模型
- 全场景RL:兼顾推理与安全性
(3)Kimi k15 多模态推理
- 支持图文推理
- 使用课程采样、优先采样、长度惩罚
- 引入Long2Short压缩与模型融合
五、推理模型的影响与挑战
5.1 影响
- 自动化科研:如OpenAI Deep Research,可完成多步骤研究任务
- 编程能力:模型在竞争编程中排名迅速上升
- 产业应用:化学、语言学等复杂任务自动化
5.2 现有问题
(1)成本高
- 硬件要求高(如DeepSeek-R1需8张H100)
- 推理延迟大,部署困难
(2)控制不足
- 过度思考(overthinking)与思考不足(underthinking)
- 语言混杂问题
(3)安全问题
(4)开源模型尚未复现o3级别推理能力
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/944585.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!