LLM学习笔记DAY9

news/2025/10/23 18:36:55/文章来源:https://www.cnblogs.com/szhAC/p/19157743

大语言模型学习笔记

一、大语言模型的局限性

1.1 规划能力不足

示例：汉诺塔问题中步骤错误，缺乏校验与修正机制。
需引入规划策略与反思检查策略。

1.2 知识时效性与计算能力不足

示例：GPT-4回答“美国总统”错误，数值计算不准确。
需外部工具支持（如搜索引擎、计算器）。

1.3 缺乏记忆与身份一致性

重启后丢失历史对话与身份设定。
需记忆组件记录会话历史与中间结果。

二、基于大语言模型的规划

2.1 规划概述

将复杂任务分解为子任务，制定动作，获取反馈并调整。
组件：
- 任务规划器（LLM）
- 规划执行器
- 存储单元
- 工具模块

2.2 规划方案生成方式

（1）一次性生成

适用于简单任务，如菜谱生成、代码加速。
输出形式：自然语言或代码。

（2）迭代式生成（ReAct）

模拟人类“思考-行动”循环。
示例：查询与河北省接壤的省份面积。
问题：可能失败，需回溯策略。

2.3 反思与修正（Reflexion）

根据反馈修正错误步骤。
示例：第二轮规划中排除“直辖市”，成功找到正确答案。

三、基于大语言模型的智能体

3.1 智能体演进

规则/算法 → 强化学习 → 大语言模型驱动

3.2 智能体核心组件

规划模块：任务分解、反思、子目标设定
记忆模块：
- 长期记忆（用户画像、历史行为）
- 短期记忆（当前会话、上下文）
执行模块：执行规划动作（如观影、聊天）
工具模块：调用外部接口（如推荐系统、搜索引擎）

3.3 多智能体系统

通讯机制：协议、拓扑、内容（自然语言/代码）
协同机制：协作、竞争、协商
示例：
- WebGPT：浏览网络回答问题
- MetaGPT：多角色协作开发软件
- 《西部世界》沙盒：模拟人类日常行为

四、复杂推理与慢思考

4.1 思维链（Chain-of-Thought, CoT）

通过中间推理步骤提升答案正确率。
示例：长方形内最大正方形面积计算。

2. 慢思考/推理模型

代表模型：OpenAI o1、DeepSeek-R1、Kimi k1.5
特点：
- 输出长思维链（<think> + <answer>）
- 需训练时扩展与测试时扩展
- 输出长度与性能正相关

3. 慢思考训练方法

（1）基于RL的方法

使用可验证数据（数学、代码、科学问题）
奖励 = 准确率奖励 + 语言一致性奖励
示例：DeepSeek-R1-Zero 使用GRPO算法训练

（2）训练流程（以DeepSeek-R1为例）

冷启动SFT：少量示例微调
推理RL：强化学习提升推理能力
RFT & SFT：合成数据微调Base模型
全场景RL：兼顾推理与安全性

（3）Kimi k15 多模态推理

支持图文推理
使用课程采样、优先采样、长度惩罚
引入Long2Short压缩与模型融合

五、推理模型的影响与挑战

5.1 影响

自动化科研：如OpenAI Deep Research，可完成多步骤研究任务
编程能力：模型在竞争编程中排名迅速上升
产业应用：化学、语言学等复杂任务自动化

5.2 现有问题

（1）成本高

硬件要求高（如DeepSeek-R1需8张H100）
推理延迟大，部署困难

（2）控制不足

过度思考（overthinking）与思考不足（underthinking）
语言混杂问题

（3）安全问题

可能存在欺骗性输出、幻觉政策等风险

（4）开源模型尚未复现o3级别推理能力

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/944585.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【Go】go学习笔记

# 一、Go基础 ## 1. 编译运行 ``` go // 构建二进制文件 go build hello.go ./hello.gogo run hello.go ```## 2. 数据类型 - 布尔型 - 数字类型 - 字符串 - 派生类型- 指针 pointer- 数组- 结构化类型 struct- channe…