LLM学习笔记DAY9

news/2025/10/23 18:36:55/文章来源:https://www.cnblogs.com/szhAC/p/19157743

大语言模型学习笔记

一、大语言模型的局限性

1.1 规划能力不足

  • 示例:汉诺塔问题中步骤错误,缺乏校验与修正机制。
  • 需引入规划策略反思检查策略

1.2 知识时效性与计算能力不足

  • 示例:GPT-4回答“美国总统”错误,数值计算不准确。
  • 外部工具支持(如搜索引擎、计算器)。

1.3 缺乏记忆与身份一致性

  • 重启后丢失历史对话与身份设定。
  • 记忆组件记录会话历史与中间结果。

二、基于大语言模型的规划

2.1 规划概述

  • 将复杂任务分解为子任务,制定动作,获取反馈并调整。
  • 组件:
    • 任务规划器(LLM)
    • 规划执行器
    • 存储单元
    • 工具模块
      image-20251022132830418

2.2 规划方案生成方式

(1)一次性生成

  • 适用于简单任务,如菜谱生成、代码加速。
  • 输出形式:自然语言或代码。

(2)迭代式生成(ReAct)

  • 模拟人类“思考-行动”循环。
  • 示例:查询与河北省接壤的省份面积。
  • 问题:可能失败,需回溯策略

2.3 反思与修正(Reflexion)

  • 根据反馈修正错误步骤。
  • 示例:第二轮规划中排除“直辖市”,成功找到正确答案。

三、基于大语言模型的智能体

3.1 智能体演进

  • 规则/算法 → 强化学习 → 大语言模型驱动

3.2 智能体核心组件

  • 规划模块:任务分解、反思、子目标设定
  • 记忆模块
    • 长期记忆(用户画像、历史行为)
    • 短期记忆(当前会话、上下文)
  • 执行模块:执行规划动作(如观影、聊天)
  • 工具模块:调用外部接口(如推荐系统、搜索引擎)

3.3 多智能体系统

  • 通讯机制:协议、拓扑、内容(自然语言/代码)
  • 协同机制:协作、竞争、协商
  • 示例:
    • WebGPT:浏览网络回答问题
    • MetaGPT:多角色协作开发软件
    • 《西部世界》沙盒:模拟人类日常行为

四、复杂推理与慢思考

4.1 思维链(Chain-of-Thought, CoT)

  • 通过中间推理步骤提升答案正确率。
  • 示例:长方形内最大正方形面积计算。

2. 慢思考/推理模型

  • 代表模型:OpenAI o1DeepSeek-R1Kimi k1.5
  • 特点:
    • 输出长思维链(<think> + <answer>
    • 训练时扩展测试时扩展
    • 输出长度与性能正相关

3. 慢思考训练方法

(1)基于RL的方法

  • 使用可验证数据(数学、代码、科学问题)
  • 奖励 = 准确率奖励 + 语言一致性奖励
  • 示例:DeepSeek-R1-Zero 使用GRPO算法训练

(2)训练流程(以DeepSeek-R1为例)

  1. 冷启动SFT:少量示例微调
  2. 推理RL:强化学习提升推理能力
  3. RFT & SFT:合成数据微调Base模型
  4. 全场景RL:兼顾推理与安全性

(3)Kimi k15 多模态推理

  • 支持图文推理
  • 使用课程采样、优先采样、长度惩罚
  • 引入Long2Short压缩与模型融合

五、推理模型的影响与挑战

5.1 影响

  • 自动化科研:如OpenAI Deep Research,可完成多步骤研究任务
  • 编程能力:模型在竞争编程中排名迅速上升
  • 产业应用:化学、语言学等复杂任务自动化

5.2 现有问题

(1)成本高

  • 硬件要求高(如DeepSeek-R1需8张H100)
  • 推理延迟大,部署困难

(2)控制不足

  • 过度思考(overthinking)与思考不足(underthinking)
  • 语言混杂问题

(3)安全问题

  • 可能存在欺骗性输出幻觉政策等风险

(4)开源模型尚未复现o3级别推理能力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/944585.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Go】go学习笔记

# 一、Go基础 ## 1. 编译运行 ``` go // 构建二进制文件 go build hello.go ./hello.gogo run hello.go ```## 2. 数据类型 - 布尔型 - 数字类型 - 字符串 - 派生类型- 指针 pointer- 数组- 结构化类型 struct- channe…

破局内容运营效率:2025 微信编辑器 10 款深度测评

破局内容运营效率:2025 微信编辑器 10 款深度测评2025微信编辑器AI革命:全链路解决方案重塑内容生产 一、引言:运营者的效率焦虑与工具迭代机遇 2025年新媒体行业进入“精耕细作”阶段,一篇爆款推文不仅需要优质内…

Web3 行业 Solidity 高级后端开发工程师岗位要求

基本学历与经验要求学历:本科及以上,计算机科学、软件工程、密码学或相关专业优先。 工作经验:3-5 年后端开发经验,其中至少 2 年 Solidity 智能合约开发经验(强制),参与过实际 Web3 项目(如 DeFi、NFT、DAO、…

2025氮化硼陶瓷高温绝缘体/坩埚/套管/基板/高温构件/耐腐蚀构件推荐榜:福维科(山东)引领国产化,3 家企业凭技术实力登榜

在半导体、新能源等高精制造领域,对关键材料的性能要求持续升级,氮化硼陶瓷因兼具优异导热性、绝缘性与耐温性,成为支撑产业升级的核心材料之一。2025 年,随着高端制造国产化进程加快,具备核心技术与稳定产能的氮…

无需接入执行器,0 代码改造实现微服务任务调度

本篇文章通过分析现有解决方案的不足,提出一种新的轻量级解决方案,该方案无需业务改造,且支持多语言,能够有效解决分布式环境下的任务调度幂等执行以及批处理问题。作者:陈欣渝(恰橙) 概述 在现代分布式系统中,…

利用排列组合法实现TOPN路径计算

本文分享自天翼云开发者社区《利用排列组合法实现TOPN路径计算》.作者:罗****斌 1 背景在进行TOPN选路性能摸底时,发现其在100*100节点级别以上的两两互相探测情况下的选路性能不太理想,整体压测后分析发现,选路算…

达梦数据库获取判断字段中的json数据中的值

达梦数据库获取判断字段中的json数据中的值-- 版本支持情况: -- DM7.1.6及之前版本:不支持原生JSON类型,只能用VARCHAR/CLOB存储 -- DM7.6及以后版本:开始支持JSON相关功能 -- DM8.0及以后版本:完整支持JSO…

2025 废气处理/废气治理/环保/污水/分子筛/除臭设备推荐榜:上海深城以专利技术破局,3 家企业凭场景适配登榜,助力异味治理升级

随着工业生产与市政服务的精细化发展,除臭设备与 VOCs 异味治理需求持续增长,高效、低耗、无二次污染的解决方案成为行业核心诉求。2025 年,我们从技术创新性、案例落地能力、工艺成熟度等维度筛选企业,推出本次推…

API 搜索的下一代形态-Apipost智能搜索:只需用业务语言描述需求,就能精准定位目标接口!

在大型项目中,API 数量庞大、命名不一,导致“找接口”耗时费力。传统工具依赖关键词搜索,难以应对语义模糊或命名不规范的场景。Apipost AI 智能搜索功能,支持自然语言查询,如“和用户登录有关的接口”,系统可理…

2025包装机/全自动包装机/非标定制生产线厂家推荐昆仑智能装备,专业高效!

2025包装机/全自动包装机/非标定制生产线厂家推荐昆仑智能装备,专业高效! 一、包装机械行业面临的技术挑战与创新需求 随着制造业智能化转型的深入,包装机械领域正面临前所未有的技术挑战。根据行业调研数据显示,目…

2025拖鞋机/酒店拖鞋生产线厂家推荐昆仑智能,高效稳定自动化解决方案

2025年拖鞋机/酒店拖鞋生产线厂家推荐昆仑智能,高效稳定自动化解决方案 行业技术挑战与现状分析 在当今快速发展的酒店用品制造领域,拖鞋机和酒店拖鞋生产线面临着多重技术挑战。据行业数据显示,传统拖鞋生产设备的…

2025年口罩机厂家权威推荐榜单:全自动口罩机器,全自动KN95口罩机,高效智能生产线专业选购指南

2025年口罩机厂家权威推荐榜单:全自动口罩机器,全自动KN95口罩机,高效智能生产线专业选购指南 随着全球公共卫生意识的持续提升,口罩作为基础防护用品已从应急物资转变为常态化需求。在产业升级与技术迭代的双重驱…

[sed] replace the first line with certain info

If you want to use sed to replace the first line of a file with <div id="lexicoEntryPage">then the proper command is: sed 1s/.*/<div id="lexicoEntryPage">/ inputfile >…

FastDFS 安装部署 数据迁移 centos 安装 FastDFS

FastDFS 安装部署 数据迁移 centos 安装 FastDFS概述: FastDFS 的编译和运行必须依赖于 libfastcommon,两个软件都需要下载之后编译安装 需要先安装libfastcommon再安装FastDFS, 启动时先启动fdfs_trackerd,再启动…

2025摩托车厂家推荐:浙江天鹰机车,专业制造与创新设计之选

2025摩托车厂家推荐:浙江天鹰机车,专业制造与创新设计之选 当前摩托车领域面临的技术挑战 摩托车行业正经历着前所未有的技术变革与挑战。根据行业数据显示,全球摩托车市场年产量已突破6000万辆,但产品同质化率却高…

2025不锈钢方形/消防/生活/保温水箱厂家推荐莞南节能,专业耐用品质保障

2025不锈钢方形/消防/生活/保温水箱厂家推荐莞南节能,专业耐用品质保障 在当今城市建设快速发展的背景下,不锈钢水箱作为重要的储水设备,在消防系统、生活供水、工业用水等领域扮演着不可或缺的角色。随着2025年的临…

2025-10-23 DeepSeek R1本地部署(ollama)

方法一:使用Ollama安装(最简单) 第一步:前往ollama网站下载ollama安装包点击右上角的download,我选择的是win1好家伙,安装包有1个g这么多下载完了,双击打开, 安装完成的界面如下:安装完后,输入内容试一下由于…

2025提升机/自动提升机厂家推荐垚林机械,高效稳定省心之选

2025提升机/自动提升机厂家推荐垚林机械,高效稳定省心之选 在工业自动化快速发展的今天,提升机作为物料输送系统的核心设备,其性能直接影响生产效率和运营成本。随着2025年的临近,制造业对自动化设备的要求日益提高…

Linux基础——wipefs磁盘数据擦除工具

Linux基础——wipefs磁盘数据擦除工具 一、概述[root@harbor yum.repos.d]# wipefs --helpUsage:wipefs [options] <device>Wipe signatures from a device.Options:-a, --all wipe all magic string…

python 异步调用语法

异步编程是一种高效的并发编程范式,特别适用于 I/O 密集型的应用(如网络请求、文件读写、数据库操作等)。它的核心思想是:当遇到需要等待的操作时,不是让程序“干等”,而是暂停当前任务,去执行其他可以立即运行…