【必藏】AI Agent完全指南:从ChatGPT到能思考、会行动的智能体革命

本文深入解析了AI Agent的核心概念,从ChatGPT的局限性出发,阐明Agent=LLM+行动能力的本质。详细介绍了Agent的三大核心组件:LLM(大脑)、Tools(工具/手脚)和Agent Loop(控制循环)。通过OpenCode实例展示了不同Agent类型及其权限控制机制,并解释了ReAct模式和Function Calling技术如何使Agent能够自主思考和行动,实现与外部世界的智能交互。


本章目标:理解 Agent 的核心概念,建立对 AI Agent 的整体认知


1.1 从 ChatGPT 到 Agent

普通聊天机器人的局限

当你使用 ChatGPT 网页版时,它只能:

  • 回答问题
  • 生成文本
  • 进行对话

但它不能

  • 读取你电脑上的文件
  • 执行命令
  • 访问互联网获取实时信息
  • 修改代码

这是因为普通的 LLM(大语言模型)只是一个"大脑",它没有"手脚"去与外部世界交互。

Agent = LLM + 行动能力

Agent(智能体)是在 LLM 基础上,赋予它与外部世界交互能力的系统。

┌─────────────────────────────────────────────────────────────┐│ ││ 普通 LLM: 用户 ──▶ LLM ──▶ 文本回复 ││ ││ Agent: 用户 ──▶ LLM ──▶ 思考 ──▶ 行动 ──▶ 观察 ││ ◀────────────────────┘ ││ (循环) ││ │└─────────────────────────────────────────────────────────────┘

一个具体的例子

假设你对 Agent 说:“帮我看看 package.json 里的依赖版本”

普通 LLM 的回答:

“我无法访问你的文件系统,请把 package.json 的内容粘贴给我。”

Agent 的行为:

  1. 思考:用户想知道依赖版本,我需要读取 package.json
  2. 行动:调用read工具读取文件
  3. 观察:获取到文件内容
  4. 回答:基于文件内容告诉用户依赖版本

这就是 Agent 的核心价值:它能自主决定采取什么行动来完成任务


1.2 Agent 的核心组成

一个完整的 Agent 系统由以下部分组成:

┌─────────────────────────────────────────────────────────────┐│ Agent 系统 │├─────────────────────────────────────────────────────────────┤│ ││ ┌─────────────────────────────────────────────────────┐ ││ │ LLM (大脑) │ ││ │ │ ││ │ • 理解用户意图 │ ││ │ • 决定下一步行动 │ ││ │ • 分析工具执行结果 │ ││ │ • 生成最终回复 │ ││ └─────────────────────────────────────────────────────┘ ││ │ ││ ▼ ││ ┌─────────────────────────────────────────────────────┐ ││ │ Tools (工具/手脚) │ ││ │ │ ││ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ ││ │ │ read │ │ write │ │ bash │ │ search │ │ ││ │ │ 读文件 │ │ 写文件 │ │执行命令 │ │ 搜索 │ │ ││ │ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │ ││ └─────────────────────────────────────────────────────┘ ││ │ ││ ▼ ││ ┌─────────────────────────────────────────────────────┐ ││ │ Agent Loop (控制循环) │ ││ │ │ ││ │ 思考 ──▶ 行动 ──▶ 观察 ──▶ 思考 ──▶ ... ──▶ 完成 │ ││ └─────────────────────────────────────────────────────┘ ││ │└─────────────────────────────────────────────────────────────┘

三大核心组件

组件作用类比
LLM理解、推理、决策大脑
Tools与外部世界交互手脚
Agent Loop协调 LLM 和 Tools神经系统

关键概念:Function Calling / Tool Use

现代 LLM(如 Claude、GPT-4)都支持一种叫Function CallingTool Use的能力。

简单说,就是 LLM 可以输出一种特殊格式,表示"我想调用某个工具":

{ "tool": "read", "arguments": { "filePath": "package.json" }}

Agent 系统检测到这种输出后,会:

  1. 解析出要调用的工具和参数
  2. 执行工具
  3. 把结果返回给 LLM
  4. LLM 继续思考下一步

这就是 Agent 能"行动"的技术基础。


1.3 OpenCode 中的 Agent

现在让我们看看 OpenCode 是如何实现 Agent 的。

核心文件位置

packages/opencode/src/├── agent/│ └── agent.ts ← Agent 定义├── session/│ ├── index.ts ← 会话管理│ ├── llm.ts ← LLM 调用│ └── processor.ts ← Agent Loop 实现├── tool/│ ├── tool.ts ← 工具基础定义│ ├── read.ts ← 读文件工具│ ├── bash.ts ← 执行命令工具│ └── ... ← 其他工具└── provider/ └── provider.ts ← LLM 提供商管理

Agent 的定义

打开packages/opencode/src/agent/agent.ts,你会看到 Agent 的类型定义:

// 简化版,突出核心字段exportconstInfo = z.object({name: z.string(), // Agent 名称,如 "build"description: z.string().optional(), // 描述,告诉 LLM 这个 Agent 的用途mode: z.enum(["subagent", "primary", "all"]), // 运行模式// 权限控制:决定 Agent 能使用哪些工具permission: PermissionNext.Ruleset,// 可选:指定使用的模型model: z.object({ modelID: z.string(), providerID: z.string(), }).optional(),// 自定义系统提示词prompt: z.string().optional(),// LLM 参数temperature: z.number().optional(),topP: z.number().optional(),})

关键理解:

  • name

    :Agent 的唯一标识

  • permission

    :控制 Agent 能做什么(非常重要!)

  • prompt

    :定制 Agent 的行为风格

  • model

    :可以为不同 Agent 指定不同的 LLM

OpenCode 的内置 Agent

OpenCode 预定义了几个 Agent,各有不同的用途:

// 来自 agent.ts 的内置 Agent 定义constresult: Record<string, Info> = {// 1. build - 默认的开发 Agentbuild: { name: "build", permission: PermissionNext.merge(defaults, user), // 全权限 mode: "primary", native: true, },// 2. plan - 只读分析 Agentplan: { name: "plan", permission: PermissionNext.merge( defaults, PermissionNext.fromConfig({ edit: { "*": "deny", // 禁止编辑 ".opencode/plan/*.md": "allow", // 只能写计划文件 }, }), user, ), mode: "primary", native: true, },// 3. general - 通用子 Agentgeneral: { name: "general", description: `General-purpose agent for researching complex questions and executing multi-step tasks.`, permission: PermissionNext.merge( defaults, PermissionNext.fromConfig({ todoread: "deny", todowrite: "deny", }), user, ), mode: "subagent", // 作为子 Agent 被调用 native: true, hidden: true, },// 4. explore - 代码探索 Agentexplore: { name: "explore", permission: PermissionNext.merge( defaults, PermissionNext.fromConfig({ "*": "deny", grep: "allow", glob: "allow", list: "allow", bash: "allow", read: "allow", // ... 只允许搜索类工具 }), user, ), description: `Fast agent specialized for exploring codebases.`, mode: "subagent", native: true, },}

Agent 对比表

Agent用途权限使用场景
build开发构建全权限写代码、执行命令、修改文件
plan规划分析只读分析代码、制定计划,不修改
general子任务受限被其他 Agent 调用执行子任务
explore代码探索只读+搜索快速搜索和理解代码库

1.4 动手实验:体验不同 Agent

实验 1:切换 Agent

  1. 启动 OpenCode:
cd packages/opencode && bun dev
  1. 默认使用的是buildAgent
  2. Tab键切换到planAgent
  3. 观察界面上 Agent 名称的变化

实验 2:感受权限差异

  1. buildAgent 下,输入:
创建一个文件 test.txt,内容是 hello world

→ Agent 会成功创建文件

  1. 切换到planAgent,输入同样的请求 → Agent 会拒绝,因为没有写权限

实验 3:查看 Agent 配置

在 OpenCode 中输入:

/config

可以看到当前的配置,包括 Agent 相关设置。


1.5 知识补充:Agent 的学术背景

ReAct 模式

OpenCode 使用的 Agent 模式基于ReAct(Reasoning + Acting)论文。

核心思想是让 LLM 交替进行:

  • Reasoning(推理)

    :思考当前情况,决定下一步

  • Acting(行动)

    :执行具体操作

  • Observation(观察)

    :获取行动结果

Thought: 用户想知道 package.json 的内容,我需要读取这个文件Action: read(filePath="package.json")Observation: {"name": "opencode", "version": "1.0.0", ...}Thought: 我已经获取到文件内容,可以回答用户了Answer: package.json 的内容是...

为什么 ReAct 有效?

  1. 可解释性

    :每一步都有明确的思考过程

  2. 可控性

    :可以在任何一步介入或修正

  3. 灵活性

    :可以处理复杂的多步骤任务

其他 Agent 模式

模式特点适用场景
ReAct推理+行动交替通用任务
Plan-and-Execute先规划后执行复杂任务
Tree of Thoughts多路径探索需要回溯的任务
Multi-Agent多个 Agent 协作大型复杂任务

OpenCode 主要使用 ReAct 模式,但也支持 Multi-Agent(通过task工具)。


1.6 本章小结

核心概念回顾

  1. Agent = LLM + Tools + Loop
  • LLM 负责思考和决策
  • Tools 负责与外部世界交互
  • Loop 协调整个过程
  1. Function Calling是 Agent 能"行动"的技术基础
  2. 权限控制是 Agent 安全性的关键

OpenCode 代码对照

概念OpenCode 实现文件位置
Agent 定义Agent.Infosrc/agent/agent.ts
工具系统Tool.define()src/tool/tool.ts
Agent LoopSessionProcessorsrc/session/processor.ts
LLM 调用LLM.stream()src/session/llm.ts

检查清单

  • 理解 Agent 和普通 LLM 的区别
  • 知道 Agent 的三大核心组件
  • 了解 OpenCode 的内置 Agent 及其差异
  • 完成了动手实验

AI时代,未来的就业机会在哪里?

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。

那么,普通人如何抓住大模型风口?

AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。

因此,这里给大家整理了一份《2026最新大模型全套学习资源》,包括2026最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题、AI产品经理入门到精通等,带你从零基础入门到精通,快速掌握大模型技术!

由于篇幅有限,有需要的小伙伴可以扫码获取!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

4. 大模型项目实战

学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

为什么大家都在学AI大模型?

随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开题答辩全过程】以 基于安卓的医疗健康查询系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人&#xff0c;语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

径流水土流失监测设备

水土流失是生态保护的重要课题&#xff0c;无论是山区流域、矿区复垦区&#xff0c;还是梯田、坡地种植区&#xff0c;精准掌握径流量、含沙量等核心数据&#xff0c;都是开展水土流失治理、评估治理效果的关键前提&#xff01;传统水土流失监测依赖人工采样、现场测量&#xf…

必藏!一文搞懂Agent开发的三大设计范式:ReAct、Plan Execute与Multi-Agent

本文深入解析了Agent开发的三大设计范式&#xff1a;ReAct将推理与行动交织&#xff0c;适合需实时决策的任务&#xff1b;Plan & Execute先规划后执行&#xff0c;适合步骤明确的复杂任务&#xff1b;Multi-Agent通过多角色协作处理超复杂任务。开发者可根据任务特性选择合…

人工智能究竟是如何思考的

大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路&#xff0c;而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题&#xff1a;人工智能真的在思考吗&#xff1f;大型语言模型展现…

MAC 地址

MAC 地址 —mac地址基础知识总结 一、什么是 MAC 地址&#xff1f; MAC 地址 网卡的“物理身份证” 工作在 数据链路层&#xff08;OSI 第 2 层&#xff09;用来在 同一个局域网内唯一标识设备和 IP 不一样&#xff0c;IP 会变&#xff0c;MAC 基本不变二、MAC 地址长什么样&a…

【开题答辩全过程】以 基于web的拍卖系统设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人&#xff0c;语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

【开题答辩全过程】以 基于Java的校内美食推荐系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人&#xff0c;语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

鸿蒙应用的安全审计与合规检测实战:智能待办的安全防护

&#x1f512; 鸿蒙应用的安全审计与合规检测实战&#xff1a;智能待办的安全防护 一、章节概述 ✅ 学习目标 掌握鸿蒙安全审计工具&#xff08;DevEco Studio Security Analyzer、AGC Security Center、第三方工具&#xff09;的核心原理落地《全生态智能待办》的安全审计方案…

攻防演练全流程实战指南:红队突破与蓝队防御核心技巧

攻防演练全流程实战指南&#xff1a;红队突破与蓝队防御核心技巧 攻防演练&#xff08;又称红蓝对抗&#xff09;是检验企业网络安全防护能力的核心手段&#xff0c;通过“红队模拟攻击、蓝队防御反击”的实战化对抗&#xff0c;暴露企业安全体系的薄弱环节&#xff0c;提升团…

从“大模型”到“好模型”:斯坦福预测2026年AI将迎来“祛魅”分水岭

2026年&#xff0c;不管是计算机科学界的泰斗&#xff0c;还是医学、法学、经济学领域的专家&#xff0c;他们都在强调同一个主题&#xff0c;那就是从“AI能做什么”转向“AI做得有多好、成本如何以及为了谁而做”。2026年将是人工智能从喧嚣的布道期正式迈入冷静评估期的关键…

木马与经典恶意软件深度解析:查杀技术与免杀对抗实战指南

木马与经典恶意软件深度解析&#xff1a;查杀技术与免杀对抗实战指南 在网络安全的攻防对抗中&#xff0c;木马&#xff08;Trojan Horse&#xff09; 是最经典、最具代表性的恶意软件之一。它以 “伪装欺骗” 为核心手段&#xff0c;以 “远程控制、数据窃取” 为主要目的&am…

Java实现Html保存为.mhtml文件

功能需求将html字符串保存为.mhtml文件代码实现pom.xml依赖<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!-- https://mvnrepository…

3款好玩的台球游戏,玩过的人都说很上头

在移动游戏市场中&#xff0c;台球品类长期被少数热门产品占据流量高地&#xff0c;但许多玩家反馈这些"爆款"存在氪金碾压、广告泛滥、体验割裂等问题。事实上&#xff0c;一些低调运营却用心打磨的台球手游&#xff0c;凭借真实的物理体验、丰富的玩法设计和友好的…

IP 地址解析

“IP 地址解析 / IP 地址详解” —IP地址的基础信息 一、什么是 IP 地址&#xff1f; IP 地址 网络中设备的唯一编号 就像&#xff1a; 手机号 → 找到一个人IP 地址 → 找到一台设备 常见格式&#xff08;IPv4&#xff09;&#xff1a; 192.168.1.100由 **4 个字节&#xff0…

Google DeepMind :RAG 已死,无限上下文是伪命题?RLM 如何用“代码思维”终结 AI 的记忆焦虑

不久前 DeepMind 发布了一篇论文&#xff0c;内容简单说是&#xff1a; RLM&#xff08;Recursive Language Models&#xff09; 不是让模型“硬记”所有内容&#xff0c;而是赋予模型像程序员一样操作数据的能力&#xff0c;让模型在不把超长 prompt 直接塞进 Transformer 的…

AI Agent企业落地避坑指南:7大致命错误,收藏级干货

企业落地AI Agent常面临七大陷阱&#xff1a;需求误判&#xff08;未先优化流程&#xff09;、目标输入不明确、数据处理难题、业务模式局限&#xff08;盲目追求全自动&#xff09;、项目管理缺失、预期与成本误区。AI Agent本质是效率工具&#xff0c;需明确边界&#xff0c;…

制造业企业数据采集系统选型指南:从技术挑战到架构实践

在工业4.0和智能制造浪潮的推动下&#xff0c;数据已成为制造业企业的新型生产要素。然而&#xff0c;许多制造企业仍面临“数据孤岛”困境&#xff1a;生产设备产生的海量数据沉睡在异构系统中&#xff0c;无法转化为有效的决策支持。根据业界调研&#xff0c;超过60%的制造业…

跨境远控无忧,开启高效跨国连接新时代

为什么需要【全球节点】&#xff1f;当您需要进行跨国、跨地区远程控制时&#xff0c;普通网络连接往往面临高延迟、易丢包、速度慢等问题。ToDesk全球节点插件专为跨境高速连接设计&#xff0c;通过覆盖全球200高速专用节点&#xff0c;构建出稳定、低延迟的传输通道&#xff…

语音识别噪声抑制优化实战

&#x1f493; 博客主页&#xff1a;借口的CSDN主页 ⏩ 文章专栏&#xff1a;《热点资讯》 语音识别噪声抑制优化实战&#xff1a;轻量化策略与边缘计算应用目录语音识别噪声抑制优化实战&#xff1a;轻量化策略与边缘计算应用 引言&#xff1a;噪声抑制——语音识别的“隐形瓶…

8款全场景CRM系统横向对比:从获客闭环到供应链协同的能力矩阵

在数字化转型浪潮中&#xff0c;企业对CRM的需求早已从“销售流程管理”升级为“全场景业务闭环”——既要覆盖获客-跟单-订单-售后的客户全生命周期&#xff0c;也要实现订单-采购-生产-委外的供应链协同&#xff0c;最终通过数据驱动构建业务增长闭环。本文选取8款主流CRM/一…