AI Agent 入门指南：从 LLM 到智能体

AI. AI. AI. 最近耳朵里是不是总是被这些词轰炸？特别是“Agent”、“AI Agent”、“智能体”、“Agentic”…… 感觉一夜之间，AI 就从我们熟悉的聊天框里蹦出来，要拥有“独立思考”和“自主行动”的能力了？

说实话，一开始我也被这些词搞得有点晕。很多解释要么太技术化，各种框架、算法扑面而来；要么又太基础，讲了半天还是感觉没抓住重点。

如果你跟我一样，不是程序员，没有深厚的技术背景，但平时一直在用 ChatGPT、文心一言、通义千问这些 AI 工具，也想搞明白 AI Agent 到底是什么，以及它将来可能会如何影响我们的生活和工作，那恭喜你，这篇文章就是为你写的！

今天，我就用最简单、最贴近生活的例子，带你一起走完一个“1-2-3”的学习路径：从你熟悉的 LLM（大型语言模型），到 AI 工作流（AI Workflow），再到最终的 AI Agent（AI 智能体）。相信我，那些听起来吓人的“RAG”、“ReAct”，拆开了看一点都不复杂！

咱们，这就开始！

第一层：你熟悉的“超级大脑”——大型语言模型（LLM）

咱们先从最熟悉的第一层说起。你平时用的那些强大的 AI 聊天机器人，比如 ChatGPT、Google Gemini、Claude、国内的文心一言、通义千问等等，它们的核心其实都是构建在大型语言模型（LLM）这个基础上的应用。

你可以想象一下，LLM 就像一个拥有海量知识的“超级大脑”。我们人类（你）给它一个输入（也就是 Prompt，你的问题或指令），它就根据它在训练中学到的海量数据，给出一个输出（它的回答或生成的内容）。

举个最简单的例子：我让 ChatGPT 帮我写一封约咖啡的邮件。我的 Prompt 就是输入，它瞬间生成的那封比我本人写得流畅、客气一百倍的邮件，就是输出。到这里是不是感觉很简单？没啥难的！

但是，问题来了。如果我问 ChatGPT：“我下周三跟 Elon Husky 约咖啡是几点？”

你懂的，就算你没试过，你也知道它肯定会懵圈，然后回复你一句“我不知道你的个人日程信息”。为什么？因为它没法访问我的个人日历！

这就暴露了大型语言模型的两个关键“软肋”：

知识不全： 它们虽然学了很多互联网上的公共数据，但对我们个人的私密信息、公司内部的数据，或者某些实时变化的信息（比如我的最新日历、最新的天气），是一无所知的。
太“被动”： 它们就像一个被动等指令的机器人。你问一句，它答一句。你给它个 Prompt，它给个 Output。它不会主动去外部世界获取信息，也不会自己决定去做点什么。

记住 LLM 的这两个特点，我们继续往下走，看看怎么解决这些问题。

第二层：听话的“流水线工人”——AI 工作流（AI Workflow）

既然 LLM 自己不知道我的日历，那我们能不能给它“赋能”呢？这就是 AI 工作流要做的事情。

我们可以在 LLM 的外面，搭建一个“工作流程”。比如，我这个人类，可以预设一个逻辑：“以后只要我问关于个人日程的问题，我的指令先不要直接给 LLM，而是先触发一个‘查日历’的动作。查到日历数据后，把数据连同我的问题一起，打包喂给 LLM，让它根据这些信息回答。”

如果按照这个逻辑实现了，下次我再问“我下周三跟 Elon Husky 的咖啡约会是几点？”，我的这个问题就会先触发“查日历”这个步骤。系统查到日历信息（比如是下午 3 点），然后把“我下周三跟 Elon Husky 约会是下午 3 点”这个信息，连同我的问题，一起发给 LLM。LLM 收到信息后，就能准确地回答我了！

看起来很智能对不对？但新问题又来了。如果我紧接着问：“那天下雨吗？”

这时候，我的这个“查日历”工作流就又会“卡壳”了。为什么？因为它只能严格遵循我预设好的那个“路径”：永远是“查日历”。我的日历里可没有天气信息！

这就是 AI 工作流的一个根本特点：它只能严格、机械地遵循人类预设好的、固定不变的“路径”或“步骤”去执行任务。 它就像一条“流水线”，每一步做什么都是我们人类提前设计好的。用技术话说，这个固定的路径，就是它的“控制逻辑”，是人来编写和控制的。

就算我把这个流程搞得更复杂：比如先查日历，再通过天气 API 查天气，甚至再加一个文语转换模型把最终答案读出来。听起来功能很强大了，对不对？但本质上，它依然只是一个 AI 工作流。 为什么？因为它每一步做什么，调用哪个工具，都是我这个人类提前设定好的。只要是由人类在做决策，决定一步一步怎么走，它就还不是 AI Agent。

顺便提一个你可能听过的高级词：“RAG”（Retrieval Augmented Generation，检索增强生成）。这个词在 AI 圈子里被说得很多，听起来很高大上。其实你简单理解，它就是一种特殊的 AI 工作流！它的核心功能就是：在 AI 模型生成回答之前，先去外部世界（比如你的文档库、数据库、互联网）“检索”相关的“增强”信息，然后把信息喂给模型，让它基于这些信息生成更准确、更及时的回答。所以，“检索”+“生成”，就是 RAG 的本质，它是一种让 LLM 突破自身知识限制的有效工作流。你看，是不是没那么复杂了？

我之前用 Make.com 搭建过一个很典型的 AI 工作流，你听听是不是这个逻辑：

我把收集到的新闻文章链接放到一个 Google Sheets 表格里。
我的这个自动化工作流启动后，先去读取 Google Sheets 里的链接。
然后把链接发给 Perplexity，让 Perplexity 帮我总结文章内容。
接着把 Perplexity 总结好的内容，发给 Claude（一个 LLM），并配合我预设好的一个 Prompt，让 Claude 帮我写成适合发 LinkedIn 和 Instagram 的社交媒体推文。
最后设置成每天早上 8 点自动运行一次。

你看，这就是一个标准的工作流：每一步都由我这个人类事先设定好了——先表格、再 Perplexity、然后 Claude、最后定时。人是这个流程的决策者和设计者，它只是按部就班地执行。

再加一个点：如果我对 Claude 生成的 LinkedIn 推文不满意（比如我觉得它写得不够吸引人），我得手动去修改那个给 Claude 的 Prompt，然后重新运行一下这个工作流。这个“试错-调整-再运行”的过程，现在还是由我这个人类在完成。记住这一点，因为待会儿讲 Agent 的时候，它就不同了！

第三层：能“思考”和“行动”的自主个体——AI Agent

好，终于来到第三层，也是最近最让人兴奋的概念：AI Agent（AI 智能体）！

核心区别是什么？还记得刚才的 AI 工作流吗？是人类决定每一步怎么走。而 AI Agent 最关键的变化在于：把那个做决策的人类，换成了一个 LLM！

简单来说，一个真正的 AI Agent，不再是一个只等你下指令、按固定流程跑的机器人。它更像是一个拥有某个“目标”后，能够自己去思考、自己去行动，想方设法达成目标的“智能体”。

它的核心能力体现在两个方面（这也是为什么很多 Agent 框架被称为 ReAct 的原因，ReAct = Reason + Act）：

它必须能“思考”（Reason）： 当你给 Agent 一个目标（比如“帮我写一篇基于最新新闻的社交媒体推文”）时，它不会傻等指示。它会自己动脑子，像人一样“思考”：怎么做最有效率？ 我需要新闻内容，是自己去网上找然后复制粘贴吗？好像太慢了。哦，我可以只收集新闻链接，然后调用一个工具自动抓取内容并总结！这个方案听起来不错！它会自己选择最佳的路径和方法。
它必须能“行动”（Act）： 光想没用，Agent 必须能把想法付诸实践。它会自己去调用各种外部工具来完成任务。比如，它决定要收集链接并抓取内容，它会自己选择并调用合适的工具（比如一个搜索引擎 API、一个网页抓取工具、或者像 Make.com 那样能连接各种服务的平台）来执行这些操作。再比如，要写推文，它会自己决定调用哪个 LLM，使用什么样的 Prompt，并把之前获取到的新闻总结作为输入。

所以，当一个 AI 接收到一个任务/目标后，如果它能够：

自己“思考” 达成目标的步骤和方法（Reason）
自己“行动” 去调用工具执行这些步骤（Act）
自己“观察” 行动的结果是否符合预期
自己“决定” 是否需要调整计划或重复步骤（Iterate）
直到最终达成目标

那它就是一个 AI Agent！关键是：决策者从人类变成了 LLM 自己。

还记得刚才我在 AI 工作流里手动修改 Prompt 吗？在 Agent 的世界里，它还能做得更多：

一个高级的 AI Agent，甚至拥有自主迭代（Iterate）和优化的能力。比如，它写完第一版的 LinkedIn 推文后，可能会自己调用另一个 LLM 来“评价”这篇推文质量如何，是否符合要求。如果评价反馈说“不行，不够吸引人”，Agent 会根据这个反馈，自己调整推文的内容或写作策略，然后再让评价 LLM 检查，直到写出它认为最佳的版本。整个“生成-评价-修改”的循环，Agent 自己就能完成，不需要我这个人类一直盯着、手动修改。

再举个更具象的例子。AI 领域的牛人吴恩达（Andrew Ng）之前演示过一个 AI 视觉 Agent。你给它一个目标：“在视频素材里找到所有出现‘滑雪的人’的片段”。

这个 Agent 在后台做了什么呢？它首先会“思考”：一个“滑雪的人”大概长什么样？（嗯，应该是一个人在雪地里，穿着滑雪板，可能速度很快？）然后它开始“行动”：它会自己去浏览视频里的每一帧画面，调用图像识别或动作捕捉等工具，尝试识别出符合它“思考”出来的特征的画面。一旦找到了它认为是“滑雪的人”的画面，它就会给对应的视频片段打上标签，并把这些片段提取出来呈现给你。

这个过程最厉害的地方在于：识别“滑雪的人”、判断画面、打标签、提取片段，整个复杂的任务，是这个 Agent 自己根据目标，自主地进行“思考”和“行动”来完成的，而不是预先由人类把视频都看一遍，手动给每一段打好各种标签（比如‘滑雪者’、‘雪山’、‘雪地’等等），Agent 只是按照人类打好的标签去检索。这种根据目标自主规划和执行的能力，就是 Agent 和传统工作流的根本区别。

总结一下：从 LLM 到 Agent 的进阶之路

好了，咱们一起回顾一下今天走过的“1-2-3”路径：

第一层 LLM： 你给输入，它给输出，很被动，知识有限。
第二层 AI 工作流： 你给输入，并给它设定好固定的步骤（人类是决策者），它按照你的步骤去调用外部工具（比如查日历、查天气、查数据库）获取信息，再给 LLM 处理，最终给输出。流程固定，需要人类来调整和优化。
第三层 AI Agent： 你给一个目标，LLM 自己会“思考”（Reason），决定要采取哪些“行动”（Act），自己去调用工具，自己观察结果，甚至能自主“迭代”优化，最终达成目标（LLM 是决策者）。它是一个更智能、更自主的“个体”。