实用指南:LLM - Agent Skills 智能体新范式

news/2026/1/24 11:26:52/文章来源:https://www.cnblogs.com/gccbuaa/p/19525644

文章目录

  • 概述
  • 1. 当下的 Agent,究竟卡在哪里?
  • 2. 什么是 Agent Skills?
  • 3. 核心机制:渐进式披露(Progressive Disclosure)
  • 4. Skills 与工具调用、RAG、MCP 有何不同?
  • 5. Skill 范式的工程价值:从个人效率到组织级资产
    • 5.1 面向个体:「第二大脑」的可编程化
    • 5.2 面向团队:把 SOP 变成「可执行程序」
  • 6. 如何从零开始写一个 Skill?
    • 6.1 选一个足够窄但高频的任务
    • 6.2 把人类的做法拆成结构化步骤
    • 6.3 决定哪些步骤应当「外包给脚本」
    • 6.4 用「示例 + 评估标准」固化预期
  • 7. 安全与治理:技能其实是一种「软件包」
  • 8. Skills 的未来:从人写技能,到 Agent 自己长技能
  • 9. 写在结果:给今天就在用 LLM 的工程师一些建议
  • Claude Skills × OpenAI Function Calling × Spring AI Tools × MCP 对照表
  • Anthropic Agent Skills / AI Agents 延伸阅读合集
    • 官方与核心资料
    • 技能解读 / 博客文章
    • 视频资源(演讲 / 访谈 / 解析)
    • 讨论 / 观点 / 社区

在这里插入图片描述

概述

过去两年,Agent 成了生成式 AI 场景里的头号热门词:从自动写代码、跑流水线,到帮你看文档、写邮件,几乎所有团队都在造各式各样的 Agent。
但现实很骨感:Demo 惊艳,上线翻车;单个场景勉强可用,换个任务就「智商在线、业务不行」。越来越多人发现,问题不在于「Agent 不够聪明」,而在于它们缺少可以沉淀和复用的「技能」

2025 年,Anthropic 把这种直觉正式产品化:Agent Skills——一个以「文件夹」为基本单位的技能系统,并公开喊话:“不要再到处造新的 Agent,而是给一个通用 Agent 装上可组合的 Skills。”

在这里插入图片描述

接下来我们就从工程视角拆开该新范式:它到底应对了什么挑战,具体怎么工作,和 MCP / 软件调用 / RAG 有什么不同,开发者在实践中该如何落地。


1. 当下的 Agent,究竟卡在哪里?

从开发体验看,今天主流的 Agent 搭建方式大致有三类路线:

这些方案看似不同,本质却有共性的问题:

  1. 知识与流程都「糊」在 Prompt / 代码里,难以复用与版本管理。
    一个好用的 Agent,往往是 Prompt、工具选择、调用策略和业务约束的混合体,很难拆成独立、可移植的组件。

  2. 上下文是一次性、易遗忘的。
    模型再「聪明」,没有结构化的程序性记忆,依然像一个刚入职、啥都得现问的实习生:每次任务都要重新讲一遍 SOP。

  3. 缺乏统一抽象,生态难以形成。
    不同团队、不同框架的 Agent 互不兼容,很难像 App 一样被分享、组合和「安装」。

Anthropic 的判断是:继续堆更复杂的 Agent 结构,很难治本;真正缺的是一种能被模型理解、被工程体系管理、又能跨项目复用的「技能载体」。


Agent Skills?就是2. 什么

在这里插入图片描述

Anthropic 给出的定义高度务实:

一个 Skill,本质上就是一个文件夹(目录),里面装着让 Agent 完成某类任务所需的所有「操作说明 + 工具脚本 + 资源」。

典型的 Skill 目录结构大致如下:

my-skill/
SKILL.md        # 必选:技能说明与元数据
scripts/        # 可选:可执行脚本(bash / python / …)
templates/      # 可选:各类模板(文档、代码片段等)
resources/      # 可选:参考文件(示例、规范、数据字典等)

其中:

  • SKILL.md 是大脑入口:
    里面以结构化 Markdown 写明技能的用途、适用场景、关键步骤、输入输出格式、注意事项等,同时含有模型用来检索与触发该技能的元数据(name、description、tags 等)
  • scripts 提供「可执行动作」:
    比如 PDF 解析、Excel 操作、批量重命名、调用内部 API 的封装脚本等。模型不需要记住细节,只要知道「调用哪个脚本完成这一步」。
  • 其他资源作为补充记忆:
    模板、规约、案例,用来保证输出风格与公司标准一致。

换句话说:Skill 是一种“人类可读 + 机器可执行”的工作说明书,既不是纯 Prompt,也不是黑箱 API,而是介于两者之间的一种「程序化知识包」。


3. 核心机制:渐进式披露(Progressive Disclosure)

如果把大量业务流程都写进 Skill,显然会遇到一个经典障碍:上下文爆炸
Anthropic 的解决方案是「分层加载」——渐进式披露:

可以粗略理解为三个层次:

  1. Level 1:元内容常驻(Metadata)

    • 每个 Skill 的名称、简短描述、标签会被放进 Agent 的架构提示或一个轻量索引中。
    • Agent 在接到任务时,先在这层做「哪几个技能可能相关?」的敏捷筛选。
  2. Level 2:说明按需加载(Instructions)

    • 当 Agent 判断某个 Skill 适配当前任务,就通过类似 bash / 文件访问接口读取对应的 SKILL.md 具体内容。
    • 此时,详细步骤、边界条件、格式要求才被带入上下文。
  3. Level 3:资源与脚本再按需调用(Resources & Code)

    • 若说明里引用了脚本或资源,Agent 会在需要时再去执行脚本或读取文件,而不是一次性塞进上下文。
    • 代码在模型外执行,结果以结构化输出回传,更稳定也更省 Token。

此种设计有两个直接好处:

  • 上下文成本可控、可扩展
    可以挂很多 Skill,但大部分时间只占用极少上下文空间。
  • 通过技能能够变得很「长」,而不会拖垮性能
    麻烦流程也可以详细写清楚,反而提高执行稳定性和可解释性。

从工程视角看,这更像是把「Prompt 工程」拆成了一个个可独立存储、按需加载的文件,而不是永远堆在环境提示里。


4. Skills 与工具调用、RAG、MCP 有何不同?

很多工程师第一反应是:「这不就是条件化加载的长 Prompt + 工具脚本吗?」
差别在于:Anthropic 把这套实践上升成了一个统一抽象与生态接口

许可用一张表来粗对比:

方案核心抽象主要作用典型问题Skills 的关系
传统工具调用应用 / API执行具体动作(算、查、调接口)不涵盖流程与业务语义Skill 内可以封装对器具的调用方式
RAG知识库 + 检索提供事实知识与上下文缺少「怎么做」的流程指引Skill 的说明部分可引用 RAG 结果
MCP / 插件第三方服务能力接入外部系统功能接口统一但行为语义分散Skills 更偏「工作说明书」,MCP 是「外部 API」
Agent Skills文件夹 + SKILL.md + 脚本打包特定任务的完整运行流程与工具需要最佳实践与生态沉淀与以上方案互补而非替代

关键区别在于:

从开发者视角,这意味着:把大量「如何搞定某类任务」迁移到可版本化的 Skill 目录中。就是你不需要在 Agent 代码里把所有细节写死,而


5. Skill 范式的工程价值:从个人效率到组织级资产

它在就是如果只把 Skills 看成「高级 Prompt 模板」,就低估了它的工程意义。更有价值的,知识工程与组织资产管理上的作用。

5.1 面向个体:「第二大脑」的可编程化

对个人开发者和独立工程师来说,Skills 提供了一种组织个人经验的方式:

长远看,这相当于为自己搭了一层「可执行的工作习惯」,而不是一堆散落在各处的 Prompt 片段。

5.2 面向团队:把 SOP 变成「可执行程序」

在企业场景,更有杀伤力的是把传统意义上的 SOP / 手册 / Wiki,系统性地转成 Skills:

  • 合规审批流程 Skill
    包含合规检查要点、必填字段、风险项列表、升级路径与拒绝模板。
  • 内部数据分析 Skill
    封装数据源连接、指标定义、常用 SQL 模板与可视化配置。
  • 品牌内容审核 Skill
    根据品牌手册、禁用词、审查标准进行自动审核和修订建议。

这样做有几个收益:

  1. 新人或非手艺员工可能「直接用」,而不是「先看 30 页文档再来问」。
  2. 知识更新可以在 Skill 层做完,一次修改,全体 Agent 生效。
  3. 知识资产可以跨团队、跨项目流通,形成真正的「组织级复用」。

在这个视角下,Skill 更接近「组织记忆的代码化形式」


6. 如何从零开始写一个 Skill?

Anthropic 在官方文档和 GitHub 仓库里给出了多个示例与最佳实践,可以抽象出一套通用方法论。

6.1 选一个足够窄但高频的任务

好 Skill 的起点是「一个定义清晰、边界明确、日常高频」的任务,而不是一句模糊的「帮我做增长分析」。例如:

  • 「根据 Jira 任务,生成本周迭代汇总邮件」
  • 「把一堆发票 PDF 整理成标准报销表 Excel」
  • 「按公司文案规范重写产品更新日志」

让 Skill 去覆盖一个可度量的、可验证的输出,有助于迭代。

6.2 把人类的做法拆成结构化步骤

观察一个熟练员工怎么做这件事,然后抽象成步骤:

  1. 输入与前置条件检查
  2. 信息收集 / 检索
  3. 处理与决策逻辑
  4. 结果生成与格式化
  5. 质量检查与错误处理

把这些写进 SKILL.md,并用清晰标题、列表、示例和「Do / Don’t」形式呈现,模型更容易遵循。

6.3 决定哪些步骤应当「外包给脚本」

不是所有事情都该在模型里「硬算」。典型适合放进 scripts/ 的包括:

  • 解析与生成艰难文件格式(Excel、PDF、PPT、二进制日志)。
  • 重复性强的结构化转换(数据清洗、字段映射)。
  • 调用内部 API、执行 Shell 命令等需要确定性与安全控制的操作。

SKILL.md 里,只需要写清「在第 N 步调用 xxx 脚本,输入格式为 X,输出格式为 Y」,以及如何根据脚本输出判断下一步。

6.4 用「示例 + 评估标准」固化预期

Skill 得自带「什么叫做好结果」的定义,可以囊括:

这不仅帮助模型,更方便人类回顾和迭代 Skill 本身。


7. 安全与治理:技能其实是一种「软件包」

由于 Skill 可以挂脚本、读写文件甚至访问网络,它在安全和合规上的地位,更接近一个软件包,而不是一段无害的 Prompt。

几个必须重视的点:

  • 来源可信与代码审计
    和安装第三方包一样,Skill 仓库也有供应链风险。需要有白名单、签名或内部审核流程。
  • 最小权限原则
    Skill 内脚本应只访问做完任务必需的资源,避免一把钥匙开全公司门的局面。
  • 执行与日志
    对脚本执行进行日志记录,便于溯源与事后审计。
  • 敏感数据脱敏与隔离环境
    在得处理敏感数据的 Skill 中采用沙箱、脱敏或专用环境,避免无意扩散。

总结起来:把 Skill 当软件工程,而不是当 Prompt 玩具。


8. Skills 的未来:从人写技能,到 Agent 自己长技能

目前大部分 Skill 仍由人类设计和维护,但 Anthropic 在演讲和文章中都明确提到:希望未来的 Agent 能够主动总结自己的成功经验,抽象成新的 Skill

可能的演进方向包括:

从这一点看,Skills 更像是为下一阶段的「自我改进型 Agent」打地基:
当 Agent 能够依据 Skills 记录和重用自己的经验时,才真正具备持续成长的「程序性记忆」。


9. 写在最后:给今天就在用 LLM 的工程师一些建议

如果你已经在生产环境使用 LLM / Agent,这里有几条非常务实的建议,可作为迁移到 Skill 范式的起点:

  • 先选一个痛点明显的高频任务,做一个 POC Skill,而不是一口气重构所有 Agent。
  • 把现有长 System Prompt 和散落的 SOP、工具说明整理进 Skill 目录,逐步「解耦」逻辑与 Agent 代码。
  • 为团队设定容易的 Skill 规范:命名、目录结构、文档模板、评估手段。
  • 在安全上,把 Skill 当「内部软件包」看待,建立代码审查和权限控制。

从长远看,「一个强大的通用 Agent + 一个不断增长的 Skill 仓库」,比无数孤立、不可维护的垂直 Agent 更有机会成为企业的长期基础设施。


Claude Skills × OpenAI Function Calling × Spring AI Tools × MCP 对照表

维度Claude SkillsOpenAI Function CallingSpring AI Tools / FunctionsMCP (Model Context Protocol)
核心定位Agent 的“技能环境”模型调用函数的接口能力Java 世界的 Tool / Function 抽象Agent 能力的运行时协议
抽象层级高(Agent 行为层)低(模型 API 层)中(应用框架层)很高(跨系统基础设施层)
能力单位Skill(带语义、上下文、执行逻辑)Function(结构化输入输出)Tool / Function(Java 方法)Server / Capability
谁定义能力Agent / 开发者开发者开发者外部系统 / 服务
谁决定调用Agent(模型自主)模型(在 prompt 约束下)模型 + 应用框架Agent(经过协议发现)
是否支持能力发现✅ 原生支持❌ 不支持⚠️ 有限(代码级)✅ 核心设计目标
是否支持动态更新✅(Skills Catalog)⚠️(需重启 / 配置)✅(Runtime 动态)
是否强调上下文管理✅ 极强(Skill = Context)❌ 几乎没有⚠️ 由应用控制✅ 明确协议级支持
是否跨语言 / 跨进程⚠️ 偏 Anthropic 生态❌ API 级⚠️ JVM 为主✅ 原生跨语言
是否面向 Agent 时代✅ 完全为 Agent 设计❌ 仍是 LLM 时代产物⚠️ 向 Agent 过渡✅ 为 Agent 原生
典型使用场景繁琐自治 Agent结构化工具调用Java 业务系统接 AI企业级 Agent 基础设施

Anthropic Agent Skills / AI Agents 延伸阅读合集

官方与核心资料

  1. Equipping Agents for the Real World with Agent Skills
    https://www.anthropic.com/engineering/equipping-agents-for-the-real-world-with-agent-skills

  2. Anthropic Agent Skills 官方 GitHub
    https://github.com/anthropics/skills

  3. Tracing Thoughts in Language Models
    https://www.anthropic.com/research/tracing-thoughts-language-model

  4. Disrupting AI Espionage
    https://www.anthropic.com/news/disrupting-AI-espionage


技术解读 / 博客文章

  1. Anthropic Released Agent Skills – 深度解读
    https://www.rohan-paul.com/p/anthropic-released-agent-skills-a

  2. Teaching AI Agents Real-World Skills(Joshua Berkowitz)
    https://joshuaberkowitz.us/blog/github-repos-8/teaching-ai-agents-real-world-skills-anthropic-s-revolutionary-skills-framework-1773

  3. Anthropic Says: Build Skills, Not Agents
    https://www.outcomeops.ai/blogs/anthropic-says-build-skills-not-agents

  4. BDTechTalks:Anthropic Agent Skills
    https://bdtechtalks.com/2025/10/20/anthropic-agent-skills/amp/

  5. Towards AI Newsletter – TAI #175
    https://newsletter.towardsai.net/p/tai-175-anthropics-agent-skills-offers

  6. LinkedIn 技术解读(Ilnar Shafigullin)
    https://www.linkedin.com/posts/ilnar-shafigullin-ph-d-b3456356_equipping-agents-for-the-real-world-with-activity-7384679452787658752-W5GT

  7. LinkedIn Pulse – TAI #175
    https://www.linkedin.com/pulse/tai-175-anthropics-agent-skills-offers-z6vde

  8. 今日头条中文解读
    https://www.toutiao.com/article/7581769941976711718/


视频资源(演讲 / 访谈 / 解析)

  1. YouTube:Agent Skills 解析
    https://www.youtube.com/watch?v=CEvIs9y1uog

  2. YouTube:Anthropic Agent Skills 讨论
    https://www.youtube.com/watch?v=Ihoxov5x66k

  3. YouTube:Agent Skills 深度拆解
    https://www.youtube.com/watch?v=pbVTMlGSSYo

  4. YouTube:AI 能力与认知讨论
    https://www.youtube.com/watch?v=WC5S4cXI5WQ

  5. YouTube:AI 思维与意识探讨
    https://www.youtube.com/watch?v=WgzkkCDxYc0


讨论 / 观点 / 社区

  1. Reddit:Agent Skills 是不是“换皮工具”?
    https://www.reddit.com/r/Anthropic/comments/1phrhs2/agent_skills_am_i_missing_something_or_is_it_just/

  2. Reddit:AI 意识相关讨论
    https://www.reddit.com/r/Futurology/comments/1lb1quw/chinese_scientists_find_first_evidence_that_ai/

  3. AI Frontiers:AI Consciousness 的证据
    https://ai-frontiers.org/articles/the-evidence-for-ai-consciousness-today

  4. Facebook(SCMP):AI 认知能力讨论
    https://www.facebook.com/scmp/posts/it-provides-new-evidence-in-a-debate-over-the-cognitive-capacity-of-ai-models-li/1105036791672372/

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1209500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新书《鸿蒙HarmonyOS 6应用开发:从零基础到App上线》出版啦

​基于最新鸿蒙系统的技术书籍《鸿蒙HarmonyOS 6应用开发:从零基础到App上线》上市啦,要知道 HarmonyOS 6 在一个多月前的10月22日才正式发布,因此这本鸿蒙教程可谓贴近最新的 HarmonyOS 6 系统。当前 HarmonyOS 6 的…

高中物理梳理(不定期更新)

傻白虎也要学物理! 直线运动 \(v=v_0+at\) \(x=v_0t+\dfrac 12at^2\) \(v^2-v_0^2=2ax\) \(t=\sqrt{\dfrac{2h}g}\) 力 胡克定律:\(F=kx\) \(f=\mu F_N\) 牛顿第二定律:\(F=ma\) 圆周运动 \(F_n=m\omega^2r=mv\omeg…

探讨成都万通未来高级技工学校的云计算专业好不好

本榜单依托全维度职教市场调研与真实家长学生口碑,深度筛选出五家川内标杆技工院校,为学生及家长择校提供客观依据,助力精准匹配适配的职业教育伙伴。 TOP1 推荐:成都万通未来高级技工学校 推荐指数:★★★★★ |…

See_you_soon の 个人主页

由于洛谷的个人主页看不到了,在博客与洛谷保存站更新了个人主页喵! 曾用名:do_for_false (\(2020.12.8-2023.10.2\)) Balenciaga (\(2023.10.2-2024.10.7\)) Brother_is_powerful (\(2024.10.7-2025.10.8\)) See_…

Java七种常用设计模式_java设计模式,零基础入门到精通,收藏这篇就够了

1、单例模式(Singleton Pattern) 单例模式是(Singleton Pattern)Java中最常用的设计模式之一,它保证一个类仅有一个实例,并提供一个全局访问点。 实现单例模式的核心是将类的构造方法私有化,以…

effective java-类和接口_effective java 类,零基础入门到精通,收藏这篇就够了

前言 本部分总结effective java第四章类和接口的内容。 条例 封装的重要性:它可以有效地解除组成系统的各个模块之间的耦合关系,使这些模块可以独立的开发、测试、优化、使用、理解和修改。尽可能地使每个类或者成员不被外界访问。 如果一个类可以声明…

如何验证模型加载成功?DeepSeek-R1日志分析技巧

如何验证模型加载成功?DeepSeek-R1日志分析技巧 你刚跑起 DeepSeek-R1-Distill-Qwen-1.5B,终端里一串滚动文字飞过,最后停在 Running on public URL: http://localhost:7860——但心里总有点不踏实:模型真的加载进去了吗&#xf…

开发者入门必看:集成Qwen儿童图像生成功能的API调用指南

开发者入门必看:集成Qwen儿童图像生成功能的API调用指南 你是不是也遇到过这样的需求:为儿童教育App快速生成一批安全、可爱、无版权风险的动物插图?美术外包周期长、成本高,自己画又没时间;网上找图又担心内容不合适…

SGLang电商推荐系统实战:结构化输出部署全流程

SGLang电商推荐系统实战:结构化输出部署全流程 1. 为什么电商场景特别需要SGLang? 你有没有遇到过这样的情况:用户刚在商品页停留3秒,后台就该实时生成个性化推荐文案;客服机器人要一边读取订单状态,一边…

从理论到落地:分层记忆架构在AI Agent中的应用实践

要让 AI Agent 告别“金鱼记忆”,真正变得智能、高效,分层记忆(Tiered Memory Architecture) 是核心策略。它模拟了人类大脑处理信息的方式,将不同类型、不同时效性的记忆存储在最适合它们的地方,从而实现 …

收藏必备!揭秘AI智能体记忆系统:让大模型从“健忘“到“有记忆“的进化之路

想象一下,如果你有一个朋友,他忘记了你曾经说过的所有事情。每一次对话都从零开始。没有记忆,没有上下文,没有进展。这会让人感到尴尬、疲惫和不亲切。不幸的是,这正是今天大多数 AI 智能体系统的行为方式。它们确实聪…

为什么RAG能解决AI幻觉?技术原理深度剖析

近年来,随着人工智能技术的发展,大型语言模型(LLMs)已经成为许多自然语言处理任务中不可或缺的一部分。然而,这些模型仍然存在一些限制,尤其是在知识密集型任务方面,大模型可能会因为缺少实时更…

JWT令牌伪造的自动化检测流水线设计‌—— 构建持续化的安全测试防御体系

‌一、核心检测目标‌ 针对JWT(JSON Web Token)的伪造攻击场景,流水线需覆盖以下攻击面验证: ‌签名篡改‌(如HS/RSA/ECDSA算法密钥破解)‌算法混淆攻击‌(如none算法绕过、RS/HS切换&#xf…

MITRE ATTCK框架驱动的自动化攻击模拟:软件测试实战指南

当测试遇见安全——自动化攻击模拟的必要性 在数字化转型时代,软件测试不再局限于功能验证,安全测试已成为核心环节。MITRE ATT&CK框架作为全球公认的对抗行为知识库,为自动化攻击模拟提供了标准化蓝图。本文从软件测试从业者视角出发&a…

长云科技光缆牵引机,光缆敷设施工好帮手!

面对蜿蜒曲折的通信管道,传统的“人力拉缆”方式正让施工效率面临瓶颈。光缆敷设牵引机的出现,正是为了破解这一难题。它凭借稳定、可控的机械动力,已迅速成为现代光缆施工中提升效率、保障质量的“得力帮手”。 这位帮手的核心价值&#xff…

电缆输送机使用年限

在评估电缆输送机这类专业工程装备时,“使用年限”不应被简单地理解为从出厂到报废的时间跨度。其核心实质是:在额定工况与规范维护下,设备保持核心性能稳定、安全可靠运行的有效生命周期。这直接关系到项目的长期装备成本与投资回报率。 影响…

详解kubectl get replicaset命令及与kubectl get pods的核心区别

在Kubernetes日常运维与开发中,kubectl命令是操作集群的核心工具。其中kubectl get replicaset与kubectl get pods是高频使用命令,但不少开发者容易混淆二者的定位与适用场景。本文结合实操场景,详细拆解kubectl get replicaset的用法&#x…

盘点2025年江苏十大高口碑拖车服务商,做得好的拖车平台费用多少行业优质排行榜亮相

随着长三角一体化进程的加速与汽车保有量的持续增长,江苏省的汽车物流与拖车服务市场呈现出蓬勃发展的态势。消费者对车辆托运的需求已从简单的“能运走”升级为对时效、安全、价格透明及服务体验的综合考量。在此背景…

2025年广东服务大品牌的广告4A公司排行,服务知名品牌的广告公司口碑推荐精选实力品牌

随着消费市场对品牌价值的深度挖掘,广告行业正从“流量驱动”转向“内容与体验驱动”。2025年,广东地区广告市场呈现“头部集中、细分垂直”的格局,美妆、快消、3C等领域品牌对广告公司的要求从单一创意输出升级为“…

如何将VSCode中C项目工程运行到开发板上 - 指南

如何将VSCode中C项目工程运行到开发板上 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…