怎么成为一个 ai agent 工程师?

摘抄

💡 核心点 (原话/概括)🔄 内化 (我的话/关联)
从后端转 AI Agent 工程师,核心是转变思维模式:从“确定性”的编程逻辑,转向“概率性”的系统构建。
第一站:告别“调包侠”,真正理解 LLM 的能力边界和工作原理
什么是 Embedding?为什么需要向量数据库?Cosine Similarity 到底在算个啥?RAG(检索增强生成)的本质是什么?ReAct(Reasoning and Acting)这个模式是怎么让 LLM 和外部工具交互的?Function Calling 的工作流程是怎样的?
Embedding(嵌入)
Cosine Similarity(余弦相似度)1.它懂“话题”,但不一定懂“逻辑”:- “我喜欢吃苹果” 和 “我讨厌吃苹果”。 - 这两句话的余弦相似度其实很高,因为它们都在聊“我、情绪、吃、苹果”。如果你要做情感分析,光靠余弦相似度可能会误判。
Function CallingLLM 在调用工具时,输出会暂停吗?会等待吗?
动手写一个“丐版”的 RAG。
你自己用sentence-transformers库把文档切块、生成向量,存到一个 Faiss 或者 ChromaDB 的本地实例里。
sentence-transformers- 它是目前工程界最流行的开源工具库(Python 库),专门用来生产高质量的“语义向量”。 - 它是对 BERT 进行了特训(Fine-tuning)。 - 训练方式叫Siamese Networks(孪生网络)
Faiss向量数据库
ChromaDB向量数据库
第二站:以一个“真实”的场景驱动,构建你的“代表作”
1. 复杂数据处理 2. 核心 RAG 流程 3. Agentic 逻辑与 Tool Use 4. 评估!评估!评估!重要的事情说三遍
unstructured.io复杂数据处理 它是目前开源界**清洗数据(ETL)**的标准答案。只有数据洗得干净,后面的 Embeddings 和回答才会准。
HyDE(Hypothetical Document Embeddings)一种高级 RAG 方法(设计模式,不是某个库) HyDE
Multi-Query RetriverMulti-Query Retriever 主要是“一种方法论(Methodology)”或“设计模式”。 它已经成为了 LangChain 和 LlamaIndex 这些“标准工具库”里的一个现成组件。 LangChain 直接提供了一个类叫MultiQueryRetriever。这是目前业界最标准的“工具”。 Multi-Query Retriver
这个过程怎么调试?LLM 为什么不按你的想法去调用工具?这就是 Agent 工程师天天在挠头的事情。你可能需要用 LangGraph 或者自己实现一个 ReAct 循环来管理这个复杂的执行逻辑。
你的 Agent 做完了,怎么证明它比人肉看报告更好?
最简单的,找 20 份报告,设计 100 个问题和标准答案,形成一个“评估集”。然后让你的 Agent 跑一遍,用Ragas这类框架计算一下faithfulness(忠实度)、answer_relevancy(相关性)等指标。的标准答案。只有数据洗得干净,一切优化都是玄学。Ragas = Retrieval Augmented Generation Assessment
第三站:补齐“生产化”的最后一块拼图
1. 成本和延迟意识 2. 可观测性 3. 模型与工具链
一个设计不好的 Agent 链条,一个请求进来可能要来回调用 LLM 十几次,成本直接爆炸。你怎么设计缓存策略?怎么通过更小的模型(比如 fine-tune 一个本地模型)来处理某些固定任务?怎么优化 Prompt 来减少 token 消耗?这些都是 P7 级别需要考虑的问题。
一个 Agent 的执行过程是个复杂的黑盒。你需要引入像 LangSmith、wandb 这样的工具,去追踪每一次调用的 Prompt、返回结果、中间步骤、token 消耗。
字节就是一个很好的关注对象,因为它的版图足够大,所以它的 agent 手册就可以覆盖 agent 从底层技术(大模型、工具调用、API 集成、架构设计)到各种泛业务场景(办公、电商、内容创作、教育)的全链路案例。

LLM 在调用工具时,输出会暂停吗?会等待吗?

答案:是的会暂停,而且是接力跑式的暂停。

我们可以把整个过程想象成一场**“接力赛”**,LLM 和 我们的系统代码(Python/Java 后端)是两个运动员,他们不能同时跑,必须交接棒。

1. 第一棒:LLM 思考与暂停 (The “Stop” Event)

当用户问“查天气”时,LLM 开始生成文字。一旦它通过训练好的逻辑判断出“我要调工具了”,它会生成一个特殊的停止符或者一段特定的 JSON 结构,然后停止生成。

  • 此时的状态: LLM 的任务暂时结束了。它告诉系统:“我需要这个工具,参数是北京,你快去办,办完告诉我。”
  • 注意点:这时候,用户界面通常还在“思考中”或“处理中”,但实际上 LLM 已经不干活了,压力转到了我们的后端服务器上。
2. 第二棒:系统“跑腿” (System Execution)

我们的后端代码接过了棒子。

  • 系统拿着 LLM 给的指令(get_weather(location="Beijing")),去请求气象局的 API。
  • 这个过程LLM 是完全不知道的,也不参与的,如果气象局 API 卡了 10 秒,整个对话就会卡 10 秒。LLM 不会催,因为它已经“挂起”了。
3. 第三棒:LLM 重新接棒 (Resume Generation)

系统拿到了气象局的数据(比如“25 度”),但这还不是人话。 系统会把 [用户问题 + LLM 刚才的思考 + 工具返回的结果]打包在一起,再次发给 LLM。

  • 系统对 LLM 说:“刚才你要查的数据回来了,是 25 度,现在请你把这句话说完。”
  • LLM 重新启动,结合上下文,生成最终回复给用户。

Faiss vs ChromaDB 架构对比

PixPin_2026-01-06_14-35-42

unstructured.io

PixPin_2026-01-06_14-36-00

HyDE

痛点:用户的问题非常短、非常模糊,而我们要找的文档非常专业、非常长的时候。

这时候,标准的搜索经常失效。HyDE (Hypothetical Document Embeddings)就是解决这个问题的“作弊技巧”。

HyDE 的核心思想是:与其拿“问题”去搜,不如拿“答案”去搜。

但是我们没有答案啊?没关系,让 LLM 编一个!

流程变成了这样:

  1. 用户问:“断网了怎么办?”
  2. LLM 先生成一个假设性回答(Hypothetical Document)
  • “如果遇到网络连接中断,通常需要检查路由器的 WAN 口指示灯,尝试重启调制解调器,或者检查 DHCP 配置是否获取到了 IP 地址…”
  • (注意:这个答案可能是错的!比如你的产品根本不是路由器。但没关系,重要的是它包含了很多相关关键词。)
  1. 我们拿这段**“假答案”**转成向量。
  2. 去数据库里搜。这时候,“假答案”里的关键词(路由、IP、重启)就能完美匹配到那篇《故障排查手册》了。

PixPin_2026-01-06_14-36-18

Multi-Query Retriver

PixPin_2026-01-06_14-36-40

Retrieval Augmented Generation Assessment

  • Ragas 是什么?一个 Python 库,用于量化评估 RAG 系统的质量。
  • 解决什么?拒绝“凭感觉优化”,用“Faithfulness”和“Recall”等数据说话。

PixPin_2026-01-06_14-37-54

指标 (Metric)维度它是查什么的?通俗解释
Faithfulness (忠实度)生成质量答案是不是瞎编的?你的答案是否每一句都能在检索到的文档里找到出处?(防幻觉指标)
Answer Relevance (答案相关性)生成质量答非所问了吗?用户问“怎么退款”,你回答“退款政策是 XX”,这就相关。如果你回答“你好”,这就低分。
Context PrecisionBR (上下文精确度)检索质量搜到的东西有用吗?搜出来的 5 条文档里,排在第 1 条的是不是最关键的?还是说全是垃圾广告?
Context Recall (上下文召回率)检索质量该搜的都搜到了吗?标准答案里需要的信息,你的检索器真的捞出来了吗?还是漏掉了关键段落?

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

作为一名老互联网人,看着AI越来越火,也总想为大家做点啥。干脆把我这几年整理的AI大模型干货全拿出来了。
包括入门指南、学习路径图、精选书籍、视频课,还有我录的一些实战讲解。全部免费,不搞虚的。
学习从来都是自己的事,我能做的就是帮你把路铺平一点。资料都放在下面了,有需要的直接拿,能用到多少就看你自己了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以点击文章最下方的VX名片免费领取【保真100%】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124659.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

收藏!小白程序员必看:大语言模型核心原理全解析(从ChatGPT到Transformer)

本文专为程序员和AI初学者打造,用通俗易懂的语言拆解大语言模型(尤其是ChatGPT)的核心逻辑,覆盖生成式特性、预训练机制、Transformer架构三大核心板块。文中系统梳理AI基础知识点,详解SFT、PPO、RLHF等关键训练方法&a…

我的超详细大模型学习路线!

我复盘了自己在实习中LLM的微调经验、AI-Agent开发经验、高stars开源项目经验,结合cs336课程理论的全过程,把碎片化的知识串成了一条线,希望能帮想转行的你,搭建一个坚实的知识框架!学习路线主要包括以下内容&#xff…

【爆肝整理】OpenAI官方发布!2026 Agent元年,手把手教你从零搭建LLM智能体,小白也能秒变AI大神!

2026年被称为Agent 元年,LLM 智能体正成为技术新风口,在独立处理复杂的多步骤任务上潜力巨大,但如何从零构建一个既强大又可靠的 Agent 却让许多开发者头疼。 OpenAI 最新发布的《构建智能体实用指南(A practicalguide tobuildin…

PCB的叠层结构和材质详解

思考:关于PCB的材质,主要是由copper、core、prepreg,这三个叠起来的,需要从材料、功能和应用三个维度讲清楚。Copper就是导体层,负责走线和铺铜;core是双面覆铜的刚性绝缘板,提供机械支撑&#…

飞算 JavaAI “执行 SQL 语句” 功能:在 IDEA 里轻松查数据结果

平时用 IDEA 写代码、处理数据时,要是想查 SQL 语句跑出来的结果,还要切换到其他数据库工具,来回操作特别麻烦。飞算 JavaAI 的 “执行 SQL 语句” 功能,直接在 IDEA 插件里就能搞定 SQL 执行和结果查看,不用跳转工具&…

无人机抗干扰技术解析与应用

无人机环境抗干扰是一个综合技术体系,通过多种技术协同确保在复杂电磁环境下仍能稳定通信和导航。其核心思路已从单点防护转向“智能感知-动态决策-协同防御”。主要抗干扰技术为了快速了解,下表汇总了各类技术的核心原理和代表性技术。各类技术深度解析…

Supertonic 部署与使用全流程保姆级指南(附已部署镜像)

前言 Supertonic 是一款实用的开源工具(注:可根据实际补充Supertonic的核心功能,如语音合成/处理等),本文将详细讲解其 Python 版本的完整部署流程、日常使用方法,并附上我已部署好的镜像链接,…

深度解析Agent实现,定制自己的Manus

前一阶段Manus大火,被宣传为全球首款“真正意义上的通用AI Agent”,其核心能力就是基于LLM的自主任务分解与执行,根据官方测试数据,Manus 在 GAIA 基准测试中表现超越 OpenAI 同类产品,且完成任务的成本更低。虽然之后…

收藏!35岁危机下程序员破局指南:转行大模型,抢占下一个黄金十年

不知从何时起,“35岁危机”已然成为悬在互联网行业从业者头顶的达摩克利斯之剑。企业对35岁以上程序员的优化调整屡见不鲜,深究核心原因,无外乎IT技术迭代速度堪称“日新月异”,而中年开发者常被贴上“学习效率下滑、精力跟不上节…

AI Agent正在消灭编程岗位?真相是:这是程序员的最好时代!小白开发者如何抓住这波AI红利?

当通用人工智能(AGI)的宏大叙事仍在进行时,一场真正决定产业互联网未来格局的变革已悄然降临——AI Agent(智能体)时代已经全面到来。这一年,AI Coding、AI效率工具、AI视频创作,各种Agent层出不…

3.5 推荐系统评价指标详解:准确率、召回率、F1、NDCG,如何选择

3.5 推荐系统评价指标详解:准确率、召回率、F1、NDCG,如何选择 引言 推荐系统的评估指标直接影响模型优化方向。准确率、召回率、F1、NDCG等指标各有特点,选择合适的指标至关重要。本文将深入解析这些指标的含义、计算方法和选择原则。 一、分类指标 1.1 准确率和召回率…

【深度干货】AI Agent的“六神合体“术:从感知到优化的完整闭环,小白也能懂

在AI技术飞速发展的今天,AI Agent已经成为了一个热门的研究和应用领域。无论是企业还是个人开发者,都希望能够借助AI Agent来提升工作效率、优化业务流程或创造全新的用户体验。 但是在学习使用智能体时,我们需要先了解智能体的核心模块是啥&…

别再迷信 Python 了!Java + Spring + Milvus,这才是企业级 RAG 的终极形态!

在企业数字化转型的浪潮中,PDF、Word 等海量文档往往沉睡在各个业务系统中,形成“数据孤岛”,难以被智能系统高效利用。 那么,如何构建一个真正面向企业场景落地的 AI 应用,让 AI 成为企业的“智能助手”?…

三菱FX5U七轴标准程序解析

三菱FX5U七轴标准程序,包含轴点动,回零,相对与绝对定位,整个项目的模块都有:主控程序,复位程序,手动,生产计数,只要弄明白这个程序,就可以非常了解整个项目的程序如何去编…

从人类智能到智能体:Agent的发展与治理

AI Agent(智能体)已从技术概念加速走向产业落地。作为早在20世纪80-90年代就被提出的概念,智能体到近两年才迎来真正落地。 解构智能体的核心构成与发展逻辑,需聚焦其“智能内核”与“呈现形态”两大维度。作为人工智能的一种发展…

别被高大上的名词吓跑!AI Agent 到底是个啥?这篇指南太良心了,一看就懂!

什么是 AI Agent 🤖 AI Agent 是人工智能领域中的一个概念,它是一种能够自主执行任务的智能体它具有以下特点: 自主性 AI Agent 能够自主执行任务,不需要人工干预例如智能扫地机器人,只需要设定"每天下午3点打扫客…

全网最全10个AI论文工具,自考毕业论文轻松搞定!

全网最全10个AI论文工具,自考毕业论文轻松搞定! 自考论文写作的“隐形助手” 对于自考生来说,撰写毕业论文往往是一个充满挑战的过程。从选题到结构搭建,再到内容撰写和查重修改,每一个环节都需要耗费大量时间和精力。…

2.37 时间序列预测入门:什么是时间序列?从股票价格到销售预测

2.37 时间序列预测入门:什么是时间序列?从股票价格到销售预测 引言 时间序列是按时间顺序排列的数据序列,广泛应用于股票价格、销售预测、天气预测等领域。本文将介绍时间序列的基本概念,并通过实例演示时间序列预测。 一、时间序列概述 1.1 什么是时间序列? 时间序列…

Arbess速成手册(14) - 集成GitLab实现Java项目自动化Gradle构建并主机部署

Arbess 是一款开源免费的 CI/CD 工具,工具支持免费私有化部署,一键安装零配置,页面设计简洁明了。本文将详细介绍如何安装Arbess、GitLab,并创建配置流水线实现 Java 项目Gradle构建并部署主机。 1、GitLab 安装与配置 本章节将…

消防应急款手持气象仪:在突发事故现场快速获取关键气象参数

消防应急手持气象站是专为消防救援、灾害应急等场景设计的便携式气象监测设备,能够在突发事故现场快速获取关键气象参数,为救援指挥提供实时数据支持。该设备集成了多项气象传感器,具备轻量化、高精度、快速响应等特点,适用于火灾…