核心关系:
大模型(认知) --> Agent框架/平台(记忆+工具+规划)行成“目标-拆解-执行-反馈”的自主闭环 --> AI工具/应用(具体场景:写代码、画UI、做客服、跑流程)
主流大模型LLM(大脑)
1、国际主流模型:
ChatGPT(OpenAI):支持多模态和复杂推理。
Gemini(Google):擅长多语言和逻辑推理。
Claude(Anthropic):以安全性和连续对话著称。
Llama(Meta):开源社区广泛使用的高性能模型。
Grok(Elon Musk):超强实时推理。
2、国内主流模型:
Qwen (阿里云):强于代码生成。
Kimi (月之暗面):擅长长文理解和专业推理。
MiniMax (小牛):以逻辑推理和长上下文记忆见长。
GLM (智谱AI):专注于知识图谱与中文语义理解。
doubao(字节):在多模态感知上表现卓越。
DeepSeek(DeepSeekAI):适合技术团队进行深度微调与二次开发。
Ernie(百度文心):拥有强大的文档解析与检索增强能力。
Agent技术栈
1、记忆管理 (Memory)
突破上下文窗口限制,建立“个人知识库”。
短期记忆 (Context):仅保留最近的N轮对话,防止上下文溢出。
长期记忆 (Long-term):通过向量数据库(Vector DB)存储用户偏好、历史任务,实现跨会话记忆。
2、工具集成 (Tools Integration)
从“语言模型”进化为“操作系统”。
Function Call (函数调用):结构化输出 JSON,调用搜索、计算或API接口。
RAG (检索增强生成):在生成内容前检索向量库或知识库,降低幻觉概率。
3、规划与推理 (Planning)
让Agent像人类一样思考和行动。
ReAct 框架:思考 (Reason) -> 行动 (Act) -> 观察 (Observation) 的闭环推理。
Plan-and-Execute:先规划 (Plan) 再执行 (Execute),适用于复杂任务。
多智能体协作:对于极其复杂的任务,可能需要分配给不同专长的子Agent协同完成。
主流Agent框架/平台(小脑)
1、开源框架:
LangChain(链式工具调用标杆)
AutoGen(微软,多智能体异步协作)
CrewAI(角色扮演型分工)
LlamaIndex(数据密集、知识库场景)
2、低代码平台:
阿里百炼(通义+插件商店,云端一键部署)
百度文心智能体平台(中文深度优化,可私有化)
字节Coze/扣子(飞书、抖音、公众号一键分发)
智谱清言Agent Market(基于GLM-4,个人免费)
主流AI工具(手脚)
1、编程协同:
GitHub Copilot(IDE内70%市占, GPT系列驱动,支持多模型切换)
Cursor(独立IDE,Composer批量重构)
AugmentCode(企业级代码审计、128K上下文)
2、产品/设计:
墨刀AI Agent(竞品分析→低保真原型→PRD一条线)
Figma+AI(Make生成UI草稿,团队组件库协作)
博思白板AI(可视化竞品地图、多模态一键成图)
3、办公/流程自动化:
飞书(智能会议纪要+审批流+多维表格)
Microsoft 365 Copilot(Word→PPT→Excel跨应用生成)
Notion AI(知识库汇总、竞品日报自动整理)
4、内容&客服:
Synthesia(数字人视频,文本→多语播报)
腾讯企点(微信生态客服,机器人+人工无缝转接)
Jasper/文心一言(合规营销文案、商品描述批量生成)