收藏!提示词工程该改名了:Karpathy力推“上下文工程“新范式,大模型开发者必看!

Andrej Karpathy提出将"提示词工程"更名为"上下文工程",认为工业级LLM应用中填充上下文窗口才是关键。作为Software 3.0范式的核心,上下文工程是科学与艺术的结合,需科学配置任务描述、少样本示例、RAG等数据,同时理解LLM的"人类精神"。LLM正成为新型操作系统,而完整的LLM应用还需问题拆分、控制流等功能。上下文工程不仅关乎模型性能,更是通向AGI的重要路径。

提示词工程该改名了!

Andrej Karpathy 最新发声,建议用「上下文工程」(context engineering)取代「提示词工程」(prompt engineering)。

这个提议并不只是个简单的文字游戏,而是有着背后的思考和洞察。

Karpathy 指出,人们一听到「提示词」,就会联想到日常使用 LLM 时输入的简短任务描述。但在真正的工业级 LLM 应用中,填充上下文窗口才是一门精妙的艺术与科学

为什么是艺术与科学?

说它是科学,因为做好这件事需要:

  • 任务描述和解释
  • 少样本示例(few shot examples)
  • RAG(检索增强生成)
  • 相关数据(可能是多模态的)
  • 工具调用
  • 状态和历史记录
  • 内容压缩

太少或格式不对,LLM 就缺乏必要的上下文,性能无法达到最优。太多或不相关,不仅成本上升,性能反而可能下降。

说它是艺术,则是因为需要对 LLM 心理学有直觉般的理解——Karpathy 戏称为「人类精神」(people spirits)的引导直觉。

Dallas(@i_Forget_) 对此吐槽道:

「人类精神」这个说法-1分。但我还是同意,这确实既是艺术也是科学。

从 Software 3.0 说起

要理解「上下文工程」的重要性,得从 Karpathy 在 YC AI Startup School 的演讲说起——他提出了 Software 3.0 的概念,认为软件正在经历根本性转变。

Software 1.0 是传统编程,开发者用 Python、C++ 等语言编写明确的指令。Software 2.0 是神经网络时代,通过数据训练模型,代码变成了模型权重。

而 Software 3.0,则是用自然语言与 LLM 交互的新范式。

Karpathy 最具洞察力的观点是:LLM 不仅仅是工具或 API,它正在成为一种新型操作系统。这个新操作系统有自己的「CPU」(推理能力)、「RAM」(上下文窗口)、甚至「文件系统」(通过 RAG 访问的知识)。

他甚至将当前的 AI 格局比作 1960 年代的大型机和分时共享时代:

计算资源昂贵且集中化,用户通过「终端」(聊天界面)远程访问,计算能力以分时方式分配。

上下文工程也只是冰山一角

更重要的是,Karpathy 强调,上下文工程本身只是 LLM 应用的一小部分。一个完整的 LLM 应用还需要:

  • 恰到好处地拆分问题为控制流
  • 精准地打包上下文窗口
  • 调度合适类型和能力的LLM 调用
  • 处理生成-验证的用户交互流程
  • 更多——防护栏、安全、评估、并行处理、预取……

所以,上下文工程只是这个厚重软件层中的一小块,这层软件协调着各个 LLM 调用(以及更多功能),最终形成完整的 LLM 应用。

ChatGPT套壳」这个贬义说法已经过时了,而且大错特错

反而将成为新的攻坚方向。

网友热议

Mike Renwick(@runonthespot) 提出了另一个角度:

我更喜欢「行为工程」。不仅是上下文,还包括围绕它的抽象。控制流、状态、上下文/任务分割和隔离。像 dspy 这样的概念,以及其上的层。有些只是经典编程,但其他的更偏向概率。

Anil Vaitla(@avaitla16) 分享了实践经验:

我发现评估工程是下一步,也是实现上下文工程的关键。有一个好的答案集和手工整理的正确答案,可以让你搞清楚应该用什么样的上下文来解决提示。一旦答案集中的所有提示都被解决,它似乎能很好地泛化到终端用户提出的新提示。

有人已经发现,contextengineering.com 这个域名20年前就被注册了

Alan Zhu(@alanzhuly) 把视角拉到了个人智能层面:

「上下文工程」对个人智能至关重要——特别是在设备上运行的小型专用语言模型。围绕个人的有意义、持久的上下文不仅会解锁新的日常使用场景,还会改变人们与 AI 和技术的互动方式,重塑他们的生活方式。

Josh Clemm(@joshclemm) 用一个生动的例子说明了选择正确上下文的重要性:

选择正确的上下文太重要了,因为 LLM 经常会把你传给它的任何东西当作权威。还记得「在披萨上加胶水」吗?它们已经改进了,但仍然不够好。所以我们在正确的时间设计正确上下文的能力至关重要!

dex(@dexhorthy) 甚至写了一篇关于这个主题的文章:

Michelle(@michellelsun) 用一个精妙的比喻总结道:

上下文工程 ≈ 为模型策划一个 JIT(即时)记忆馈送——只包含最相关、经过验证、隐私安全的数据片段。把这个物流层做好,即使是适度的上下文窗口也能胜过仅凭花哨的提示。

LLM 的「心理学」特征

Karpathy 在演讲中生动地将 LLM 描述为具有独特认知特征的「易错的天才」(fallible savants)。

锯齿状智能(Jagged Intelligence):LLM 可能在某些任务上表现超人,但在看似简单的问题上却会失败。比如,它能解决复杂的数学问题,却可能错误地认为 9.11 大于 9.9。

顺行性失忆症(Anterograde Amnesia):Karpathy 形容 LLM 就像患有顺行性失忆症的同事——一旦训练结束,它们就无法巩固或建立长期知识,只有短期记忆(上下文窗口)。

幻觉:LLM 有时会犯人类不会犯的错误,比如坚持「strawberry」里有两个「r」。模型生成的信息听起来令人信服,但完全是错的。

易受欺骗:它们极易受到提示注入的影响。

下一个爆火方向?

Mehrdad Yazdani(@crude2refined) 问道:

说得好,这能像 vibe coding 那样成为一个真正的概念吗?

SKP(@skpolepaka) 则比较悲观:

我理解把它叫做提示工程的问题,但这艘船可能已经起航了。现在恐怕很难把它重新命名为上下文工程了。

但 David Sancho(@davesnx) 调侃道:

太晚了,vibe coding 的概念太强大了,它像火一样蔓延。

eren(@Eremeyen3) 提出的尖锐问题:

你怎么让上下文工程具有未来适应性?

在我看来,像vibe coding 一样——当我们还在争论该叫什么的时候,挑战其实才刚刚开始。

更大的上下文图景

回到 Karpathy 的观点,当他说 LLM 正在成为一种新型操作系统时,我们或许还需要思考:什么是真正完整的上下文?

现在的「上下文工程」主要聚焦于如何在有限的上下文窗口内,塞入最相关的信息。但这可能只是开始。

真正的上下文,应该包括:

  • 用户刚才看了什么网页
  • 正在使用什么软件
  • 在 IM 软件上与谁进行了什么对话
  • 当前的时间、地点、环境状态
  • 甚至用户的情绪、意图、长期目标

如 Karpathy 在特斯拉的经历所示,自动驾驶系统经过十年发展,仍需要人类监督。这告诉我们:即使有了强大的模型,获取和理解完整的上下文仍是巨大挑战。

Karpathy 用「钢铁侠战衣」的比喻来说明 AI 增强和完全自主之间的光谱,而战衣既可以由托尼·斯塔克直接驾驶(增强),也可以作为智能体半自主运行。

也许,当我们从「提示词」走向「上下文」,再走向更完整的环境感知时,我们才真正接近 AGI 的可能性。

模型的能力提升可能会遇到瓶颈,会在一定程度上撞墙,但如果我们能更全面、更精准地获取和提供上下文,让 AI 真正理解「此时此地此人」的完整语境,那可能将迎来新的范式转变。

从给机器下指令,到为机器构建理解世界的框架,再到让机器真正感知和理解它所处的世界。

这,或许才是通向 AGI 的开始。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1154187.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安卓APK管理终极指南:APKMirror完整解析与深度实践

安卓APK管理终极指南:APKMirror完整解析与深度实践 【免费下载链接】APKMirror 项目地址: https://gitcode.com/gh_mirrors/ap/APKMirror 你是否曾因Google Play商店版本限制而无法获取特定应用?或者作为开发者需要安全分发测试版本APK文件&…

VC均热板的工艺流程,以及其板设计的重点。

🎓作者简介:科技自媒体优质创作者 🌐个人主页:莱歌数字-CSDN博客 💌公众号:莱歌数字 📱个人微信:yanshanYH 211、985硕士,职场15年 从事结构设计、热设计、售前、产品设…

3步搞定:Windows防撤回工具RevokeMsgPatcher完整配置指南

3步搞定:Windows防撤回工具RevokeMsgPatcher完整配置指南 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了) 项目地址: https://gitcode…

Axure RP如何快速切换中文界面?3步解决英文困扰的实用指南

Axure RP如何快速切换中文界面?3步解决英文困扰的实用指南 【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包,不定期更新。支持 Axure 9、Axure 10。 项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn …

为什么90%的医疗机构脱敏方案都存在泄露风险?真相在这里

第一章:医疗数据脱敏处理的现状与挑战在数字化医疗快速发展的背景下,患者隐私保护成为信息安全的核心议题。医疗数据包含大量敏感信息,如姓名、身份证号、病历记录等,一旦泄露可能造成严重后果。因此,数据脱敏作为保护…

【配置中心性能优化指南】:支撑百万实例的配置分发架构设计

第一章:配置中心性能优化概述在现代分布式系统中,配置中心承担着集中管理应用配置的重任。随着微服务数量的增长和配置项的频繁变更,配置中心可能面临高并发读取、低延迟响应和实时推送等性能挑战。因此,对配置中心进行性能优化成…

Scikit-learn轻松搞定医疗分类任务

📝 博客主页:jaxzheng的CSDN主页 Scikit-learn在医疗分类任务中的高效应用:从数据到精准决策目录Scikit-learn在医疗分类任务中的高效应用:从数据到精准决策 引言:医疗AI的“轻量级”革命 医疗分类任务的核心挑战&…

PMBus PAGE命令作用解析:一文说清切换逻辑

PMBus PAGE命令深度解析:如何精准切换寄存器页面?在开发高性能数字电源系统时,你是否曾遇到过这样的问题——明明写入了正确的寄存器地址和数据,但输出电压却没有变化?或者读取的电流值总是“错位”?这类诡…

MediaPipe模型调优实战:提升打码卫士召回率

MediaPipe模型调优实战:提升打码卫士召回率 1. 背景与挑战:从“漏打”到“全打”的隐私保护升级 在数字影像日益普及的今天,人脸信息已成为敏感数据的核心组成部分。无论是社交媒体分享、企业宣传照,还是公共监控截图&#xff0…

QQ防撤回神器:3步搞定9.9.6版本失效问题

QQ防撤回神器:3步搞定9.9.6版本失效问题 【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁(我已经看到了,撤回也没用了) 项目地址: https://gitcode.com/GitHub_Tren…

signal(SIGPIPE, SIG_IGN) 学习

在看服务器相关代码,会看到如下代码,这行代码的作用是什么呢? signal(SIGPIPE, SIG_IGN);作用:防止服务器因单个失效连接写数据而整体崩溃;可能客户端和服务器已经断开了,服务器还给断开的客户端发送数据时&#xff0…

GLM-4.6V-Flash-WEB媒体行业:自动生成图文摘要案例

GLM-4.6V-Flash-WEB媒体行业:自动生成图文摘要案例 智谱最新开源,视觉大模型。 1. 引言:媒体内容处理的新范式 1.1 行业背景与挑战 在当今信息爆炸的时代,媒体行业每天面临海量图文内容的生产与分发压力。传统的人工编辑方式已难…

AI手势识别与追踪工具推荐:5个高效开发辅助插件

AI手势识别与追踪工具推荐:5个高效开发辅助插件 1. 引言:AI 手势识别与追踪的工程价值 随着人机交互技术的不断演进,AI手势识别与追踪正逐步从实验室走向消费级应用。无论是虚拟现实(VR)、增强现实(AR&am…

Axure RP中文界面终极配置指南:3分钟告别英文困扰

Axure RP中文界面终极配置指南:3分钟告别英文困扰 【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包,不定期更新。支持 Axure 9、Axure 10。 项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn 还在为…

AI手势识别与追踪低成本落地:适用于教育场景的部署案例

AI手势识别与追踪低成本落地:适用于教育场景的部署案例 1. 引言:AI 手势识别与追踪在教育中的潜力 随着人工智能技术的普及,非接触式人机交互正逐步进入教育信息化的视野。传统课堂中,教师依赖鼠标、键盘或触控屏进行演示操作&a…

MediaPipe人脸识别实战:AI隐私卫士部署案例详解

MediaPipe人脸识别实战:AI隐私卫士部署案例详解 1. 引言:AI 人脸隐私卫士的现实需求 随着社交媒体和数字影像的普及,个人隐私保护问题日益突出。在多人合照、公共监控截图或新闻配图中,常常无意间暴露了非目标人物的面部信息&am…

AI绘画接单神器:Z-Image云端工作室,日省5小时

AI绘画接单神器:Z-Image云端工作室,日省5小时 1. 为什么自由画师需要云端AI工作室? 最近两年,AI绘画接单市场爆发式增长。根据行业调研,约67%的自由画师表示接单量同比增加2-3倍,但本地显卡渲染排队问题让…

【值得收藏】大模型应用开发入门:LLM、Token、RAG和向量数据库全攻略

作者通过开发代码仓库转换wiki项目,分享了从零开始学习大模型应用开发的心得。文章详解了LLM本质、Token计算与限制、RAG架构解决幻觉与知识过时问题,以及向量数据库在检索增强生成中的关键作用。对比了RAG与私有数据训练的优劣,强调好的Prom…

手部追踪技术未来:MediaPipe Hands发展方向分析

手部追踪技术未来:MediaPipe Hands发展方向分析 1. 引言:AI手势识别的技术演进与核心价值 1.1 技术背景与行业需求 随着人机交互方式的不断演进,传统基于键盘、鼠标的输入模式已无法满足日益增长的沉浸式体验需求。从VR/AR设备到智能车载系…

收藏!大语言模型(LLM)从入门到精通:程序员必看的技术详解

大语言模型(LLM)是基于Transformer架构的智能系统,能理解并生成人类语言。核心能力包括文本理解、内容生成、问答互动等,已从早期词向量模型发展到如今支持多模态的GPT-4、Gemini等。应用场景广泛,从日常助手到专业领域均有涉及。未来趋势包括…