[译] AI 应该只以我们能够跟上的速度运行

news/2025/12/11 4:02:54/文章来源:https://www.cnblogs.com/talentzemin/p/19324637

https://higashi.blog/2025/12/07/ai-verification/

Daniel 和 Eric 的故事

最近我和两位朋友聊天,他们都很享受使用 AI 的乐趣。

上个月,我见到了 Eric,他是一家中型初创公司的无畏 PM,最近开始用 Gemini 进行氛围编程。

在熟悉了 Gemini 之后,Eric 真的被 AI 如何快速将提示词转化为可玩的网页应用程序所震撼。它作为第一个原型来向设计师和工程师传达想法非常有用。但 Eric 真的很想跳过这些步骤,直接将其发布到生产环境。但他无法真正理解 Gemini 实际上只是构建了一个仅仅看起来像是能用的应用程序的单页 HTML 文件。遗憾的是,人们无法用这个来构建可靠的企业级产品。而且 Eric 真的没有有效的方法来赶上这些技术细节并自己超越工程团队。

上周,我和 Daniel 喝了咖啡,他是一位高级工程师,最近喜欢上了 AI 编程,并发现它是真正的力量倍增器。

Daniel 起初对 AI 持怀疑态度,但最近他已经好几个月没有写过一行代码了。他所做的只是精确地提示 AI 在现有框架中创建新组件(涉及 Kafka、postgres、AuthN/Z 和 k8s 基础设施等),并遵循某些预先存在的范式。他只是抽查 AI 工作的正确性,并快速启动本地部署来验证它确实在工作。然后,他通过代码审查流程推送这些更改并落地这些功能。全程不写一行代码,而且它已经可以投入生产,就像他自己写的一样。对 Daniel 来说,快速且可扩展地构建和发布东西比以往任何时候都简单。

两个故事之间

在与 Eric 和 Daniel 交谈之后,我突然感觉围绕 AI 的使用有一个总体主题,我们可能可以从这里的故事中插值出来。在思考了一个周末之后,我想我现在可以尝试描述它了:这是可靠工程的问题——我们如何让 AI 可靠地工作。

有了 AI 超能力,人们可以让它只用几行提示词就在互联网上做各种疯狂的事情。AI 总是比我们思考和学习得更快,这现在是不可否认的。然而,要让 AI 的工作真正有用(不仅仅是能工作,而是可靠和值得信赖),我们还需要尽可能快地赶上 AI 所做的事情。

这几乎就像——我们需要让 AI 尽可能快地去学习和思考,但我们也需要尽快赶上以使这一切都变得相关。而我们赶上事物的速度对于 AI 能否有效地帮助我们完成这些任务至关重要。对于 Daniel 的情况,他可以抽查并基本上只是浏览 AI 的工作,并通过几个简单的测试步骤来验证它确实在做正确的事情,因此他的结果更加可靠。而对于 Eric 来说,他基本上需要从头开始学习软件开发才能理解 AI 做了什么,这真的没有给他优势让他能够自己超越工程团队可靠地发布功能。

AI 爆发的地方:快速验证、缓慢学习和创造

再次概括这个问题,我认为对于我们做的所有任务,我们可以将它们分解为两个部分:学习/创造和验证。基本上就是完成任务和检查任务是否正确完成。有趣的是,这为我们与 AI 在执行此类任务上的关系提供了一个很好的视角。

就努力程度而言,如果验证 « 学习/创造,人们可以非常有效地检查 AI 的工作并对其可靠性充满信心。

如果验证 ~= 学习/创造,人们花费同样的时间检查 AI 的工作。这不是一个大胜利,也许 AI 成为一个很好的自动化脚本来减少一些样板代码。

如果验证 » 学习/创造,人们无法如此轻易地确定 AI 的工作,我们就进入了氛围之地。

第一类的一个很好的例子是图像(和视频)生成。绘制/渲染一个看起来逼真的图像是一项疯狂困难的任务。你试过让幻灯片看起来更好看吗?我真的需要花好几个小时来居中文本框,使其看起来"好"。然而,你真的只需要看一眼 Nano Banana 的输出,你就可以根据你的感觉判断这是一个好的渲染还是不好的渲染。验证实际上是即时的毫不费力的,因为它都编码为你大脑中的感觉或氛围。"这看起来对吗?"你的视觉皮层可能在毫秒的时间内就能回答。也不需要特殊知识——人类从出生以来就一直在评估视觉图像,这根植于我们的本能。

显著的成本不对称可以很好地解释为什么 AI 图像生成会爆发。如果我们能寻找类似的场景,我们可能也能识别出 AI 的其他"杀手级"用例。

验证债务:比技术债务更可怕

然而,如果我们走到光谱的底部,验证变得更加密集——需要领域知识、技术专长、行业诀窍来判断 AI 是否在产出垃圾,我们将进入这个堆积验证债务的黑暗时代。正在创造更多的东西,但我们在检查其中任何一个是否真正符合我们的满意度方面落后了。

如果一个组织不断进行氛围编程而没有赶上验证,这些任务很快就会成为需要被验证的"债务"。当验证成为瓶颈时,如果我们仍然想要快速行动,危险的事情可能会发生——我们将冒险运行未经验证的代码,并产生尚未验证的意外副作用。这也可以应用于其他领域——想象一下要求 AI 制作新疫苗,而你不想等待 FDA 就使用它。

我已经看到一些博客文章谈论验证债务。我认为这对于这个时代的技术领导者来说,这确实是一个值得牢记的好问题。

验证工程是下一个上下文工程

AI 只能以我们检查其工作的速度可靠地运行。这几乎就像一个复杂性理论的主张。但我相信这需要是这样的情况,以确保我们可以收获 AI 的指数级翘曲速度,同时也保持稳健和能干,因为这些技术最终服务于人类,而我们人类需要技术是可靠的和负责任的,因为我们人类已经够不稳定了 😉

这带出了验证工程的话题。我相信这可以成为上下文工程(这是提示工程之后的大事)之后的一件大事。通过巧妙地重新安排任务并使用好的抽象和框架,我们可以使验证 AI 执行的任务变得更容易,并使用 AI 向世界交付更多可靠的产品。不再有垃圾。

我可以想到一些启动验证工程的想法:

  • 如何制作技术上更精确的提示词来引导 AI 外科手术般地做事,而不是氛围式地做。
  • 如何培训更有能力的技术利益相关者,他们可以有效地验证和批准 AI 所做的事情。
  • 如何找到更多相对容易验证但相当难以创造的任务。
  • 如何推动我们对可以简洁验证的事物的理论边界(复杂性理论再次出击)。

接下来去哪里

我相信,无论谁找到了使用人脑有效验证更复杂任务的方法,都可以从 AI 热潮中获得最大的收益。也许我们需要放弃传统的编程语言,开始用抽象的图形化数据流表示进行编程,在那里人们可以很容易地判断一件事是做对了还是做错了,尽管其语言或实现细节如何。

也许我们的未来就像《人生切割术》(Severance)中描绘的那样——我们看着电脑屏幕上扭曲的数字,无论什么"感觉对"的就是正确的事情。我们可以利用大自然赋予我们的这些毫不费力的低延迟"感觉"来让 AI 做更强大的工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/994176.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

告别繁琐!MapStruct-Plus 让对象映射效率飙升,这波操作太香了!

你是否还在为对象映射转换写一堆重复的 getter/setter?是否因 Apache BeanUtils 的性能问题头疼?又或是觉得 MapStruct 的手动定义 Mapper 接口不够“智能”? 今天要给大家安利一款“效率神器”——MapStruct-Plus。…

2025年316不锈钢水管品牌排名:AQUApipe不锈钢水

本榜单基于市场占有率、产品性能、用户口碑及行业认证多维度筛选,聚焦316不锈钢水管领域的标杆企业,为工程采购、家装选材提供客观参考,助力精准匹配高可靠性流体输送解决方案。 TOP1 推荐:浙江康帕斯流体技术股份…

禅道的产品研发

如图步骤进行产品销售根据其步骤得到以下界面

2025年深圳有实力的微信朋友圈广告品牌企业排行榜,看哪家服

为帮企业高效锁定适配自身需求的微信朋友圈广告合作伙伴,避免选型走弯路,我们从技术落地能力(如定向精准度、创意优化效率)、全链路服务质量(覆盖开户投放、数据复盘)、真实客户口碑(侧重转化效果反馈)及资源整…

2025年北京企业BIP系统选型避坑排行榜,好业财/好会计/制造云/供应链云/人力云/协同云/好生意/税务云/财务云BIP管理系统找哪家

随着数智化浪潮的深入,商业创新平台(BIP)已成为企业转型升级的核心引擎。对于北京这座汇聚了众多大型集团、科创企业及成长型公司的商业中心而言,选择一款契合自身发展需求的BIP系统至关重要。面对市场上琳琅满目的…

2025年AI软件搜索广告结果优质服务商排名,资深投放与精准

在AI技术深度渗透营销领域的2025年,AI软件搜索广告结果的质量直接决定企业流量转化效率。面对市场上鱼龙混杂的服务商,如何选择能提供优质广告结果、资深投放能力的合作伙伴?以下依据技术实力、投放效果、客户口碑,…

对象存储s5cmd常用命令

对象存储s5cmd常用命令# 安装s5cmd apt install -y gdebi-core apt install -y wget wget https://github.com/peak/s5cmd/releases/download/v2.2.1/s5cmd_2.2.1_linux_amd64.deb echo y | gdebi s5cmd_2.2.1_linux_a…

【节点】UnityShaderGraph节点分类介绍

节点分类体系概述 ShaderGraph作为Unity的可视化着色器开发工具,其节点系统按照功能划分为九大核心类别。每类节点承担特定的计算任务,共同构建完整的着色器逻辑链路。以下是基于URP渲染管线的【Unity Shader Graph …

python异步并发任务进度条

python异步并发任务进度条import asyncio import aiohttp from tqdm import tqdm from typing import List, Coroutine, Anyclass AsyncProgressBar:"""异步任务进度条管理器"""def __i…

集成灶烟机吸力大揭秘:排风量与风压表现优异的十大品牌权威榜单

集成灶烟机吸力大揭秘:排风量与风压表现优异的十大品牌权威榜单 在现代厨房生活中,集成灶以其高效的吸油烟能力、节省空间的设计和智能化的操作体验,赢得了越来越多消费者的青睐。然而,面对市场上琳琅满目的品牌和…

2025年长三角泡沫混凝土企业TOP5推荐:高强度发泡混凝土

本榜单依托长三角建筑建材市场调研数据、工程案例落地效果及行业口碑反馈,围绕基础发泡混凝土、保温发泡混凝土、高强度发泡混凝土三大核心产品维度,筛选出5家技术领先、服务可靠的标杆企业,为基建、地产、市政工程…

基于 GEE 利用 WorldPop 素材集批量导出 100 米分辨率人口影像数据与时序分析

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年视力保健公司权威推荐榜单:视力保护‌/视力健康管理‌/视力健康科技‌‌源头公司精选

随着数字生活与人口结构的变化,视觉健康已成为全民关注的核心健康议题,视力保健行业正经历从单一产品矫正向多技术融合、系统性健康管理的深刻变革。在这一背景下,企业的技术原创性、研发投入的持续性以及解决方案的…

Airflow - Installation

Airflow - Installation frank@ZZHPC:~$ zvact (zvenv) frank@ZZHPC:~$ python --version Python 3.12.3 (zvenv) frank@ZZHPC:~$ pip install apache-airflow (zvenv) frank@ZZHPC:~$ airflow db migrate DB: sqlite:…

2025年无压痕折弯机模具用户好评排行

在金属加工与钣金制造领域,折弯工艺的精度与效率直接关系到最终产品的质量与交付周期。近年来,随着客户对产品外观完整性要求的提升,“无压痕折弯”逐渐成为高附加值场景中的关键需求。所谓无压痕折弯机模具,是指在…

Linux Shell 命令:nohup、、、bg、fg、jobs 总结 - Binge

nohup (不挂断,但是前台执行)nohup 是 no hung up 的缩写,意思是不挂断 。 使用 Xshell 等Linux 客户端工具,远程执行 Linux 脚本时,有时候会由于网络问题,导致客户端失去连接,终端断开,脚本运行一半就意外结…

2025年度传感器生产制造商TOP5推荐,勒振传感器口碑出众

在工业4.0浪潮下,生产制造领域对设备健康监测的需求呈爆发式增长,高精度、高可靠性的振动传感器成为保障设备稳定运行的核心器件。2024年数据显示,工业传感器市场规模突破600亿元,年增速达38%,但32%的用户投诉集中…

2025年重庆五大结构加固补强公司推荐:靠谱的结构加固工程总

本榜单依托川渝地区加固工程市场调研与真实项目口碑,深度筛选十家具备专业资质与实战能力的标杆企业,为构筑物加固、维修改造项目选型提供客观依据,助力精准匹配适配的服务伙伴。 TOP1 推荐:重庆特辰建筑加固工程…

2025年北京口碑好的融资顾问排行榜,新测评精选融资顾问公司

为帮企业破解融资无门、对接低效、成本失控的难题,避免陷入虚假资源坑高收费陷阱,我们从资源匹配精准度(持牌机构合作数量、行业资源覆盖)、收费透明性(无隐性消费占比)、服务落地效率(融资方案交付周期)、客户…

【中间件:Redis】2、单线程Redis高并发原理:I/O多路复用+3大优化点(附多线程对比) - 详解

【中间件:Redis】2、单线程Redis高并发原理:I/O多路复用+3大优化点(附多线程对比) - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !impo…