在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。
“ChatGPT 并不是 OpenAI 精心策划出来的。”
“Agent 和 RL 后训练本质上是一回事。”
在发布前,OpenAI 内部甚至做好了“几天后就关掉”的心理准备;最初的目标,只是收集一点真实用户数据。那时没有人预料到,它会在几天内引爆整个世界,更没人能提前画出那条指数级增长的曲线。
而这场“意外爆炸”的背后,其实只是来自一个12人的 “RL Team” 和一整套外界至今都没有完全看清楚的工作方式。
Ps:当然这个团队的前 Leader,John Schulman 可是现代强化学习的奠基人。
强化学习如何真正跑在大模型上?post-training 是怎么从一个不存在的概念,变成支撑 GPT-4、GPT-5 的核心管线?OpenAI 内部到底靠什么,把模型一轮一轮推到新的上限?
近日,OpenAI一位华人研发工程师,翁家翌在一期播客采访中曝出了不少猛料。可以说是把如今的顶流OpenAI过去三年的重大转折、技术取舍、Infra、甚至包括那次各个谣传版本的“宫斗风波”。
可以说,是以一名深度参与的“老员工”视角,道出了个中款曲。
话说回来,如果有一直关注OpenAI的Blog,你就会发现,翁家翌这个名字的含金量。
虽然他很少出现在 OpenAI 新品发布的直播中,但他却是极少数完整参与了从 ChatGPT 3.5 、GPT-4、GPT-4V、GPT-4o、GPT4.5、 GPT-5 的完整后训练链路的工程师之一。
他和团队成员亲手搭建了 OpenAI 内部的 RL 与推理基础设施——也正是这套 infra,决定了模型能不能“继续变好”。
ps:翁家翌 在 2022 年 7 月入职 OpenAI 之前,就已经是一名小有名气的开源开发者了,比如 Tianshou、EnvPool 等开源项目,都得到了业内人士的关注。
如今,翁家翌已经是在 AI 研发圈颇受关注的中国工程师和技术贡献者。目前在OpenAI 担任研发工程师,参与过 ChatGPT、GPT-4、GPT-5 等重要模型训练和基础设施建设的工作。他在强化学习和 AI 训练系统方面有重要贡献,
他的成长轨迹也具有代表性:本科毕业于清华大学计算机系,随后在卡内基梅隆大学深造,之后加入 OpenAI,在大型语言模型的后训练架构和强化学习基础设施上发挥了关键作用。
作为从中国顶尖计算机系走向世界 AI 创新前沿的年轻工程师,翁家翌花了近1个小时的时间,深度探讨了自己在OpenAI工作3年多以来的所见所感,同时也讲清楚了几个外界长期误解的问题:
- 近两年,AI圈的研究范式的天平,为什么正在向“工程能力”倾斜,而不是原来的PhD 训练?
- 为什么在 OpenAI,idea 很便宜,infra 才是最稀缺的生产力?(研究员应该会被AI先取代,其次是 Infra,最后是 Sales。)
- 为什么很多研究瓶颈,本质上只是 bug 还没修干净?
- 以及,为什么 ChatGPT 的成功,更像是一场被快速迭代“逼”出来的结果,而不是一次完美设计。
在翁看来,基础模型公司的生死线指标:就是单位时间内迭代速度和成功率。
OpenAI几乎不Care外部压力,唯一的那次,就是DeepSeek时刻,真正引起了内部的警觉(因为他们的迭代速度)。他进一步透露说:OpenAI 已经很长时间都没有为了刷 LMSys 之类的榜单去特意做什么。
除了 OpenAI 内部的方法论,翁家翌也被主持人(何泰然)问及了2024年年初的那场“Sam”被开除的风波,并回应:核心原因就是不信任,“Ilya 看到了什么”完全是空穴来风的谣传。
而对于 Sam 的回归以及 Ilya 的离开,翁也解释了自己的看法:可以将 Sam 抽象成一种 Identity,而这种 Identify 在 OpenAI 是无可替代的。
翁家翌还表示,目前团队正在重构一套Infra,为下一代OpenAI系统做准备。
接下来五年,scaling 的最大瓶颈其实并不在算力,而是现有方法还没有真正 scale 到极限。
总之,“Infra 是一个无底洞!”
不过,翁也坦承,自己所做的,也并非不能替代。
而 OpenAI 所做的,外界并非完全不能复刻。
播客本身的内容长达2个多小时,但小编只节选了跟OpenAI相关的部分,并为大家精选梳理了下面的精彩对话。
希望尽可能帮大家还原一份“翁氏 OpenAI 内部执行笔记”。
Offer取舍:没有去谷歌,幻方 VS OpenAI
何泰然:你当时是不是一入学就已经开始考虑找工作的事了?整个过程大概是怎样的?
翁家翌:算是的。一开始我投了大概 18 家公司,最后只收到了两个 offer:一个是 Google,另一个是 OctoML,也就是陈天奇老师的公司。当时我心里其实很明确,如果只有这两个选择,我会去 OctoML,而不是 Google。
何泰然:你刚才说“Google 没什么意思”,这个“没意思”你当时是怎么判断的?
翁家翌:主要是我不太想在大厂里当一个螺丝钉,做一些自己兴趣不大的事情,比如前后端这类工作。后来我自己也想得更清楚了一些,又继续去面试,之后拿到了幻方浩方的一个 offer——他们当时说要做 AI Lab,后来就是 DeepSeek。我当时其实是拿了这个 offer 的,但最后也没有去。
何泰然:所以你最后去了 OpenAI。现在回头看,如果“开天眼”的话,当时你的选择其实是 DeepSeek 和 OpenAI 之间的取舍,对吧?而且幻方那个方向也不是量化,而是 AI。
翁家翌:对,幻方当时做的是 AI Infra。如果我当时没有其他更好的 offer,我大概率会选幻方。
何泰然:你说的“其他 offer”,是指除了 OctoML 以外的吗?
翁家翌:对。后来其实还有 OpenAI,以及 NVIDIA。NVIDIA 当时也是做 AI Systems。FAIR 其实也面过,但最后因为一些流程原因把我拒了。
何泰然:所以你当时真正摆在桌面上的选择,大概是:幻方、OpenAI、NVIDIA,甚至还有 TikTok 之类的可能性。最终你选了 OpenAI。这个决定当时是怎么想清楚的?
翁家翌:当时我觉得,OpenAI 一直在做强化学习,在那个时间点,它和 DeepMind 是我心里 AI 领域最强的两个 research lab。我原本甚至没太敢想自己能进去这件事,本身能拿到 offer 就已经觉得很幸运了。我更看重的是一个机会:去真正体验世界最前沿的 research 是怎么被系统性地做出来的,而不是像在学校里,几个 PhD 手搓一个项目,缺少方法论,整体感觉很别扭。我想看的是,一个成熟的工业级研究机构,到底是如何组织研究、推进项目的。
入职 OpenAI:动机、方法论与“研究该如何被做出来”
何泰然:你当时去 OpenAI,是直接进了 John Schulman 的组,对吧?是他亲自招的你?
备注:John Schulman 是OpenAI早期的核心人物,是OpenAI的联合创始人,可以说是现代强化学习奠基人之一。
翁家翌:对,是 John Schulman 面的我,也是他把我招进去的。我一直非常感激他给我这个机会。甚至到他后来离职那天,我真的难过了一个下午,把电脑关了,什么事都没做。
何泰然:听起来他当时对你是挺认可的。你有问过他,为什么会选你吗?
翁家翌:问过。他跟我说过几个点。一个是他觉得我 GitHub 非常“干净”,工程质量很好。另外一点,其实也跟他的评价体系有关。他本身就很认同一个判断:如果一个人有扎实、系统性的工程能力,把这样的人招进来,对任何研究项目都是正向加成的。只是以前很多人没有把这一点当成核心指标。
何泰然:那你们面试过程中,有没有什么比较有意思的细节?你觉得自己是怎么打动他的?
翁家翌:最后一轮面试是他亲自出的题,是一个非常 end-to-end、开放性的任务。他给了我三个小时,要求从零开始写一个完整的东西。我大概两个小时就做完了,然后当场给他演示。演示的时候刚好暴露了一个 bug,我就现场把它修掉了,整个流程也都走通了。可能在他看来,我既能把工程完整跑起来,遇到问题也能快速定位和修复,同时在技术理解上也还过得去。
翁家翌:后来我才知道,这道题他一共只给过两个人做过,一个是我,另一个是现在在做 Codex 的那位 entry-level 同事。我们两个都通过了。
何泰然:那通过率是 100%。
翁家翌:是的。
在 AI 时代,工程能力要优先于 PhD
何泰然:在继续聊 OpenAI 之前,我其实挺好奇一件事:你当时找工作的时候,有没有认真考虑过读 PhD?
翁家翌:没有。
何泰然:为什么这么确定?
翁家翌:因为我接触过不少工业界的人,发现如果你的目标是进工业界,那读 PhD 很多时候是在浪费生命。你完全可以把 master 作为跳板,通过项目、实习和实际产出,去满足工业界对 PhD 的“隐性标准”。比如你在本科或 master 阶段,攒够足够有区分度的 research 或 engineering 经验,做出一些真正能拉开差距的项目,那你是可以和同一批 PhD 在同一个赛道上竞争的。关键在于差异化,而不是学历本身。
何泰然:所以你其实很早就想清楚了,自己一定要走工业界这条路。
翁家翌:对。我不太想走学术那条路。教书、做教授都太卷了,也不是我真正想要的生活。而且你要为了一个项目不停拉 funding,各种限制很多。我会觉得不如直接去工业界,把精力用在真正能推进事情的地方。
何泰然:如果从招聘的角度来看,比如我们公司同时面对一个 master 和一个 PhD,你会不会觉得这两种背景培养出来的能力本身就不一样?PhD 更多训练的是学术能力:怎么写 paper、怎么把故事讲圆、怎么把图画得好、怎么对外发表。你觉得这些能力对公司重要吗?
翁家翌:我觉得在某种程度上是有价值的,它确实是一种训练。但如果和极致的工程能力放在一起比较,放在当下这个 AI 的时代,工程能力的权重明显更高。
何泰然:为什么你现在会这么确定?毕竟你自己也发过 paper,也做过很受欢迎的开源 infra 项目,两边其实都体验过。
翁家翌:我引用一句我同事说过的话。他本身也是 AI 方向的 PhD,还做过一个很出名的 AI framework。他说过一句很直接的话:教一个 researcher 把 engineering 做好,要比教一个 engineer 做好 research 难得多。
Idea is Cheap,前沿探索,本质上拼的是谁家Infra的修Bug速度
翁家翌:原因在于,现在很多 research lab 的前沿探索,本质上拼的是 infra 的正确性。只要 infra 是对的,接下来比拼的就是单位时间内你能跑多少轮实验、迭代多少次。而Idea 的话,本身其实很便宜。你找几个人讨论一下,很快就能冒出来一堆想法,然后你就去验证。你只要能验证好,然后你就相当于这是你的 research work。
你其实不用动那么多脑子,因为那些真正“动脑子”的人,往往是已经在一个领域里深耕很多年的研究者,比如 Alec Radford 这种,从 GPT-1 的时代就开始在做这件事。他们的 research 直觉是长期积累出来的,比普通 PhD 要有用得多。而大多数情况下,你只需要和这些人讨论就够了。Idea 的成本非常低,关键是执行和验证。
剩下比拼的就是,你在单位时间内能够验证多少有效的idea。
备注:Alec Radford,OpenAI早期核心研究科学家,关键人物之一,GPT-1、GPT-2、GPT-3的作者,对外很低调,是与John Schulman 互补的人物。
何泰然:所以本质上是:infra 是否正确,迭代是否足够快。现在很多 PhD 并不是围绕这个目标被训练出来的。
翁家翌:对,他们的培养重点不在这里。我认为现在的学术培养体系,本质上是在训练一种相对“友好”的学术研究路径。但这种能力,在公司里同样会自然生长。只要你在一个领域工作足够久,就会形成研究直觉,知道什么是值得做的,什么是没必要投入的。
何泰然:所以说,idea is cheap。真正值钱的是很强的 engineering 能力,能把 infra 快速迭代起来。有了这个之后,验证 idea 的成本会变得很低,甚至 agent 都能看懂。
翁家翌:在我的认知里,每一家公司的 infra 都存在不同程度的 bug,而谁修得多、修得快,谁的模型就训得更好。
何泰然:那是不是可以说,LLaMA 追不上 GPT,是因为 bug 太多?
翁家翌:也许吧,我不确定,但这是一个合理的猜测。
更喜欢“卖铲子”这一层
何泰然:所以你很早就意识到,整个 pipeline 能不能跑起来,关键不在算法创新,而在于正确的超参、可靠的 infra,以及能支持快速迭代的系统。
翁家翌:对,而且我个人对 research 里反复调参这件事并没有兴趣,对我没有吸引力。我更喜欢做“卖铲子”的那一层。
何泰然:你更想搭一个 playground,把基础设施打好,让别人进来玩、发论文。
翁家翌:对,别人发论文时,顺便把我带上就行。你会发现很多 model release 里都有我的名字,就是因为我在 OpenAI 内部搭了整套 post-training 的 AI infra。
何泰然:所以整个 post-training 的 AI inference,你是核心贡献者之一?
翁家翌:是的。大家之前训练 RLHF 模型,基本都基于这套 post-training inference 系统。所以每一次大的 release、大的模型发布,我的名字都会出现。
何泰然:那可以说,每一个 OpenAI 背后的模型里,都有你的一部分,因为你一直在卖铲子。
翁家翌:而且我算是卖铲子里最面向“客户”的那一层,因为 inference 处在整个系统的最顶端,生态位很高。如果太底层,比如写 data loader 或 storage,名字就没那么容易被看到。
何泰然:对,那些东西虽然重要,但不是每个人都直接依赖;而 AI inference 是所有人都想要的。
翁家翌:我之前也认真想过自己的职业路径,当时给自己定了一个指标:最大化我在 OpenAI blog 上出现名字的次数。
何泰然:你真的很会给自己设计 reward。
翁家翌:那反推回来,你要做什么?肯定是做 infra。单点 research 很难 scale,而 infra 是所有人都会用的,自然就能 scale。我又正好擅长做 RL infra,这在当时是一个非常合适的机会。
何泰然:这条主线,其实从你进清华开始就已经定下来了。那站在今天这个时间点,你会怎么建议那些还在本科、硕士阶段,犹豫工业界和学术界选择的人?尤其是在 2025 年这样的环境下。
翁家翌:从长远来看,我觉得现代学术体系本身是需要被重构的。
何泰然:但很多有抱负的年轻人,希望像你一样做出真正的 impact。他们会纠结:是读 PhD,还是尽早进入工业界?
翁家翌:我个人更倾向于尽早进入工业界。因为读 PhD 的不确定性很大,你不知道毕业时范式是否已经变化,很可能你多年投入的方向,突然就失去了意义。
如果目标是 AI Lab,该如何倒推路径
翁家翌:如果你的目标是进入 AI lab,首先要想清楚一个问题:AI lab 到底需要什么样的人?如果他们更需要 infra 能力,那你就多做 infra,即使没有 PhD,也不构成实质性障碍,关键在于经验是否真正有用、是否匹配。
何泰然:那在你看来,现在 AI lab 最缺的是什么样的人?
翁家翌:Infra 仍然是一个无底洞。Research 需要的是少数真正有研究直觉的人,而从 ChatGPT 之后,在这个行业连续干了三年以上的人本来就不多。当前更现实的问题在于:你能不能 scale up?单位时间内能迭代多少次?这直接决定了整体生产效率。
何泰然:听起来,对 PhD 并不是一个特别友好的环境。这其实也对应一个我们都很有体会的 gap:学术界的 RL 研究长期在 Atari、MuJoCo 这些 benchmark 上反复 overfit,比的是谁在 100K step 时分数更高;而工业界完全不关心这些,关注的是用 RL 解决真实问题。
翁家翌:我在 2022 年 8 月意识到这一点后,就逐步停止了天授的开发。因为天授主要还是面向这些 toy benchmark。我觉得应该把时间投入到更有意义的事情里,比如在 OpenAI 内部把 RL infra 做好,所以后来的工作重点基本都在维护和开发这套 infra 上。
何泰然:说实话,你在 2022 年形成这个判断是非常超前的,当时远远不是共识。那你为什么没有写篇 blog,把这个信息差直接捅破?
翁家翌:我担心说得太明白,会被认为涉及内部信息,哪怕严格来说也不算泄密,但总有风险。
OpenAI 的所有模型的起源地:RL团队,2022年就已经有了GPT-4
何泰然:那我们就顺势聊聊 OpenAI。你是极少数完整参与了 ChatGPT 3.5、GPT-4、GPT-4V、GPT-4o、GPT-4.5 到 GPT-5 的核心贡献者之一。有人只参与前半段,有人只参与后半段,但你从头到尾都在。如果用三个词概括你的贡献,我会说:强化学习、post-training 和 infra。我们稍后细聊这些技术和故事,但我想先问一个看似简单、其实很难的问题:什么是强化学习?
翁家翌:只要存在反馈机制,你能把问题建模成一个环境,并且从环境中获得反馈,这个“行动—反馈—更新”的闭环,本质上就是强化学习。
何泰然:通过反馈不断修正,让系统越学越好。那第二个关键词是 post-training,大语言模型的 post-training 到底是什么?
翁家翌:其实我刚入职的时候,还没有 post-training 这个说法。当时我的 team 就叫 RL,内部也没有明确区分 pre-train 和 post-train。
何泰然:也就是说你刚进 OpenAI 的时候,这个概念还不存在。但那时 ChatGPT 已经是主线了吗?
翁家翌:不是。当时只有 John Schulman 下面的 RL team,在做 WebGPT 的后续版本。WebGPT 基于 3.5,主要做 browsing,但直接用 3.5 效果很差,因为 browsing 强依赖 tool call。所以我们当时退了一步,先把用户交互体验做好,核心问题变成了 chat,而 chat 可以通过 instruction following + RLHF 来解决。
何泰然:所以你进去的时候,GPT-3.5 在内部已经是可用状态了。
翁家翌:对,但当时 PPO(小编注:近端策略优化)的 pipeline 非常不好用。那段时间我们主要用的是 GPT-3.5 的 SFT,不断迭代。后来才有 GPT-4,再后来 Greg (小编注:OpenAI前董事长)写了一整套新的 infra,用来支持 GPT-4 的训练,也顺带支撑强化学习。
OpenAI自己也没想到,ChatGPT会成为Game-changer
何泰然:你是 2022 年 7 月入职的,那时候距离 ChatGPT 发布只有几个月。OpenAI 内部当时能预想到它会有这么大的影响吗?你自己在内测时,有意识到这是 game-changing 的东西吗?
翁家翌:没有。我能看到的反而是很多不足。第一次用的时候,只觉得是个会说话的模型;多用几次,发现能帮我写点代码,但解决的问题也有限。因为我提前参与了整个过程,是逐步看着它变好的,所以没有“突然被震撼”的感觉。但发布之后给身边的人看,他们的反应非常强烈,这一点是我没预料到的。
何泰然:那 2022 年 7 月,OpenAI 是已经整体 all in ChatGPT 了吗?
翁家翌:没有,只有我们这一组在做。你可以去看 ChatGPT 的 blog,contributors 列表里,从 John Schulman、Barrett 到 Zhao Shengjia,一共十来个人,基本就是我们整个组。
何泰然:那你什么时候意识到:我在 OpenAI 做的事情,真的引爆了一个时代级产品?
翁家翌:应该是 ChatGPT 发布之后。我当时在开 NeurIPS,大概 11 月 30 号发布,过了几天发现身边所有人都在讨论它,而且服务器被打爆了好几次。那种感觉和我当年做「退学」应用很像,用户会自发传播,形成“自来水”效应。一旦出现这种现象,就说明这是值得持续投入精力的事情。
ChatGPT不是精心计划出来的
何泰然:听起来,无论是你个人加入 OpenAI,还是 OpenAI 最终做出 ChatGPT,都不像是某个精心规划的结果,更像是一系列半偶然、半必然的化学反应。
翁家翌:确实如此。最初发布 ChatGPT,其实只是想收集真实用户数据,甚至做好了几天后就关掉的心理准备。我们预期的曲线是先有一两万用户,然后迅速回落。
翁家翌:但真实的曲线是指数级增长。
何泰然:这就是 ChatGPT 突然爆发的传播曲线。那我也很好奇,你刚进 OpenAI 时,对这家公司的第一印象是什么?
翁家翌:我觉得它更像一个大型实验室。没有我想象中那么强的流程方法论,但聚集了很多 research 直觉极强的人,他们能迅速判断方向,然后就去执行。后来 Barrett、Luke 和 Liam 加入 John Schulman 的 RL team 后,整个组发生了变化,开始引入谷歌那套高效率的工程体系,迭代速度明显提升。
何泰然:所以单位时间内迭代次数越多,成功概率就会线性往上走。
翁家翌:对,这其实也可以看作一条强化学习的曲线。本质就是不断的 trial and error,你尝试的次数足够多,就会逐渐逼近目标。很多现实世界里的问题,其实都符合 RL 的结构。
何泰然:所以你们当时引入的那套“先进生产力”,更像是一种方法论:先不去追求天才级的 idea 或算法,而是把 infra 打好,让迭代速度从一周 30 次提升到一周 300 次。
硬核创新如何做到的?OpenAI的高人才密度
何泰然:我看到过一个采访,有人问 Sam Altman,OpenAI 为什么能持续做出突破性的技术创新。他的回答是:在一个人才密度极高的小团队里,任何平庸的表现都是无法被容忍的。你认同这种说法吗?
翁家翌:我认同。人才密度一旦足够高,就会自发涌现出很多意想不到的结果。反过来,如果整体环境偏平庸,大家往往只完成自己的那一小块任务,很容易拖延,也很难形成合力。
何泰然:你加入 OpenAI 的时候,公司规模大概也就几百人吧?
翁家翌:我入职时是 280 人左右。
何泰然:现在已经三千多人了,三年时间接近 10 倍增长。你觉得 OpenAI 还能保持当年那种“小而美”、能持续做硬核创新的状态吗?
翁家翌:概率肯定是在下降,但没有下降到不可接受的程度。因为即使公司整体变大,仍然可以人为地切出小团队,专门做高强度的研究和探索。
何泰然:那在你看来,OpenAI 的管理层有没有做过一些有意识的努力,来维持这种高人才密度、小团队驱动创新的状态?
翁家翌:比如简化组织架构,取消不必要的会议。我觉得相比流程本身,组织结构对创新效率的影响更大。
何泰然:那什么样的组织结构,更有利于硬核创新?
翁家翌:核心是信息流通顺畅。一个决策能无损地传递到执行层,执行层的最新进展也能无损地反馈回决策层。否则,上面的人和下面干活的人,可能朝着完全不同的方向用力。
OpenAI是如何做到上下层保持透明一致的?
何泰然:OpenAI 是怎么做到这一点的?
翁家翌:像 Sam 和 Greg 这种角色,本身就对技术非常熟悉。Sam 之前有专门的研究助理,持续帮他同步公司内部的最新研究进展;Greg 更不用说,几乎整个 infra 他都参与过。他们能保持对技术状态的敏感度,知道事情推进到哪一步、有什么新变化、会带来什么影响。
何泰然:所以这要求一把手、二把手,愿意深入到技术细节里,理解公司的每一个“毛细血管”。
翁家翌:我觉得管公司和管代码库其实很像。如果系统不一致,就会出现“身体在动、脚没动”的情况,看起来非常别扭。
RLHF是先在GPT-4上跑通的,然后才在ChatGPT上升级的
何泰然:那我们回到 post-training。
翁家翌:可以从 3.5 开始说,但实际上 3.5 的 PPO 并没有完全调通。我是先把 GPT-4 的 PPO 跑通的。因为 3.5 还在用旧的 infra,而新的 infra 刚好在 2022 年 8 月搭好,我就在这套新 infra 上,先完成了 GPT-4 的第一版 PPO,大概是 9 月。
何泰然:这点很有意思。也就是说,GPT-3.5 发布的时候,内部其实已经有 GPT-4 了,而且 RLHF 是先在 GPT-4 上调 work,再回到 3.5 上升级的。
翁家翌:对。但也要说清楚,过程中有不少坑是其他组已经踩过的,我们能复用一些已有 pipeline。但关键环节还是自己来,比如 reward model 怎么训、数据怎么收集、infra 哪里出了问题,基本都是我们自己解决。
何泰然:当时要把 RLHF 真正跑起来,最大的挑战是什么?
翁家翌:核心问题是:你怎么判断模型是不是“变好了”。因为在当时,没有人知道性能应该长什么样。
何泰然:也就是说,你训练了很多 checkpoint,却不知道哪一个真的更好。
翁家翌:对。比如单一 reward 很容易出现 reward hacking:reward 看起来在涨,最后却进入饱和,变成一条平线。但如果是人类真实偏好,reward 往往会先上升,再逐渐回落。这就导致你很难判断,哪个 checkpoint 才是真正更优的。
备注:reward hacking 是指在强化学习中,模型违背设计初衷或现实目标出现的一种“取巧”式地学会最大化奖励函数的现象。
翁家翌:所以选 checkpoint 本身就是一个基础但很难的问题。我们并没有在这上面投入太多“精挑细选”的时间,而是直接构建了一套基于 sampling 的 eval,看每个 benchmark 上的表现。
翁家翌:但说到底,这些 benchmark 也只是数字参考。模型的方差非常大,每次跑出来的结果噪音都很多,很难简单地用“好”或“坏”去下结论。
翁家翌:最后的解决方式其实很原始。就是把模型拉出来,真正跟它交互几次,看一看自己的使用体验,再多找几个人一起看,最后大家投票。
何泰然:所以本质上是用 HF,也就是人类反馈来做 eval。
翁家翌:对,只能这样。当时的技术条件下,没有更好的办法。
何泰然:这相当于你第一次在工业级规模上搭建 RL infra。那这种为大模型服务的 RL infra,和你之前做的像天授那样的 single task、toy task 的 RL infra,差别主要在哪?
翁家翌:差别非常大。Toy task (玩具任务)的瓶颈通常在环境本身,模型很小,无论训练还是 action 采样,成本都很低。但在大模型场景里,环境反而极其简单,基本就是一个 prompt,真正昂贵的是模型本身。你要考虑如何高效采样、如何高效训练,因为生成一个 prompt 可能只需要几微秒,但跑一次 inference 可能是几百秒甚至上千秒,尤其是在资源受限的情况下。
RL Infra 接下来核心问题:如何Scale up
何泰然:那未来这些模型,相比 GPT-3.5、GPT-4,在 RL infra 上会面临哪些新的挑战?
翁家翌:核心还是性能问题,以及怎么继续 scale up。
何泰然:比如如何用更多 GPU,如何提高整体吞吐。
翁家翌:对。
何泰然:那这就不仅仅是 RL 的问题了,还涉及模型 inference。
翁家翌:是的,会更偏向 end-to-end,需要深入到实现细节里,做整体层面的优化。
做 RL infra :早上醒来就debug,累但锻炼人
何泰然:其实你做的是一个非常交叉的位置:既要懂 RL,又要懂 ML Sys,还得理解大语言模型的 inference 机制。这种能力,说实话,在学校阶段是很难系统学到的。
翁家翌:是的。那个位置非常锻炼人,但也非常累。我有一段时间确实是超负荷工作,加班太狠,头疼得受不了,甚至进了 ER(小编注:急诊室)。医生检查之后说没什么大问题。
何泰然:你当时的工作强度大概是什么水平?
翁家翌:基本上是从早上醒来开始 debug、处理问题,一直到晚上睡觉。
何泰然:一周几天?
翁家翌:平均六天吧。但经历了一段时间之后,我意识到这是不可持续的。身体必须放在第一位。所以我现在给自己养成了一个习惯,每周跑两次三千米。挺讽刺的是,我在清华读书的时候,三千米体测是不过关的,现在反而是自己主动去跑。
大模型的RL:持续做认为合理的事情,就可以了
何泰然:说实话,我很羡慕你过去两年在 OpenAI 做的事情。你接触到的,是全球 99.99% 的 researcher 和 infra engineer 都没有机会碰到的东西。你在最先进的模型上做优化,每天都在未知领域探索,而且你很清楚,你找到的答案,很可能是人类历史上的第一次。
翁家翌:但我自己并不这么看。我觉得我做的很多事情其实都很 trivial(琐碎),更像是日常维护,并不需要多高深的智力投入。
何泰然:所以并不需要投入太多智力层面的东西?
翁家翌:是的。把事情做对、做好就行,方向更重要。只要站在正确的方向上,持续做你认为合理的事情,就可以了。
挑战并不在于算力不够,而是现有方法还没Scale到极限
何泰然:那你觉得,大模型上的 RL 还需要那种范式级的突破吗?还是说范式已经确定,剩下主要是把 infra 拉上去?
翁家翌:我觉得依然有可能出现突破。不能用当下的状态去外推未来会发生什么。新的 RL 范式、甚至新的 pre-training 范式,都有可能出现。每天其实都在面对未知。不过话说回来,我觉得自己只是刚好站在这个位置。如果换成任何一个人,只要拥有同样的 context,也完全可以把这些事情做好。这并不是一个“只有我才能做”的问题。
何泰然:那从 5 到 10 年的尺度来看,你觉得最大的未知和挑战会在哪?现有模型能力的瓶颈是什么,又需要什么样的突破?
翁家翌:我觉得当前阶段,问题并不在于算力不够,而是还没有真正把现有方法 scale 到极限。应该先通过大规模 RL 实验,看性能上限到底能走到哪,再判断下一步该做什么。
何泰然:也就是说,还没有到“compute 不够用”的阶段,而是现有方法和算力的潜力还没被榨干。
翁家翌:对,而且 infra 里还有很多 bug。
何泰然:哪怕是你们现在的 infra,也确信还有 bug?
翁家翌:当然。不可能百分之百没有 bug。毕竟是人写的系统,人一定会犯错。尤其是团队规模变大之后,context 容易不一致,每个人都会写一些“很有个性”的代码。
何泰然:那未来在强化学习 + post-training 这个 pipeline 里,最大的瓶颈会出现在哪?
翁家翌:我觉得瓶颈在 infra 的吞吐能力:单位时间内你能修多少 bug,能正确迭代多少次。剩下的反而没那么重要。
何泰然:这相当于给所有其他部分做了赋能,不管是算法还是环境。
翁家翌:是的。如果 bug 都被修掉了,很多情况下算法甚至不需要改,效果就会明显变好。
正在重构OpenAI内部Infra,为下一代GPT做准备
何泰然:那要把 infra 的效率真正提上来,需要什么样的架构、什么样的人、什么样的资源?
翁家翌:这个还在探索中。我现在已经不在最核心的位置了,但我们组在做一件更长期的事:重构 OpenAI 内部的 infra,准备下一代系统。
何泰然:你们每一代 infra 是推倒重来、重新设计顶层架构,还是像写“天授”那样在原有基础上小修小补?
翁家翌:目前是推倒重来。上一代 infra 已经跑了三年多,积累了大量问题。我们希望用一套全新的系统,清理掉历史的 technical debt,让 researcher 在单位时间内获得更高的迭代速度。
如果让AI来取代,最先被取代的会是研究员
何泰然:所以 researcher 并不会直接参与 infra 的构建,他们更多是提出需求,具体的代码、分布式训练这些由你们来负责。
翁家翌:对,他们最后可能只需要改一个 flag。
何泰然:那听起来,OpenAI 的 researcher 可能会是最早被 AI 取代的一批人。
翁家翌:我也有这种感觉。Research 很大一部分是在单位时间内产出 idea,而 idea 本身已经变得非常廉价,甚至“生成 idea”这件事本身都可以被建模。如果真要说替代顺序,我觉得可能会先替代 researcher,再替代 infra engineer,最后全部替代。反而是 sales 相对难一些,因为说服对方买单,仍然是人与人之间的沟通,这是 AI 很难完全取代的部分。
Agent 和 RL 后训练本质是同一件事
何泰然:我们刚刚聊了 text-only 的 GPT-3.5,也聊了多模态。那在你看来,agent 和 RL post-train 之间,会有多大的本质区别?
翁家翌:没有本质差别,本来就是同一件事,只是中间多了几个 tool call。
何泰然:更多是环境变复杂了。
翁家翌:对,本质是环境的变化。
何泰然:所以比起“标准的 LLM + RL post-train”,agent 这套范式并不算是一个全新的挑战。
翁家翌:对,因为本质没有变。
翁家翌:AGI还早,即便是写代码,也依旧不放心,“草莓”就是一个过度反应的例子
何泰然:那你个人对 AGI 的定义是什么?你觉得我们现在达到 AGI 了吗?如果还没有,单靠 pre-train 加 RL post-train 这条路径,能不能走到你心里那个 AGI?
翁家翌:OpenAI 内部有个玩笑,说你找 15 个人,能听到 20 种 AGI 的定义。我之前的定义很简单:如果它能完成我认为有意义的 task 里,百分之八九十,那我会认为它是 AGI。从这个标准看,现在还没有。
翁家翌:至少从我个人角度,我还不放心让 AI 直接改我的 infra 代码,因为这是一个非常 out-of-distribution (分布外)的场景。AI infra 在整个训练数据里占比几乎为零,而且 inference 的验证反馈链条太长、成本也太高,目前还触及不到。
何泰然:听起来你短期内还不会被 AI 取代。
翁家翌:至少暂时不会。在 Strawberry 出来之前,我们内部已经用它一段时间了,那时候很多人觉得工作要被取代了,甚至觉得可以先写一堆屎山,反正模型以后会帮我们清理。但一两年过去了,屎山还在,现实并没有发生根本性变化。每次新技术出来,大家都会过度反应,但真正的改变永远是一个非常缓慢、渐进的过程。
OpenAI不开源最好的模型,原因是为了生存
何泰然:你现在在 OpenAI,此前在清华、CMU,也在科研 lab 待过。但现在外界常见的批评是:OpenAI 已经和“open”没什么关系了。而你个人以前也很热衷开源、打破信息差,这会不会和你的价值取向产生冲突?
翁家翌:我觉得这是一个 trade-off。我依然很热爱开源,有合适的项目也会参与,但我更倾向于去做我认为更重要的事情。
翁家翌:而且对 OpenAI 来说,开源本身也是 trade-off。你没办法直接把最好的模型开源,因为公司要生存。如果不能生存,就无法融资、无法做实验,也就谈不上突破。我能理解并认同这一现实路径。
OpenAI的两件事:实现AGI;造福全人类
何泰然:但 OpenAI 一开始的组织架构其实很特殊,它并不是一个以商业盈利为目标诞生的公司。至少在公开语境里,它的口号是“让通用 AGI 平等地造福全人类”。在你看来,走向闭源,是让这个目标更近了,还是更远了?
翁家翌:我一直把这句话拆成两部分来看:第一,实现 AGI;第二,造福全人类。实现 AGI 这件事相对清晰,本质就是堆 pre-train、堆算力、持续 scale。
翁家翌:而“造福全人类”的当前路径,是把技术做成产品,以尽可能低的门槛让人使用。比如免费版 ChatGPT、语音模式,让普通人直接体验技术,这在现实中可能比开源一个裸权重模型更有效,因为大多数人并不知道该怎么用。
何泰然:所以你的理解是,OpenAI 的 “open”,更多是对普通用户的开放,而不是对其他大模型公司的开放。这个策略在接近 AGI、进入百米冲刺阶段时,我能理解;但如果 AGI 仍然是一个长期目标,会不会更开放、更透明,反而有利于 OpenAI 更快接近它?还是说,OpenAI 现在已经不太需要社区反馈,也不依赖外部力量,就能 self-contained(小编注:独立的) 地推进到 AGI?
对于OpenAI而言,开源路径执行起来不太现实
翁家翌:我觉得理论上是存在一条路径的:你可以选择开源,并且接受社区反馈,也有可能最终实现 AGI。但现实执行起来非常困难。因为你一旦开源,别人可以立刻在你的基础上超过你,然后选择闭源继续推进。并不是所有参与者都目标一致,这会让最早开源的一方处在非常尴尬的位置。在这样的环境下,如果 OpenAI 全面开源,很可能连融资都成问题,没有人会持续为它输血。
何泰然:这其实是一个博弈论问题。即使你真心想为 AGI 造福全人类,也无法保证其他人不只想着赚钱。所以为了防范这种情况,OpenAI 被迫选择闭源。
翁家翌:至少在我看来,是这样的。
何泰然:那这是公司生存层面的考虑。假设一个极端情况:OpenAI 拥有无限资源,永远不用担心生存问题。如果现在把你这两三年做的 RL infra 全部开源,你会开心吗?
翁家翌:我当然会很开心。John Schulman 其实也问过我这个问题,要不要开源。当时我的判断是,从公司的角度看不太合适,但他确实认真考虑过这件事。
何泰然:那是不是像 DeepSeek 这种 open weights 的做法,至少会促使 OpenAI 在内部重新评估这件事?
翁家翌:对。
Ilya开除Sam的真相:核心就是不信任
何泰然:你之前提到,OpenAI 的使命其实可以拆成两部分:先实现 AGI,再造福全人类。如果从这个使命出发,你觉得真正的机遇和最大挑战分别是什么?
翁家翌:关键在执行。只要方向对,能够稳定地执行就够了,最怕的是中途再出现类似 2023 年 11 月那种情况。
何泰然:你是指 Sam Altman 被董事会开除的那次。
翁家翌:对。组织结构越稳定,越有利于快速往前推进。
何泰然:那从你们内部视角看,当时发生了什么?因为外界听到的说法都很玄,比如 Ilya 到底“看到了什么”。
翁家翌:那些基本都是谣言,捕风捉影,外面传得非常夸张。
何泰然:那你们内部的真实视角是什么?
翁家翌:核心就是不信任。Ilya 和部分董事会成员不信任 Sam,于是投票把他撤掉。但对我们这些在下面干活的人来说,这件事非常突然,也非常震惊。董事会之前对内部几乎没有透明度,我们并不知道这个决策是怎么形成的。
何泰然:那这种不信任,具体是不信任什么?
翁家翌:具体细节可以看后来公开的调查报告。
对于OpenAI而言,Sam是不可替代的
何泰然:但最终的结果是 Ilya 离开了。明明最初是他不信任 Sam,最后反而是 Sam 获得了更多支持,这个转变是怎么发生的?
翁家翌:很多员工的判断是:如果由一个纯技术背景的人来领导公司,可能缺乏足够的远见。AGI 的实现并不只是技术问题,还涉及融资、算力获取,以及如何说服外部世界持续投入资源。如果只有研究经验,很难支撑这样一条长期路线。从这个角度看,还是需要 Sam 这样的人。
何泰然:所以 Sam 反而可能是 AI 最难替代的那类角色。他需要在商业、资源,甚至地缘政治层面持续运作。
翁家翌:可以把 Sam 抽象成一种 personality,一种 identity。短时间内,如果试图用 AI 去替代这个 identity,外界对这个角色的信任和认同会立刻崩塌。所以在这个层面上,他是不可替代的。
OpenAI在做的事情,外界并非完全不可复刻
何泰然:你刚刚提到 John Schulman 离开的那天下午,你难过了很久。但他并不是唯一一个离开 OpenAI 的人。在取得巨大成功之后,OpenAI 有很多核心成员陆续离开。你觉得像 OpenAI 这样极度成功的组织,大规模的人才流失是必然的吗?
翁家翌:我觉得一个健康的组织,前提就是所有人都可以被替代。只要你能持续培养新人,有稳定的造血能力,组织就能正常运转。即使走了一批人,也可以再花时间和精力培养新的一批,继续循环。
何泰然:有点像干细胞系统。所以现在的 OpenAI,没有谁是不可替代的。那是不是也意味着,OpenAI 正在做的事情,外界并非完全无法复刻?
翁家翌:可以这么理解。本质上就是把最简单的事情持续做好,没有什么黑魔法。
后训练团队压力确实大
何泰然:我们现在可能正处在人类历史上最激烈的一次科技竞赛中,而 OpenAI 点燃了这一切。你们内部现在的氛围有多 intense?压力会很大吗?
翁家翌:要看具体的组、deadline 和项目周期。比如 post-training,目前压力确实很大;而像我们在做 infra 重构,压力也有,但没有那么紧,因为我们可以适当延后,更关注把事情从长期角度做对。
不太Care外部压力,除了DeepSeek那次
何泰然:那外部的激烈竞争,比如 xAI、Anthropic,或者中国的大模型公司,会直接传导到你们日常的开发节奏里吗?
翁家翌:大多数时候不会。唯一一次明显的例外是 DeepSeek。因为他们在推特上公开强调自己的迭代速度非常快,这在内部引起了警觉。因为客观来说,我们内部的迭代速度相对偏慢,这也是为什么要下决心重构 infra。
模型公司的生死线:Infra的迭代速度
何泰然:所以对 OpenAI 这种基础模型公司来说,真正的生死线,其实是 infra 的 cycle time。
翁家翌:对。
何泰然:那其他因素呢?比如数据规模、算法,或者 researcher 的数量。
翁家翌:这些本质上是“投人”就能解决的问题,是单位成本的人力。
何泰然:那 AI infra 不也是人力吗?
翁家翌:这是个好问题。AI infra 对人的要求更偏向“高 context”。如果只是做数据 ablation(消融实验)、跑实验,其实不需要太多上下文理解,进来之后写个 for loop,把配置跑起来就行,这些事情甚至可以高度自动化。
很长时间不会去为了刷榜单而特意做什么
何泰然:所以你们真正警觉的点,是意识到 DeepSeek 内部的 infra 很强,迭代速度非常快。这才是引起注意的地方。你们并不在意哪个模型在榜单上比 GPT 高了多少分。
翁家翌:是的。我们很长时间都没有为了刷 LMSys 之类的榜单去特意做什么。
OpenAI肯定不是Infra迭代速度最快的公司
何泰然:你们真正关注的是单位时间内的迭代速度和成功率。那你觉得 OpenAI 现在在这个指标上是全球第一吗?
翁家翌:不是,肯定不是。这和组织结构关系很大。如果你把一小撮人抽出来,去做一个创业公司,他们的迭代速度斜率一定比 OpenAI 高。因为代码库更小、沟通成本更低、use case 更集中。
翁家翌:而 OpenAI 需要同时考虑很多 use case,服务多个方向,组织一旦变大,复杂度就会上来。
OpenAI还能持续做世界第一的模型吗?
何泰然:那如果在这个生死线指标上,OpenAI 已经不是第一了,它未来还能持续做世界第一的大模型吗?
翁家翌:这是每一家成功公司都会面对的问题。
何泰然:你的意思是,公司一旦做大、做成功,速度一定会变慢。
翁家翌:对。最后就变成一个相对问题:大家都会变慢,区别在于谁没那么慢。这里的“慢”是相对于初创公司来说的。
何泰然:初创公司可能在迭代速度这个指标上更强,但在其他指标上很难和 OpenAI 竞争,比如用户规模和真实反馈。
如何解决大公司的信息透明难题?一个“无限上下文”的Agent更适合来当CEO
翁家翌:所以一切都是 trade-off。这是任何人类组织发展到一定规模之后,必然要面对的问题。真正难的不是维持高人才密度,而是维持组织内部 context sharing 的一致性。一旦这一点做不好,infra 会开始不一致、变得臃肿,组织结构本身也会随之臃肿。
翁家翌:理论上,这种问题最终可能需要一个拥有“无限 context”的 agent 来替代人类组织去解决。
何泰然:听起来这是一种刚需。因为它实际上能解决人类历史上反复出现的问题:组织一旦变大,不管是写代码,还是做其他事情,结构都会不可避免地变得臃肿。
翁家翌:对,因为人脑能够承载的 context 是有限的。你不可能同时记住和处理这么多上下文,但 AI 可以。
何泰然:那未来会不会是,每一家公司都会有一个拥有无限 context 的 agent?
翁家翌:然后让它来当 CEO 就好了。
何泰然:由它来负责所有的信息共享,负责所有决策。从这个角度看,可能没有什么比这样的 agent 更适合做 decision maker 了。
最想用AI做的事情:提前生成未来剧本
何泰然:那再往未来看,如果你希望 AI 能解决一个世界级难题,你最希望它解决什么?
翁家翌:如何预测未来。
何泰然:你说的未来,肯定不是“杯子会不会掉下来”这种层面的未来,而是关乎人生、世界格局、宏观走向的那种。
翁家翌:对。
何泰然:为什么这是你最想让 AI 去解决的问题?
翁家翌:我个人其实一直对“自己造一个世界”这件事有执念。如果从更高维度来看,你需要一个能够提前生成剧本的东西。