
OpenAI 联创 Greg Brockman 和 Codex 工程负责人 Thibault Sottiaux 的对话,系统阐述了 AI 编程工具 Codex 的演进历程、核心理念、最新进展及未来愿景。Codex 已从早期的代码补全工具,发展成为一个复杂的、深度集成于开发者工作流的智能体系统。其成功的关键在于认识到“Harness”(即工具与基础设施)与模型智能本身同等重要。最新发布的 GPT-5 Codex 专为智能体任务优化,展现了前所未有的续航能力(在复杂重构任务中可持续工作长达7小时)和显著提升的代码质量。未来的愿景是构建由人类监督的大规模 AI 智能体集群,执行从代码审查、安全补丁到解决前沿科学难题等各类复杂任务。然而,实现这一愿景面临着可扩展监督、安全对齐以及未来世界中“算力稀缺”等核心挑战。
1. Codex 的演进之路:从代码补全到智能体
Codex 的发展历程反映了 AI 编程能力的指数级增长,其演进体现了从简单的文本生成到具备自主行动能力的智能体的范式转变。
1.1. 早期探索与 GPT-3
Codex 的构想起源于 GPT-3 时代。当研究人员首次观察到语言模型能够根据 Python 函数的文档字符串(docstring)和函数名自动补全代码时,他们意识到这将是一项具有巨大潜力的技术。当时,一个“远大的目标”是让语言模型能编写上千行连贯的代码——这个目标如今早已被超越并习以为常。
1.2. GitHub Copilot 与延迟的重要性
与 GitHub 在 2022 年合作推出的 Copilot,是首次将 AI 深度融入开发者日常工作流的里程碑。这次合作揭示了一个关键的产品洞见:延迟是一个核心特性。对于代码自动补全这类应用,响应时间必须控制在 1500 毫秒以内,否则即使模型再智能,用户也不会愿意等待。这一经验表明,产品的可用性并不仅仅取决于模型的智能水平。
1.3. 从用户驱动到模型驱动的交互范式转变
最初,开发者使用 ChatGPT 等工具时,需要手动复制粘贴大量的上下文信息(如代码片段、堆栈跟踪)来辅助模型解决问题。OpenAI 观察到这一低效模式后,产生了一个关键的思路转变:与其让用户费力地提供上下文,不如让模型主动去寻找和理解上下文。这种“反转交互”的思路,即让模型驱动交互、自主调试问题,是 Codex 向智能体化演进的核心催化剂。
2. “Harness”:释放模型潜能的关键
“Harness”(可译为“驾驭系统”或“工具链”)是理解 Codex 强大能力的核心概念。它指的是模型智能之外、使其能够与环境交互并执行任务的所有基础设施和工具的总和。
2.1. 定义:模型的“身体”与“大脑”
Thibault Sottiaux 将模型比作“大脑”,而 Harness 则是其“身体”。Harness 包含了一系列工具集和所谓的“智能体循环”(Agent Loop),它赋予了仅能进行输入输出的模型在现实环境中行动的能力。通过将模型与 Harness 端到端地进行训练,AI 开始展现出作为真正“合作者”的魔力。
2.2. 协同进化:能力与接口的共生关系
模型的能力和其交互接口(Harness 的一部分)必须协同进化。一个像 GPT-4 这样非常智能但速度较慢的模型,无法满足代码自动补全的低延迟要求,但这并不意味着它没有用武之地。通过改变 Harness 和交互方式,可以为这类模型创造出新的高价值应用场景。OpenAI 坚信,“更高的智能从长远来看终将胜出”,因此愿意为更强的智能投资,并为其设计合适的交互模式。
2.3. OpenAI 的产品迭代策略
Codex 的产品形态经过了多次迭代和实验,体现了 OpenAI 在平衡内部需求与外部应用、探索不同交互模式上的策略:
- 内部工具的孵化:一个名为“10X”的内部命令行工具因其能带来10倍生产力提升而广受欢迎。尽管最初因不够成熟未作为产品发布,但其核心理念最终演变为面向公众的终端和 IDE 插件。
- 多形态实验:团队探索了多种部署模式,包括在云端异步运行的智能体、在本地同步运行的工具,以及两者的混合模式。最终目标是创建一个统一的 AI 实体,它既能“在云端拥有自己的电脑”,也能“在本地作为你的助手”,无缝地融入开发者现有的工作流中。
- 平衡内部与外部需求:OpenAI 面临的一大挑战是如何平衡为内部工程师打造高效工具与为全球多样化用户提供通用解决方案。其基本原则是:“如果你不能让一个工具对自己有用,你就不可能让它对其他人极其有用。 ”
3. GPT-5 Codex:新一代编程智能体
GPT-5 Codex 是 OpenAI 专为编程任务优化的 GPT-5 版本,它与 Harness 紧密耦合,被视为一个统一的智能体。
3.1. 核心特性:为智能体任务优化
- 持久性与“韧性”:模型展现出在复杂任务上长时间工作的能力,能够持续推进并解决遇到的问题。
- 速度与效率:在处理简单任务时,响应速度极快;而在处理复杂问题时,则能进行深度思考。
- 代码质量:经过大量优化,生成的代码质量得到显著提升。
- 可靠性:与 Harness 的深度集成使其在执行任务时更加可靠。
3.2. 卓越表现:长时程复杂重构任务
GPT-5 Codex 最引人注目的能力之一是其处理大型、复杂任务的耐力。在一个内部案例中,该模型持续工作了长达7小时,成功完成了一项棘手的代码库重构任务。它自主地规划、执行、修复测试,并最终完成整个重构过程,这是此前模型无法企及的。
3.3. 普及化策略
为了让更多用户受益,Codex 已被包含在 ChatGPT Plus 和 Pro 订阅计划中,并提供慷慨的使用额度。这一举措极大地推动了其使用量的增长,自推出以来,使用量增长超过10倍。
4. 当前与未来的核心应用场景
Codex 的应用正从辅助性工具向核心生产力工具转变,其潜力覆盖了软件开发的全生命周期。
| 应用领域 | 描述与影响 |
|---|---|
| 代码审查 | 最初,自动代码审查工具常因充满“噪音”而被开发者忽略。然而,当 Codex 的能力跨越某个“效用阈值”后,它从一个负资产转变为 OpenAI 内部团队依赖的“安全网”。它能深入理解代码意图,发现顶级工程师都可能忽略的深层问题,显著提升了代码质量和开发速度。 |
| 自动化迁移与重构 | 这是 Codex 的一个“企业级杀手级用例”。它能自动化执行繁琐且易错的代码迁移任务,例如将项目从一个 API 迁移到另一个,或将 COBOL 等古老语言编写的遗留系统现代化。这有望将迁移成本降低2倍,从而使迁移项目数量增加10倍。 |
| 安全修复 | 自动化发现并修复代码中的安全漏洞被视为一个即将变得至关重要的领域。 |
| AI 创造工具 | 未来的 AI 不仅使用工具,还将为自己和人类创造新的、更高效的工具,形成一个自我增强的“效率飞轮”。 |
| 学习与探索 | Codex 是一个强大的学习伴侣。OpenAI 的工程师利用它快速学习了 Rust 等新语言。它能够在你甚至不知道该问什么问题时,就为你提供解决方案或指出更优的实践(例如,提示使用 JSON 序列化库而不是手动发明协议)。 |
5. 未来展望:人机协作与社会变革
Codex 的发展预示着编程乃至整个社会生产方式的深刻变革。
5.1. 2030 年的编程图景:智能体大军
未来的世界将由“数百万个在数据中心工作的智能体”构成。这些由人类团队监督和引导的 AI 将大规模地创造经济价值。开发者的角色将从编写每一行代码,转变为定义问题、架构系统,并管理和审查 AI 智能体的工作。
5.2. 关键挑战:可扩展监督、安全与对齐
- 可扩展监督 (Scalable Oversight):当大量 AI 智能体生成海量代码时,人类如何有效监督并确保其正确性和安全性,而不必审查每一行代码?这是一个亟待解决的技术难题。
- 安全与对齐:确保智能体在安全的环境中(如沙箱)运行,并建立完善的权限管理系统,使人类始终保持控制权,这是大规模部署智能体的前提。
5.3. 物质丰裕与算力稀缺
Greg Brockman 预测,到2030年,AI 将使创造数字和物理产品的成本极低,世界将进入一个“物质丰裕”的时代。但与此同时,也将面临“绝对的算力稀缺”。当每个人都希望拥有一个专属的 AI 智能体为其持续工作时(可能需要100亿个 GPU),对计算资源的需求将远超现有供给。因此,提升计算效率和扩大算力供给将成为核心瓶颈。
5.4. 对开发者的建议
在 AI 时代,编程依然是一项有价值的技能。建议是:“学习编程,但更要学习使用 AI。 ”成功的开发者将是那些能够深入理解软件工程基础,并善于利用 AI 作为强大杠杆来加速实现其构想的人。AI 不仅是工具,更是加速学习、提升代码质量、并最终将人类从繁琐工作中解放出来,专注于更高层次创造的合作伙伴。

石榴当当基于DeepSeek打造,可以用一句话提取文档中的指定关键信息,并且支持提取结果溯源定位,导出Excel文件。
