OpenAI团队4人28天开发安卓版Sora，AI代码占比85%

2025-12-17

摘要

OpenAI的一个4人工程团队在28天内成功构建并发布了安卓版Sora应用，其中约85%的代码由AI智能体Codex完成。该项目消耗了约50亿Token，实现了99.9%的无崩溃率，并在上线24小时内由安卓用户生成了超100万条视频。这一案例展示了AI在软件开发中的颠覆性潜力，通过小型精英团队与AI协作，能够以极高的效率和质量交付复杂产品，改变了传统的软件工程模式。

线索

此次事件揭示了AI辅助开发领域的重大机遇与潜在风险。机遇在于：1）生产力革命，AI编码工具可大幅缩短开发周期、降低人力成本，使企业能更快响应市场；2）新商业模式，如Codex这类AI智能体正从工具演变为“数字队友”，与项目管理软件深度集成，催生平台化服务；3）竞争壁垒重构，掌握AI原生开发流程的企业将获得显著的速度和创新优势。风险在于：1）过度依赖可能导致开发者核心技能退化，面对AI无法解决的深层架构问题时束手无策；2）代码同质化，广泛使用相同AI模型可能扼杀技术方案的多样性；3）安全与质量控制的“黑箱”问题，AI生成的复杂代码可能隐藏难以察觉的漏洞，对长期维护构成挑战。

正文

项目概述

10月初，OpenAI发布了迭代后的Sora 2及首个AI视频应用Sora APP。11月，安卓版Sora上线后登上了谷歌Play Store榜首。时隔两个月，OpenAI团队披露了这款应用（首个安卓版）的构建细节。该应用由一个4人工程团队在28天内完成，从10月8日到11月5日。项目背后最大的功臣是AI智能体Codex，它完成了约85%的编码工作，消耗了约50亿Token。尽管应用规模较大，但实现了99.9%的无崩溃率。团队使用的是GPT-5.1-Codex模型的早期版本，该模型在发布仅5个月时，已承担了OpenAI内部每周70%的PR（Pull Request）任务。

团队策略与布鲁克斯定律

当Sora在iOS上发布时，用户量激增，而安卓版当时只有一个简陋的内部原型，但Google Play上的预注册用户却在持续增长。面对高压的发布任务，传统做法是增加人手和流程。然而，美国计算机架构师Fred Brooks提出的“布鲁克斯定律”指出，向一个延期的软件项目增加人手，只会让它延期得更厉害，因为这会增加沟通成本和集成难度。为此，OpenAI组建了一支4名工程师的精锐小队，全员配备Codex，以提升个人战斗力。团队在18天内发布了内部构建版本，10天后正式向公众发布。

AI的自我迭代

在OpenAI内部，绝大部分工程师都在使用Codex。Codex产品负责人Alexander Embiricos透露，Codex会监控自己的训练过程并处理用户反馈，以“决定”下一步的行动。OpenAI正在尝试让Codex编写大量用于自身训练的研究测试框架，并监控自己的训练过程。这种“AI迭代AI”的模式形成了一个递归循环，类似于历史上电子设计自动化（EDA）软件的发展路径：第一代工具创造的能力，会反哺到下一代工具中。这个系统能自主运行进程、处理反馈、管理子进程，并生成最终产品代码。员工通过Linear、Slack等工具向Codex分配任务，视其为“队友”。

Codex的角色定位：高级工程师

为了理解工程师与Codex的协作方式，可以将Codex定位为一个“刚入职的高级工程师”。这意味着工程师的角色从亲手编写代码，转变为指挥和审查代码。这种模式被称为“氛围流工程”，即人类仍然保持在决策循环中，与AI共同制定计划、讨论并迭代。开发者会先让Codex制定计划，然后一起讨论，确保开发者与模型保持在同一个循环中，并能仔细审查代码。

Codex的能力边界

Codex目前存在一些局限性。它不擅长推断未知信息，如个人偏好的架构模式、产品策略、真实用户行为或内部潜规则。它也无法感知应用的实际运行体验，例如界面滚动是否流畅或交互流程是否别扭。这些体验层面的工作仍需由人工完成。每个Codex实例都需要“入职培训”，即提供充分的上下文、明确的目标、约束条件和规则。在深层架构判断上，Codex可能会偏离最优解，例如创建多余的ViewModel或将逻辑放在错误的层级。它的本能是让功能跑通，而非优先考虑代码的长期整洁度。为了解决这个问题，OpenAI团队在代码库中放置了大量AGENT.md文件，用于在不同会话中复用指导和最佳实践。

Codex的优势则体现在多个方面：

1. 理解大型代码库：精通主流编程语言，能轻松在不同平台间复用概念。

2. 测试覆盖率：热衷于编写单元测试，能覆盖各种边缘情况，有效防止Bug回归。

3. 响应反馈：当CI（持续集成）失败时，可以直接将日志粘贴给它，以获得修复方案。

4. 大规模并行：开发者可以并行运行多个会话测试不同想法，将代码视为可随意丢弃的消耗品。

5. 提供新视角：在设计讨论中，可作为生成式工具挖掘潜在故障点或发现新的解决方案。

6. 解放人力：团队将更多时间用于代码审查、架构设计和用户体验优化，Codex本身也具备代码审查能力。

人机协作的核心：规划与地基

为了用好Codex并确保代码的稳健性和可维护性，开发者需要亲自把控系统的设计和关键权衡，包括应用架构、模块化、依赖注入和导航等。对于一个85%代码由AI完成的项目，一个精心规划的基础架构避免了昂贵的返工。团队认为，手动构建地基是“最正确的决定之一”。核心思路是构建一个“懂规矩的东西”，而非仅仅是一个“能跑的东西”。开发者不需要告诉Codex每一步怎么做，但需要向它展示什么是“正确”的。团队曾尝试直接让Codex参照iOS代码构建安卓应用，但结果因产品体验不达标而失败。正确的做法是，人类做出结构性决策并设定规则，Codex负责在此框架内填充大量代码。

工作流程的变革

为了最大化Codex的潜力，团队改变了工作流程。对于任何复杂改动，首先让Codex帮助理清系统和代码的运作方式，例如阅读相关文件并总结功能流程，然后由人工纠正或细化其理解。接着，团队与Codex共同制定一份类似微型设计文档的实施计划，指明需要修改的文件、引入的新状态和逻辑走向。只有在这一步完成后，才让Codex开始执行计划。对于超长任务，当上下文窗口即将溢出时，团队会让Codex将计划保存到文件中，以便在不同会话中延续指导。这种“先规划，再编码”的流程让代码审查变得更容易，因为可以对照计划检查实现。

在项目高峰期，团队会并行运行多个Codex会话，分别处理播放、搜索、错误处理或测试等不同任务。每个会话都需要关注、反馈和审查，这种模式类似于管理一个由多名新人组成的团队。开发者的工作流从编写代码转变为做决策、给反馈和集成变更。这也印证了布鲁克斯定律的新形式：不能简单地增加Codex会话就期望速度线性提升，因为每一双额外的“手”都会增加协调成本。

跨平台开发能力

该项目的一个优势是Sora已在iOS上发布。团队经常将Codex指向iOS和后端代码库，以帮助其理解关键需求和约束。团队开玩笑说，他们“重新发明了跨平台框架，跨平台的未来就是Codex”。这基于两个原则：1）逻辑是可移植的，无论用Swift还是Kotlin编写，底层的应用逻辑都是相同的，Codex擅长读取一种语言的实现并生成语义一致的另一种语言的代码；2）具体示例提供强大的上下文，让Codex看到iOS代码的实际运行方式，远比纯语言描述更高效。团队将iOS、后端和Android仓库放在同一环境中，通过提供丰富的上下文，获得了非常好的开发效果。

结论与未来展望

28天的冲刺结束后，使用Codex已成为OpenAI默认的开发闭环：理解代码、规划变更、实现功能、审查输出。AI辅助开发并未降低工程的严谨性，反而提升了它。Codex已与项目管理工具Linear和通讯平台Slack打通，团队成员可以直接在Slack中@Codex指派任务或修复Bug，Codex会提交PR，团队成员可在同一帖子里审查和迭代代码，模拟了同事间的协作关系。尽管Codex能力很强，但其目标是快速完成任务，因此离不开人类的指导。未来软件工程师的“超能力”将是深刻的系统理解能力和与AI长期协作的能力。Codex让开发者能专注于软件工程中最有意义的部分。OpenAI希望以自身经验启发更多开发者，更好地利用AI工具。

发布时间

2025-12-15T14:39:54+00:00

OpenAI团队4人28天开发安卓版Sora，AI代码占比85%

相关推荐

评论 ( 0 )

取消回复

OpenAI团队4人28天开发安卓版Sora，AI代码占比85%

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站