ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

卡帕西展望2025:AI转向强化学习与机器智能新形态

2025-12-23

摘要:OpenAI联合创始人安德烈·卡帕西在其《2025年大语言模型年度回顾》中指出,大语言模型(LLM)领域在2025年发生了深刻的范式转移。核心转变是训练哲学从“概率模仿”转向“逻辑推理”,其驱动力是可验证奖励强化学习(RLVR)的成熟,它已成为提升模型能力的新核心,甚至占用了原本用于预训练的计算资源。卡帕西用“召唤幽灵”比喻当前AI的智能形态,解释了其“锯齿状”性能特征——在特定领域(如数学、代码)表现卓越,却在基础常识上可能出错。此外,报告还详述了“氛围编程”(Vibe Coding)的兴起降低了编程门槛、Cursor代表的垂直领域应用新层级、Claude Code引领的本地化智能体趋势,以及由谷歌Gemini Nano Banana模型所预示的大语言模型图形界面(LLM GUI)演进方向。卡帕西总结认为,尽管进步显著,但行业对LLM潜力的挖掘仍不足10%,未来发展空间广阔。

线索:卡帕西的报告揭示了AI领域从规模扩张向效率与范式创新转变的深层趋势,预示着明确的投资与创业方向。机会层面:首先,RLVR技术强调“测试时算力”,即通过延长模型“思考时间”提升表现,这可能会推动对高效推理芯片和优化服务的需求。其次,“氛围编程”和Cursor模式表明,在通用大模型之上,存在一个巨大的垂直领域应用层机会,即通过整合私有数据、工作流和界面,将通用模型转化为专业工具的企业。第三,Claude Code的成功凸显了本地化、低延迟、能访问私有环境的AI智能体(Agent)的实用价值,这是To B和开发者市场的关键切入点。最后,Nano Banana模型指向了超越文本对话的多模态、可视化交互范式,人机交互界面革新将是下一代AI应用的重要赛道。风险层面:报告也提示了“锯齿状智能”的风险,即AI在基准测试上表现优异的能力可能无法泛化到真实复杂场景,过度依赖特定技术路径(如RLVR)可能导致模型能力不均衡。同时,传统基准测试因容易被“定向训练”而失效,增加了评估模型真实能力的难度。

正文

北京时间12月21日,OpenAI联合创始人安德烈·卡帕西发布了《2025年大语言模型年度回顾》报告,系统阐述了过去一年该领域的核心范式转移。

报告指出,2025年标志着AI训练哲学从“概率模仿”向“逻辑推理”的决定性跨越。这一转变的核心动力是基于可验证奖励的强化学习(RLVR)的成熟。传统的LLM生产堆栈包含预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)。而RLVR通过在数学、代码等可自动验证结果的环境中进行训练,使模型为获取客观奖励而自发产生类似人类推理的步骤。与SFT和RLHF不同,RLVR支持更长的训练周期,并具备极高的“能力/成本比”。2025年模型能力的提升主要源于对RLVR潜力的大量挖掘,而非参数规模的扩大。RLVR还引入了新的扩展定律:通过生成更长的推理轨迹、增加模型“思考时间”,可以在测试阶段灵活调控算力以提升能力。OpenAI的o1模型(2024年底)是RLVR技术的首次公开亮相,而2025年初的o3模型发布则成为能力发生质性飞跃的明确拐点。

卡帕西对智能的本质提出了“幽灵”与“动物”的比喻。他认为,当前的大语言模型并非像生物一样逐步“进化成长的动物”,而是“被召唤出的幽灵”。因为其神经网络架构、训练数据和优化目标(模仿文本、获取解题奖励等)与生物智能的演化逻辑完全不同。这种本质导致了LLM呈现出“锯齿状性能特征”:在RLVR训练过的可验证领域(如数学、代码)能力突出,但在一些基础常识或未经过强化的领域则可能表现脆弱甚至出错。基于此,卡帕西对当前基于“可验证环境”构建的各类基准测试失去了信任,认为它们极易被RLVR或合成数据“攻击”,导致各实验室培育出只擅长特定测试的“智能锯齿”。

在应用层面,报告指出了几个关键趋势。第一,以Cursor为代表的应用揭示了一个新的层级:在基础大模型之上,存在一个为垂直领域整合并编排LLM调用、管理上下文、平衡性能与成本、并提供专属图形界面的应用层。卡帕西认为,基础模型实验室倾向于培养“通识能力强的大学生”,而这些垂直应用则负责将其组织成“专业团队”。第二,Claude Code(CC)的发布首次令人信服地展现了智能体(Agent)的能力,其关键特点是本地化运行,可直接访问用户电脑中的私有环境、数据和上下文,提供了低延迟的交互体验,重塑了AI作为“栖息”在本地环境中的智能实体的认知。第三,“氛围编程”(Vibe Coding)兴起,意味着人们仅用自然语言描述意图即可构建程序,代码变得廉价、可塑,甚至“用完即弃”,这大幅降低了编程门槛,将改造软件开发生态。

关于交互范式,卡帕西认为大语言模型是继个人电脑之后的又一重大计算范式革新。当前与LLM的“文本对话”类似于早期计算机的指令行界面,并非人类最有效的交互方式。人类更倾向于视觉化、空间化的信息获取方式。谷歌的Gemini Nano Banana模型(因其名称和图像生成能力引发关注)被视为未来“大语言模型图形界面”(LLM GUI)的早期雏形,其价值在于模型权重中深度融合了文本生成、图像生成与世界知识的联合建模能力,预示着交互方式将向图像、图表、幻灯片等可视化形态演进。

卡帕西总结认为,2025年是LLM领域大步跨越的一年,当前模型既展现出远超预期的能力,也存在明显的认知短板,但它们已具备极高的实用价值。他估计,即便以当前能力,行业对LLM潜力的开发仍不足10%,同时该领域从概念上看发展空间依然极为广阔。

发布时间:2025-12-22 08:26:01

相关推荐

评论 ( 0 )

3.4 W

文章

64.4 W

点赞

回顶部