摘要:本文基于Dwarkesh的最新播客,总结其对AI进展的核心判断。主要观点包括:以强化学习为核心的“中训练”成为重点,但这恰恰证明AGI尚远;AI经济扩散滞后本质是模型能力不足,而非技术扩散慢;预训练的扩展定律明确,但此经验未必适用于强化学习,后者可能需要百万倍算力提升;人类劳动力的价值在于其灵活、低成本的训练方式;对比人类智能分布会先高估、后低估AI的价值;持续学习将是AGI之后能力提升的关键,但其成熟可能需要5到10年时间。
线索:
* 投资机会:“中训练”及RLVR(带可验证奖励的强化学习)催生了构建特定训练环境(如操作浏览器、Excel)的产业链,相关工具与服务提供商存在机会。若持续学习取得突破,将极大释放AI的长期应用潜力与商业价值。
* 主要风险:对强化学习规模化的乐观预期缺乏数据支持,存在算力需求呈指数级增长(百万倍)的风险。当前AI模型能力仍远未达到能广泛替代人类知识工作的水平,投资于短期内承诺颠覆性经济影响的AI应用需谨慎。AGI的实现时间可能比激进预测更长,技术路线存在不确定性。
正文:
Dwarkesh在其最新一期播客中,分享了对人工智能(AI)发展现状与未来路径的一系列观点。
核心判断概述
1. 中训练与AGI距离:前沿科技公司正专注于通过“中训练”将大量具体技能预置到大型语言模型中。这种做法的必要性,恰恰被视作通用人工智能(AGI)尚未接近的证据。因为如果模型具备强大的泛化能力,则无需为操作浏览器或Excel等任务构建大量独立的强化学习环境。
2. 人类劳动力的价值:人类劳动力的核心价值之一在于其训练成本并不笨重,能够根据需要灵活掌握新技能。日常工作涉及大量需要判断力、情境感知和特定背景知识的任务,这些任务因人、因情境而异。完全依赖预置固定技能集,连自动化一份完整工作都困难。
3. 经济扩散滞后的本质:AI尚未在企业中广泛创造编程以外的经济价值,常被归因于技术扩散需要时间。但一种观点认为,这实质上是模型能力不足的体现。与招聘人类员工存在评估风险不同,经过验证的AI员工可以无损复制。企业有强烈动机雇佣AI劳动力,此事未发生,表明模型能力差距巨大。据称,当前领先AI实验室的收入与全球知识工作者总薪酬之间存在四个数量级的差距。
4. 对批评的回应:针对“AI空头不断调整批评标准”的指责,部分观点认为这种调整具有合理性。随着技术发展,AI陆续解决了通用理解、少样本学习、推理等曾被视作瓶颈的问题,但仍未实现AGI。这促使人们认识到智能与劳动的复杂性可能远超早期理解。
5. 扩展定律的适用性:在预训练阶段,算力规模的数量级提升会稳定降低损失函数,规律清晰。然而,将这种乐观经验移植到强化学习(RLVR)的规模化上缺乏依据。有分析试图关联不同“o系列”基准数据后指出,要强化学习达到类似GPT系列的提升幅度,其总算力规模可能需要提升至一百万倍。
6. 与人类智能分布的对比:知识工作的价值高度集中于顶尖人才。若将AI能力与“中位数人类”对比,会系统性高估其经济价值。反之,一旦AI达到顶级人类水平,其影响力可能呈爆炸式增长。由于人类能力差异巨大而同一代AI模型能力相对齐平,这种对比会造成先高估、后低估的认知过程。
7. 持续学习的作用:持续学习被认为是AGI实现后模型能力提升的主要驱动力。预计前沿团队可能在明年发布持续学习的雏形功能,但要达到人类水平的持续学习能力,可能需要5到10年时间。持续学习的进展将是渐进的,而非一蹴而就的突破,因此难以让某个模型借此获得失控的长期领先优势。
详细论述
关于中训练与学习能力:当前,行业通过“中训练”预置技能的做法,与AGI应具备的类人学习能力存在根本张力。人类无需为每个可能用到的软件进行专门训练。有评论将此比作专家系统时代的大规模重演,即依赖大量专家生成形式化的推理样本来训练模型,这反衬出当前系统缺乏真正的核心学习能力。在机器人领域,如果存在类人学习者,硬件操作问题将很大程度上被解决;而现实中却需要大量数据来学习端盘子等具体任务。尽管存在“先造出超人类AI研究员以解决学习算法”的乐观反驳,但被认为可信度较低。另一种观点认为,预置通用工具技能是高效的,但严重低估了大多数工作对公司及情境特定技能的依赖,而AI目前缺乏稳健习得这些技能的方法。
关于劳动力价值与训练成本:一个具体例子是,针对某个实验室特定的生物切片识别任务训练专用模型,其成本可能得不偿失。人类的价值在于能从语义反馈或自我驱动经验中泛化学习。真正的AGI意味着可无限复制、并能融合彼此学习成果的类人智能体,其影响力将是巨大的。预计这种形态的AGI可能在一二十年内出现。
关于能力与扩散速度:有观点类比高技能移民能快速融入经济,认为具备足够能力的AGI同样可以。AI员工整合速度可能更快,能迅速学习公司内部信息与其他AI员工的技能。招聘人类是“柠檬市场”,存在识别成本,而部署已验证的AI实例则无此问题。因此,AI劳动力未被广泛采用,主要归因于能力而非扩散速度。
关于目标标准的演进:模型在“表现惊人”方面的进步迅速,符合短期乐观预测;但在“真正有用”方面进展较慢,更符合长期观点。预计到2030年,前沿模型可能在持续学习上取得进展,收入达数千亿美元,但仍无法完全自动化知识工作,届时对AGI的定义可能再次扩展。
关于扩展经验与强化学习:预训练的扩展趋势干净、普适。然而,RLVR领域不存在类似的公开拟合趋势。有分析基于零散数据得出的结论偏向悲观。
关于持续学习的路径与影响:未来,持续学习智能体可能在工作中学习,并将成果反馈至中央模型进行知识蒸馏。智能体可高度专门化。持续学习的完善将是一个渐进过程,类似上下文学习能力的演进。此外,从部署中学习的收益可能存在边际递减。行业竞争依然激烈,尚无任何一家实验室展现出可持续的、失控的领先优势。
精选评论观点
* Will Michaels认为,人类学习快的原因之一是其错误类型可预测,而AI的错误既不可预测也不直观,这使得构建有效的学习环境异常困难。若能使AI的失败模式可预测,将是持续学习的重要进展。
* Argos指出,OpenAI等公司使用高度专业化技能数据进行训练,可能仅是为了服务特定客户,而非其AGI通用路径。AI扩散缓慢也可能是因为模型有用但不够可靠,无法完全自主工作。许多任务的经济价值释放,可能受限于构建相应“支撑体系”(如Claude Code之于编程)所需的大量工程投入。
* Daniel Kokotajlo提出,AI研发过程本身的自动化可能大幅加速持续学习等问题的解决。此外,通过足够多样化的强化学习环境,可能训练出具备通用自主能力的智能体,它们能在新环境中自行探索。未来,由智能体组成的“集体”或许能自主管理庞大的学习流程,尽管学习特定技能可能需要比人类多得多的数据,但其通过大规模并行数据收集和智能管理,总体学习速度可能超越人类。
发布时间:2025年12月25日 07:11



评论 ( 0 )