摘要:本文整合了当前AI领域关于Scaling Law(规模定律)前景的核心争论。一方观点以DeepMind内部视角为代表,坚信Scaling Law依然有效,算力是驱动AI进步的根本,并指出性能与算力间存在明确的幂律关系(性能∝算力^0.35),且AI正从预训练扩展转向包含后训练、推理时和上下文扩展的全维度扩展。另一方观点则认为,当前范式面临瓶颈,问题的关键并非算力不足,而是现有模型架构和训练方法无法高效地将持续增长的算力转化为智能的显著提升。双方都引用了行业关键人物的看法,并提及了如SIMA 2具身智能体、METR时间跨度指标、以及电力与散热等基础设施挑战。
线索:
* 投资机会:Scaling Law的持续有效性若成立,将强化对算力基础设施(如高端GPU、AI芯片、液冷解决方案)、能源(绿色电力供应)以及高效数据中心(“AI工厂”)的长期投资逻辑。关注在“全维度Scaling”中具有技术优势的公司,特别是在推理优化、长上下文处理以及具身智能(物理世界交互)领域有布局的企业。
* 潜在风险:若智能增长的瓶颈确实源于当前技术范式的消化能力上限,而非算力本身,则盲目堆砌算力的资本开支可能面临边际效益急剧递减的风险。技术路径的分歧(如纯大语言模型路线与需要世界模型的路线)可能带来研发方向的不确定性。此外,巨大的算力需求引发的电力供应紧张、散热挑战以及地缘政治对供应链的影响,也是不容忽视的硬约束和运营风险。
正文:
在人工智能领域,关于Scaling Law(规模定律)是否已经触及天花板的争论日益激烈。这一争论的核心围绕着算力的持续投入能否继续有效地转化为模型智能的显著提升。
一种观点强烈主张Scaling Law依然有效,算力是驱动进步的核心。OpenAI的Sam Altman曾预测,构建AGI(通用人工智能)的路径已知,并认为随着电力生产的自动化,智能成本将趋近于零。英伟达的黄仁勋则将焦点转向“AI工厂”,强调未来需要实现推理效率的万倍飞跃。来自Google DeepMind的研究员Zhengdong Wang在其年度总结中进一步阐述了这一立场。文章回顾了过去十五年,用于训练AI模型的算力每年以四到五倍的指数级速度增长。研究指出,模型性能与算力投入之间存在幂律关系,性能提升大致与算力的0.35次方成正比,这意味着算力增长能持续带来性能收益。随着算力规模扩大,模型会展现出“涌现能力”,如逻辑推理和复杂指令遵循。当前的Scaling正从单一的“预训练扩展”演化为四个维度:预训练扩展、后训练扩展(如强化学习对齐)、推理时扩展(延长模型“思考”时间)以及上下文扩展(增长记忆长度)。文章分享了一个DeepMind的内部案例:在解决一个复杂的具身智能问题时,将算力投入增加一千倍后,原本棘手的难题得以解决,这印证了Richard Sutton的“苦涩的教训”——通用算力方法终将超越人类特定的算法巧思。然而,这一路径面临严峻的基础设施挑战,包括单芯片功耗逼近1000W导致的散热问题(需转向液冷),以及满足指数级算力增长所需的巨大电力供应。谷歌基础设施负责人曾指出,需每六个月将算力翻倍。同时,DeepMind的SIMA 2项目展示了AI在物理世界交互的进步,这是一个通过像素级输入在3D环境中学习的通用智能体。根据METR(衡量AI完成复杂任务所需时间)的评估,AI能稳定处理的任务时长已从两年前的约9分钟提升到2025年底的4小时以上。尽管进展显著,该观点认为AGI的发展仍处于早期阶段,真正的挑战在于如何管理未来可能自主进化且具备“不可解释性”的超级智能。
另一种观点则认为,智能增长正面临瓶颈。OpenAI的联合创始人Ilya Sutskever曾表示,单纯堆砌预训练算力的时代正在进入平台期。Meta的前首席科学家Yann LeCun也多次质疑大语言模型通过Scaling达到AGI的路径。新加坡国立大学教授、潞晨科技创始人尤洋在其文章《智能增长的瓶颈》中系统分析了这一问题。他将智能的核心定义为预测与创作能力,并指出过去十年AI大模型的技术本质是将电力能源通过计算转化为可复用的智能。这一转化依赖于几个关键共识:预训练是智能的主要来源;Next-Token Prediction是一个成功的损失函数设计,它最小化了人为干预;而Transformer架构的胜出,本质上是因为它是一台“并行计算机”,与GPU的硬件特性高度匹配。尤洋认为,当前的瓶颈并非“算力不够”,而是“现有范式无法充分利用持续增长的算力”。他区分了“效率提升”(以更少资源达到相同效果)和“智能上限提升”(在相同算力总量下获得更强模型),指出后者才是关键。问题在于模型、损失函数和优化算法对算力的“消化能力”正在下降。为了突破瓶颈,需要探索能让模型在单位时间内“吃下”并转化更多能源的方法,包括:1. 探索更高数值精度(如FP32、FP64)的计算;2. 研发更高阶的优化器以提供更优的参数更新路径;3. 设计更具扩展性的模型架构或损失函数;4. 进行更充分的训练和超参数搜索。他强调,推理优化、低精度、蒸馏等技术主要解决商业化落地问题,与提升智能上限是两条不同的技术曲线。最终,智能的增长归根结底是算力利用效率的问题,需要寻找能更高效利用巨量算力的新方法。
发布时间:2025-12-31 17:04:41



评论 ( 0 )