摘要
在2025年12月初的NeurIPS大会上,Geoffrey Hinton与Jeff Dean的对话探讨了一个核心问题:现代AI为何能从实验室走向数十亿用户。他们一致认为,这并非源于单点突破,而是算法、硬件与工程系统协同成熟的“系统性涌现”。这一进程始于2012年AlexNet利用两块GPU实现的关键验证,并由谷歌自研的TPU等专用硬件驱动,第一代TPU在2015年即将推理能效提升了30-80倍。在2017至2023年间,可扩展的Transformer算法架构、集中化的组织模式(如Google的Gemini项目)以及成熟的工程工具栈(如JAX与Pathways系统)三者交汇,最终使AI规模化应用成为现实。展望未来,他们指出AI规模化面临三道门槛:物理层面的能效极限、架构层面的长上下文记忆,以及认知层面的联想式创造力。
线索
本次对话揭示了AI产业发展的深层逻辑,其中蕴含着关键的投资机会与风险。机会方面:1)硬件多元化趋势:对话明确提及GPU、TPU、Trainium等多种技术路线并存,表明AI算力市场正从单一垄断走向多元化,为新兴的ASIC芯片设计和制造商创造了市场空间。2)垂直整合的护城河:谷歌从算法、模型到硬件(TPU)、软件栈的垂直整合展现了强大的成本和性能优势,这预示着能够掌控全产业链的巨头将拥有更深的护城河,而相关领域的上游供应商(如芯片设计、材料公司)也将受益。3)下一代技术瓶颈的解决方案:能效、长记忆和联想创造力被定义为未来的核心挑战,这意味着在新型低功耗计算架构、高带宽内存(HBM)技术以及旨在提升模型认知能力的算法研究上投入的公司,可能掌握下一波AI浪潮的先机。风险方面:1)极高的资本壁垒:AI模型的训练和部署成本呈指数级增长,使得基础模型领域成为巨头们的游戏,新进入者机会渺茫,行业集中度可能进一步提高。2)能源瓶颈:能效问题不仅是技术挑战,更是物理限制。若无法取得突破性进展,AI产业的持续扩张将受制于电力供应和运营成本,这可能延缓整个行业的发展速度。
正文
2025年12月初,在圣地亚哥举行的NeurIPS大会上,Geoffrey Hinton与Jeff Dean举行了一场炉边对谈。
对话的核心议题是:现代人工智能(AI)为何能从实验室走向服务数十亿用户的实际应用。他们给出的结论是,现代AI的成功并非单一奇迹,而是算法、硬件和工程系统同时成熟后的系统性涌现。强大的算法必须与强大的基础设施结合,才能实现真正的规模化。
第一阶段:硬件突破实现可能性
Geoffrey Hinton将现代AI的转折点追溯到2012年的ImageNet比赛。当时,他的学生Alex Krizhevsky在他卧室的两块NVIDIA GPU上训练了AlexNet模型。该深度神经网络采用远超对手的参数量和算力,其准确率显著领先。这次胜利证明,没有足够的算力,再精巧的算法结构也无法实现。
Jeff Dean回忆得更早,1990年他在做本科论文时,就已尝试在一台32处理器的超立方体计算机上,使用并行算法训练神经网络,探索了如今的数据并行和模型并行概念。但此次尝试因模型规模(仅10个神经元)与算力不匹配而失败。这次经历为他后来设计TPU时注重算力与模型规模的匹配提供了教训。
到2013年,AI发展面临新的算力挑战。Jeff Dean通过计算预估,若全球有1亿用户每天使用语音助手3分钟,现有模型将使谷歌的服务器总量翻倍。这一物理成本促使他直接向谷歌CFO提议启动自研硬件项目。TPU项目由此诞生。
2015年,谷歌发布第一代TPU,专注于推理任务,其能效比同期CPU/GPU高出30-80倍。2017年的TPU v2开始支持大规模模型训练。经过十年发展,TPU已演进至第七代。Pathways系统可以实现单个Python进程对跨数据中心数万颗TPU芯片的统一调度。
与此同时,NVIDIA的GPU路线也在持续演进,从最初的两块GPU板卡,到2023年的H100、2024年的H200以及2025年开始交付的B200,持续支撑着包括OpenAI和Meta在内的大规模训练需求。当前AI基础设施呈现多元化趋势,例如Anthropic在AWS的Trainium芯片和Google TPU之间分配训练任务。
第二阶段:系统成熟推动交汇
现代AI的大规模应用,是三条技术曲线在2017至2023年间密集交汇的结果。
1. 算法架构的可扩展性:从AlexNet的卷积神经网络(CNN)到Transformer,核心变化在于可扩展性。CNN的参数量与层数线性相关,难以扩大;循环神经网络(RNN)必须顺序处理,限制了计算速度。Transformer架构通过将顺序处理变为并行处理,充分利用了GPU/TPU的并行计算能力。Jeff Dean指出,在同等准确率下,Transformer的计算量可比LSTM少10-100倍,这使得大规模训练在工程上变得可行。Geoffrey Hinton起初因Transformer“保存所有状态”的设计不像大脑而不看好,但他后来认识到,正是这种设计让Scaling law(规模法则)得以成立。
2. 组织方式的集中化:在2022年ChatGPT发布前,谷歌内部已有一个可供8万员工使用的聊天机器人,但因受限于搜索业务的思维,过分纠结准确性和幻觉问题而未推向市场。更关键的原因是,当时谷歌的Brain、Research和DeepMind三个团队各自为战,算力资源分散。ChatGPT上线后,Jeff Dean撰写备忘录,指出本有技术能力却未能整合资源。此后,谷歌将算力、模型和人才集中起来,成立了Gemini团队。
3. 工程工具栈的闭环:AI的落地依赖一整套基础设施。JAX框架让研究员能用数学语言编写代码;Pathways系统简化了大规模分布式计算;蒸馏技术则将千亿参数模型压缩至可在手机端运行。这些工具降低了AI的研发和部署门槛,形成了一个闭环:Transformer让模型规模化成为可能,进而催生了对更大算力和更好工具的需求;而更好的工具又反过来提升了训练更大模型的效率。
第三阶段:未来面临的三道门槛
在模型规模化之后,未来发展仍面临三道门槛。
1. 能效的物理极限:AI模型越来越大,训练成本和能耗随之剧增。例如,Gemini模型的训练动用了上万颗TPU芯片。尽管谷歌已通过自研硬件优化能效,但要让AI真正普及,必须在训练和部署方式上寻求革新。谷歌已在常用模型的推理中采用FP4等超低精度格式以节约成本。Jeff Dean认为,下一代推理硬件需要在能效上再提升一个数量级。
2. 上下文的深度限制:当前最强模型的上下文窗口也仅能处理数百万个token。Jeff Dean认为,模型的理解力受限于单次能处理的信息量。Geoffrey Hinton也指出,现有模型还不能像人一样进行长期记忆。要使AI在科学研究等复杂领域发挥作用,需要能一次性处理整本教科书或整年财报等海量信息。实现数十亿甚至万亿token的上下文窗口,不仅需要算法优化,也需要重新设计芯片的注意力计算架构。
3. 从模仿到联想的创造:Geoffrey Hinton最关注AI的联想能力,即把看似无关的事物联系起来的能力。他认为,大模型在训练中将海量知识压缩进有限空间的过程,会迫使其发现人类未意识到的跨领域类比。例如,模型可能发现希腊文学与量子力学之间的共同结构。Hinton认为,这种建立遥远联系的行为本身就是创造。Jeff Dean对此表示认同,并指出让AI在科学研究中发现跨领域联系,将是AI下一阶段的关键应用。
这三道门槛相互关联:能效不突破,长上下文模型就难以训练;长上下文无法实现,深度联想就缺乏基础;而若不具备联想能力,AI将仅仅是更高效的搜索引擎。这些突破需要长周期的技术积累,依赖于对基础研究的持续投入。
发布时间
2025-12-19T08:41:19+00:00



评论 ( 0 )