摘要
谷歌正与Meta合作推进代号为“TorchTPU”的项目,旨在提升其自研AI芯片TPU对全球主流AI框架PyTorch的兼容性。此举的核心目标是挑战英伟达在AI芯片领域的主导地位,通过消除软件生态障碍,显著降低企业客户从英伟达GPU迁移至TPU的技术成本和切换难度。谷歌TPU此前主要围绕其内部框架Jax进行优化,与广大开发者使用的PyTorch存在兼容鸿沟,而此次合作将投入更多战略资源,并可能部分开源,以加速市场采纳。
线索
此合作标志着谷歌正式向英伟达的核心护城河——CUDA软件生态发起挑战。若TorchTPU项目成功,谷歌不仅能开辟新的收入增长点,使其TPU成为云业务的关键引擎,更能打破英伟达在AI算力市场的垄断格局,为寻求供应链多元化的企业客户提供关键替代方案,从而重塑市场竞争态势。对英伟达而言,这构成实质性威胁,可能削弱其定价能力和市场份额。然而,项目成功与否取决于谷歌能否在性能、易用性和成本上真正媲美甚至超越英伟达的成熟方案,以及能否有效克服开发者生态的惯性,这中间存在显著的执行风险和时间窗口不确定性。
正文
谷歌正在推进一项内部代号为“TorchTPU”的计划,旨在使其自研的人工智能芯片——张量处理单元(TPU)——在运行全球使用最广泛的AI软件框架PyTorch时表现更佳。该计划的目标是让TPU成为英伟达图形处理器(GPU)的可运行替代方案。
目前,TPU的普及面临软件层面的障碍。PyTorch是一个由Meta深度支持的开源项目,是AI模型开发者最常用的工具之一。开发者依赖这类由代码库和框架组成的工具来自动化AI软件开发中的许多常见任务。PyTorch自2016年发布以来,其发展与英伟达的CUDA软件平台紧密相连,后者被部分分析师视为英伟达最强的护城河。英伟达工程师已投入多年时间,确保基于PyTorch的软件能在其GPU上高效运行。
相比之下,谷歌内部的开发者团队长期采用另一套名为Jax的代码框架,其TPU芯片通过名为XLA的工具来高效执行代码。谷歌自身的AI软件栈和性能优化大多围绕Jax构建,这导致其芯片的使用方式与客户需求之间存在差异。企业客户反映,采用TPU的难度较高,因为这通常要求开发者从已广泛使用的PyTorch切换到谷歌内部偏好的Jax框架。
为解决此问题,谷歌为TorchTPU项目投入了更多的组织资源和战略重视度。该计划旨在消除阻碍TPU普及的关键障碍,让已基于PyTorch构建技术基础设施的客户能够获得完全兼容且对开发者友好的体验。谷歌还在考虑将部分软件开源,以加快客户的采用速度。如果项目成功,将有望显著降低企业从英伟达GPU转向TPU的切换成本。
为加快开发进度,谷歌正与PyTorch的创建者和主要维护方Meta展开紧密合作。两家公司还在讨论相关交易,内容包括让Meta获得更多TPU资源。Meta在战略上有动力参与此合作,以降低其模型推理成本,并让自身AI基础设施逐步摆脱对英伟达GPU的依赖,从而增强在供应链谈判中的话语权。
谷歌云发言人表示,此举将为客户提供更多选择,并强调市场对TPU与GPU基础设施的需求正在激增。
长期以来,谷歌将其绝大部分TPU产能预留作内部使用。这一局面在2022年被打破,当时谷歌云计算部门获得了TPU销售业务的主导权,提升了对外销售的配额。今年以来,谷歌已开始直接向客户的数据中心销售TPU,而不再局限于其云平台。本月,谷歌高管阿明·瓦赫达特被任命为人工智能基础设施业务负责人,直接向首席执行官桑达尔·皮查伊汇报。谷歌需要这套基础设施来支持其自身的AI产品(如Gemini聊天机器人),并为谷歌云的客户(如Anthropic)提供算力支持。
发布时间
2025-12-17 23:09:27



评论 ( 0 )