ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

全球AI支出将超5万亿,企业联合打破算力生态壁垒

2025-12-22

摘要

人工智能发展面临“性能墙”与“生态墙”的双重挑战,算力供给不足与生态碎片化问题凸显。业内共识认为,构建“超集群”与推动“开放协同”是破局关键。IDC预测,未来5年全球AI技术支出将超5万亿美元。在此背景下,中科曙光发布了scaleX万卡超集群以应对大规模算力需求,海光信息则推出开放互联总线协议(HSL)以打破生态壁垒,并与30余家企业共同成立“AI计算开放架构联合实验室”,旨在通过协同研发推动产业标准化,降低应用成本,支撑AI产业持续发展。

线索

当前AI算力领域的核心矛盾在于:对极致算力的渴求与碎片化、高成本的产业生态之间的冲突。这揭示了以下投资机会与风险:

1. 机会:基础设施与标准的定义者。解决算力瓶颈需要系统级创新,而非单点突破。中科曙光发布的“超集群”和海光信息推动的“开放互联总线协议(HSL)”,本质上都是在争夺下一代AI基础设施的定义权和生态主导权。谁能建立起被广泛接受的开放标准,谁就能锁定产业链上下游,获得长期价值。未来三年投入10亿元的联合实验室,是这一趋势的强力佐证,相关技术供应商和生态参与者将受益。

2. 机会:开放生态的价值凸显。文章反复强调“开放”是破局关键,这直接指向降低用户迁移成本和应用开发复杂性的商业模式。能够提供兼容多品牌硬件、统一软件栈的企业将获得中小企业市场青睐。海光信息联合6000多家合作伙伴的策略,旨在通过开源开放聚合生态,这种平台型公司具有巨大的成长潜力。

3. 风险:技术路径的不确定性与高昂成本。超集群的高度定制化与未来升级灵活性之间存在“鱼与熊掌不可兼得”的矛盾,这可能导致用户被锁定,一旦技术路线迭代,前期投资面临贬值风险。同时,研发和制造超集群、建立新标准的成本极高(今年中国AI相关投资已达800亿美金),对于规模有限的30多家国内算力芯片企业而言,这是一场残酷的淘汰赛,投资需警惕技术失败或市场未采纳的风险。

正文

当前,人工智能已从辅助工具转变为核心生产要素,科学大模型、世界模型、具身智能等前沿方向的迅猛发展,对底层算力的规模与性能提出了前所未有的要求。然而,算力发展面临“性能墙”与“生态墙”的双重制约:高端算力供给不足、软硬件适配不畅、技术标准不一、应用成本高昂,这些已成为中小企业发展的显著壁垒。在此背景下,“开放”已从可选项转变为产业突破瓶颈、实现可持续发展的行业共识。

在首届光合组织人工智能创新大会(HAIC2025)上,与会方探讨了建设开放、高效、安全、稳定的智能计算基础设施,以及构建开放、共享、分工、协作的产业格局的必要性。

超集群破解算力不足、生态碎片化难题

IDC预计,全球在人工智能技术上的支出未来5年累计将超过5万亿美元,并将在未来五年内带动约22.3万亿美元的全球累计经济影响。到2030年,AI将为中国经济累计影响超过4万亿美元,中国未来5年在人工智能技术上的支出总额将达到5000亿美元。

IDC中国区副总裁兼首席分析师武连峰分析,为满足万亿规模模型训练推理及海量用户需求,传统计算节点已无法适配,需通过超高速总线将多个GPU整合为高密度计算单元。开放生态则可避免用户被单一厂商锁定,适配不同GPU、CPU的发展。

算力市场目前面临集群规模持续增大、性能与效率瓶颈凸显、生态壁垒问题突出、综合运行保障能力不足等多重挑战。武连峰认为,AI超集群是核心解决方案。与传统集群相比,AI超集群实现了多项跨越:一是在单节点内实现高密度算力集成,规模可达百P级;二是通过多超节点连接实现优异扩展性,并依托高可靠性设计保障系统容错能力;三是采用更高效的数据中心整体设计以及液冷技术,在适配多元需求的同时降低PUE(电能利用效率)。

中科曙光高级副总裁李斌表示,自2022年AI大模型出现以来,模型参数的快速增长推动了人工智能综合能力的提升,也倒逼算力基础设施加速升级。当前全球领先AI超级计算机的性能增速,已超越传统超算发展的黄金时期。同时,大模型技术迭代也对计算装备在内存容量与带宽、互联带宽与延迟、系统能耗与效率、稳定性及应用生态兼容性等维度提出了挑战。

面对行业挑战,中科曙光明确了两个发展方向:一是通过系统工程创新弥补单点技术的相对落后;二是以开放架构促进软硬件协同。基于此,中科曙光提出AI计算开放架构理念,以GPU算力芯片为核心进行紧耦合系统设计,优化数据通路以实现存算传高效协同,并整合冷却、供电、管理等环节提升效能。

中科曙光在此次大会上发布了scaleX万卡超集群。该集群面向万亿参数大模型与前沿科学智能等场景设计,由16个scaleX640超节点通过全栈自主研发的原生RDMA高速网络互连而成,其硬件支持多品牌AI加速卡,软件兼容主流计算生态。

李斌表示,该万卡超集群的算力较传统算力集群提升显著。首先,通过提供更充沛的算力供给,可解决传统集群算力不足导致的产业周期变长问题,在气象数据模拟、新药研发等领域已有应用。其次,通过算力、数据、模型一体化管控及智能调度,科研人员可以聚焦核心任务,无需关注底层运维细节。在行业赋能层面,该超集群将为银行的结算时效提升、数据安全保障以及新能源汽车仿真模拟等领域的数字化转型提供支撑。

针对大规模超算集群因高度定制化可能牺牲升级灵活性的问题,李斌指出,当前超节点系统为适配苛刻算力需求,多采用高度定制化的耦合设计,确实存在升级灵活度不足的问题。为此,曙光正通过推动“AI计算开放架构”来寻求平衡。该架构旨在实现从芯片到系统的垂直整合与协同优化,并通过成立“联合实验室”及下设芯片互连、底层软件栈、冷却技术等技术工作组,联合产业链伙伴共同制定开放标准,使硬件架构能兼容不同计算芯片,缓解生态碎片化。

互联总线开放提速 国产算力迈向生态协同

面对大模型和智能体应用快速普及带来的算力与系统复杂性提升,开放计算已成为破解生态碎片化和应用迁移成本高企的关键路径。海光信息总裁沙超群表示,当前AI芯片正向异构融合演进,CPU与加速器协同能力成为制约系统性能释放的重要因素。通过软硬件协同优化和生态共建,开放计算有望加速AI能力向行业场景渗透。

沙超群分析了AI领域呈现的三大特征:其一,基座大模型竞争白热化,参数规模向万亿乃至十万亿级突破;其二,行业应用迈入深水区,垂类大模型数量超数千个,专注解决实际问题的行业智能体相关企业达5000多家;其三,原生应用普及度大幅提升,日活用户逼近3亿,日均Token消耗量已达50万亿。

作为AI产业发展的核心支撑,算力芯片与AI产业相辅相成。在万亿级乃至十万亿级大模型预训练及海量并发推理需求的推动下,算力芯片形态不断演进。

沙超群认为,NVLink已成为主流模型架构,对通讯效率和性能提出更高要求。算力芯片已从单一GPU向CPU+GPU异构协同转变,再到互联技术、超节点、超集群技术的迭代,这不仅是一场规模的扩张,更是一场对通信、存储、供电等极致效率的体系化竞赛。

沙超群分析称,我国AI算力产业具备多重优势:国际影响力开源基础模型不断涌现、应用场景丰富,且AI基础投资规模持续扩大,今年中国相关投资达800亿美金。与此同时,AI算力行业也面临严峻挑战:国内30多家算力芯片企业单体规模有限,多数不具备系统能力;产业生态孤立、技术壁垒林立、生态碎片化问题突出,整机厂商、最终用户及开发者需适配多套技术路线,且与国际主流生态存在兼容性难题。

针对上述困境,沙超群表示,AI算力发展需要更加紧耦合的系统,也需要开放、统一的互联协议,构建开放、协同、开源、共赢的产业新生态是破局关键。海光信息秉承CPU+DCU(数据计算单元)双芯战略:一方面加强自主迭代,实现每年一代芯片、性能翻一番,同时通过CPU、DCU及互联协同设计高效超节点;另一方面通过开源开放协同6000多家合作伙伴,打造系统化能力,聚合国内GPU产业生态。

海光信息已于今年三季度正式宣布开放互联总线协议(HSL)。该协议的核心内容包括开放完整的总线协议、提供IP参考设计、开放指令集等。海光系统互联总线工作组负责人介绍,海光信息将于2026年一季度发布HSL IP参考设计以及HSL硬件系统参考设计,支持海光系统互联总线的系统将于2027年实现量产。

此外,在本届HAIC2025上,由浪潮信息、中兴、联想开天等30余家头部科技企业联合发起的“AI计算开放架构联合实验室”首批项目组协同创新计划启动。该联合实验室将围绕系统高速互联总线、统一基础软件栈、AI服务器设计规范等行业共性需求开展协同研发,以解决国产智算服务器“适配难”、缺少统一类CUDA基础软件栈、异构算力间兼容性不足等问题。实验室相关技术成果将遵循开放协议。这一产学研协同平台预计未来三年总投入将达10亿元,建成涵盖设计、仿真、验证及测试的完整研发环境,开展30余个联合研发项目。

发布时间

2025-12-19 16:12:13

相关推荐

评论 ( 0 )

3.4 W

文章

63.0 W

点赞

回顶部