ReadCai财经资讯
当前位置:首页 » 13. 科技 » 芯片制造

英伟达收购Groq引发SRAM与HBM在推理训练并存讨论

2026-01-14

摘要:本文探讨了在AI推理时代,SRAM(静态随机存取存储器)与HBM(高带宽存储器)的技术特性与市场定位。核心观点认为,SRAM凭借其纳秒级的极低访问延迟(1ns vs. HBM的约100ns)和确定性性能,在需要实时响应的推理场景(如自动驾驶、工业控制)中优势显著,例如Groq的LPU芯片可实现80TB/s的片上带宽,并在特定基准测试中性能提升超600倍。然而,SRAM成本高昂、占用芯片面积大,难以承载千亿参数的大模型。英伟达CEO黄仁勋指出,技术的关键在于灵活性,未来将是存储层级化的解决方案,而非单一技术替代,SRAM与HBM将在不同场景中并存。

线索

* 投资机会:关注在确定性低延迟推理领域布局的公司与技术,特别是在边缘计算、实时控制系统(如自动驾驶、金融交易、工业物联网)中采用SRAM或类似架构的专用芯片(ASIC)。同时,关注致力于存储层级优化异构计算平台的企业,这类方案旨在智能分配数据到SRAM、HBM乃至SSD等不同层级的存储器,以实现总拥有成本(TCO)最优。

* 潜在风险:押注单一存储技术路线存在风险。SRAM方案受限于物理尺寸和成本,难以单独支撑大规模模型,其商业成功依赖于特定应用场景的爆发。HBM虽仍是数据中心主流,但面临来自其他高带宽内存(如GDDR7)和架构创新的竞争。技术迭代迅速,需警惕技术路径的不确定性。

正文

一场关于SRAM是否会取代HBM的行业讨论正在展开。这源于AI计算从训练主导转向推理普及的趋势变化。

在计算机存储体系中,存在速度、容量与成本的权衡。SRAM是目前最快的存储介质之一,访问延迟在纳秒级别,只要通电数据即可稳定保存。它通常被集成在处理器核心旁,类似于一个“口袋”,存取极快但容量有限(通常为几百MB)。HBM则本质上是经过3D堆叠封装的DRAM(动态随机存取存储器),追求高带宽而非极致延迟。它像一个“仓库”,容量巨大(可达数十GB),带宽很高,但访问存在物理延迟(约数百纳秒)。

过去十年,AI以训练为核心。训练任务需要处理海量参数,对容量和带宽要求高,对延迟不敏感,这使HBM成为GPU的标配。然而,在AI推理阶段,尤其是需要即时交互的实时场景(如对话、控制),延迟成为关键指标。

传统GPU架构依赖HBM存储模型权重。在处理单次请求时,GPU需要频繁从HBM加载数据,其共享内存控制器可能成为瓶颈,导致线程竞争、延迟波动和性能不可预测。为了掩盖延迟,系统通常采用增大批处理规模的方式,但这在推理中会引入明显的响应延迟。

SRAM作为主存方案在推理中的合理性由此凸显。SRAM的访问延迟比HBM快一个数量级(1ns vs. ~100ns)。Groq公司的LPU(张量流处理器)即采用了这种设计,完全抛弃HBM,转而使用数百MB的片上SRAM来存放模型权重,实现了高达80TB/s的片上带宽。其架构将计算与内存访问解耦,支持高度的内存级并行,从而在单次请求处理中实现低延迟和高确定性。

确定性是SRAM的另一核心优势。在许多关键领域(如自动驾驶、核聚变控制、金融风控),可预测的、稳定的延迟比平均高性能更重要。例如,在阿贡国家实验室的托卡马克核聚变反应堆预测任务中,基于Groq确定性架构的系统在0.6毫秒内完成了19.3万次推理,性能表现据称比基于NVIDIA A100 GPU的方案高出600多倍。

然而,SRAM方案面临根本性限制:面积和成本。在先进制程下,SRAM单元的面积缩放速度远慢于逻辑晶体管,导致其在芯片上占据大量面积,成本高昂。若想让一个千亿参数的大模型完全运行在SRAM上,可能需要数百甚至上千颗芯片,其成本和功耗将难以承受。

对于SRAM与HBM的关系,英伟达CEO黄仁勋在CES 2026期间回应称,如果所有数据都能放入SRAM,确实不需要HBM,但这会导致模型规模缩小约100倍。他强调,灵活性才是关键。数据中心面临的是有限的电力资源,需要能够适应各种工作负载(如混合专家模型、多模态模型)的通用架构。能够灵活在NVLink、HBM和计算单元之间调配资源的架构,才能实现总拥有成本的最优解。英伟达收购Groq,旨在补强其在极致低延迟推理领域的能力,而非全面转向SRAM。同时,其CPX(计算与存储解耦/压缩)等技术也在探索减少对HBM的依赖。

结论是,“SRAM取代HBM”并非准确的命题。真正的趋势是AI推理的存储层级化。在追求极致延迟的边缘侧和特定推理场景,SRAM将通过专用芯片占据一席之地;而在承载海量模型参数的数据中心,HBM仍将是基石;此外,SSD/NAND等存储介质将负责模型分发与冷数据存储。未来,SRAM(极致速度与确定性)、HBM(高带宽与通用性)以及其他存储技术将根据其特性,在AI推理的生态中协同工作,共同寻求系统级的最佳效率与成本平衡。

发布时间:2026-01-12 14:07:06

相关推荐

评论 ( 0 )

3.7 W

文章

72.9 W

点赞

回顶部