AMD MI300X在DeepSeek-R1展示卓越性能

2025-04-20

数据：

AMD在MI300X上运行FP8满血R1性能全面超越了英伟达H200，吞吐量最高可达H200的5倍，相同并发下比H200高出75%；MI300X节点可以处理128个并发请求，延迟降低60%。

线索：

AMD的MI300X在性能上的突破可能会给市场带来更强的竞争动力，尤其是针对AI训练和推理的技术，AMD的新AI内核库AITER和SGLang框架的结合能够显著提高计算效率。然而，NVIDIA的CUDA生态系统将面临挑战，AMD能否抓住这一机会进一步扩大市场份额，将取决于其能否持续推动技术创新和软件优化。同时，投资者需要注意AMD与NVIDIA之间的竞争可能带来的市场波动风险。

正文：

最近的消息显示，AMD的MI300X在运行FP8满血R1时，性能全面超越了英伟达H200。在相同延迟的情况下，MI300X的吞吐量最高可达H200的五倍，并且在相同并发下吞吐量比H200高出75%。如果设定Token间延迟不超过50毫秒，一个H200节点能够处理16个并发请求，而MI300X则可以处理多达128个并发请求。

AMD此次成绩的取得，部分归因于其新优化的AI内核库AITER，这一库专门用于加速GPU训练和推理。AMD副总裁Emad Barsoum表示，AITER是实现卓越性能的关键所在。同时，SGLang框架也是WI300X卓越表现的重要因素，这是一个开源的大模型推理框架，得到了广泛的认可与使用。

AMD的测试还显示，MI300X在延迟相似的条件下，吞吐量超过每秒7000个Token。与此相比，前期使用SGLang的相关测试显示性能提升达4倍，吞吐量也达到每秒5921个Token。此外，第三方测试也证明，MI300X在速度和延迟方面超越了H100。

在技术层面，SGLang框架和AMD的AI张量引擎AITER的结合，使得MI300X能够快速执行各种计算任务。AITER的架构基础上包括多个底层技术，可以大幅提升不同计算任务的性能，例如GEMM的性能提升可达2倍，MoE性能提升3倍等。

AMD还通过调整超参数，在运行高并发的情况下优化了性能，尽管这伴随着更高的内存占用，但考虑到MI300X在内存方面的优势，此次调整是一个有效的解决方案。

综上所述，AMD在AI计算领域的技术突破可能引发新的市场趋势，同时也带来投资机会与风险。

发布时间：

2025-03-25 11:58:42

AMD MI300X在DeepSeek-R1展示卓越性能

相关推荐

评论 ( 0 )

取消回复

AMD MI300X在DeepSeek-R1展示卓越性能

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站