英伟达打破AI推理速度记录，推出Llama 4 Maverick模型

2025-05-25

数据：

全球新增最高AI推理速度，每秒1000个token，Blackwell与Llama 4 Maverick模型所创记录。

线索：

英伟达的快速推理能力为AI生成应用提供了新的技术标准，可能会引发新一轮需求激增，尤其是在金融决策、自动化以及实时交互领域。然而，存在高昂的硬件投资和更新换代速度带来的风险。

正文：

英伟达再次突破技术极限，利用Blackwell架构在Llama 4 Maverick模型上创下了AI推理速度的新纪录：单用户每秒生成1000个token。这一成绩是通过一个配备8颗Blackwell GPU的DGX B200服务器实现的。此外，另一台配备72颗Blackwell GPU的服务器，其整体吞吐量达到了72,000 TPS。这项速度记录由AI基准测试服务Artificial Analysis独立测量。

英伟达的此项突破得益于一系列精心设计的技术优化，包括使用TensorRT-LLM优化框架和EAGLE-3架构，并在多项计算中应用FP8数据格式以提高运行效率。此外，CUDA内核优化技术，包括空间分区、GEMM权重重排、Attention内核并行优化等，都大幅提升了Blackwell的性能，带来了直接的四倍加速。

在兼顾准确度的同时，这种技术的改进也大大降低了延迟，确保了在多用户同时请求下的良好体验。在一些需要快速决策的关键场景中，比如金融或医药等领域，响应速度变得尤为重要。

针对GEMM、MoE和Attention运算的FP8数据类型应用使得模型更小，同时充分利用了Blackwell Tensor Core技术的高FP8吞吐量优势。这一系列优化措施确保了在响应严苛需求下，即便是大规模的AI模型，也能保持高效的处理速度和响应能力。

此外，英伟达还采用了推测解码技术，通过较小且快速的草稿模型来预测token序列，而后通过较大的目标模型进行验证，从而在保持生成质量的同时加速推理速度。整体而言，这一技术进步直接回应了对低延迟的迫切需求，并为AI交互应用开辟了新前景。

发布时间：

2025-05-23 19:55:52

英伟达打破AI推理速度记录，推出Llama 4 Maverick模型

相关推荐

评论 ( 0 )

取消回复

英伟达打破AI推理速度记录，推出Llama 4 Maverick模型

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站