数据:
全球新增最高AI推理速度,每秒1000个token,Blackwell与Llama 4 Maverick模型所创记录。
线索:
英伟达的快速推理能力为AI生成应用提供了新的技术标准,可能会引发新一轮需求激增,尤其是在金融决策、自动化以及实时交互领域。然而,存在高昂的硬件投资和更新换代速度带来的风险。
正文:
英伟达再次突破技术极限,利用Blackwell架构在Llama 4 Maverick模型上创下了AI推理速度的新纪录:单用户每秒生成1000个token。这一成绩是通过一个配备8颗Blackwell GPU的DGX B200服务器实现的。此外,另一台配备72颗Blackwell GPU的服务器,其整体吞吐量达到了72,000 TPS。这项速度记录由AI基准测试服务Artificial Analysis独立测量。
英伟达的此项突破得益于一系列精心设计的技术优化,包括使用TensorRT-LLM优化框架和EAGLE-3架构,并在多项计算中应用FP8数据格式以提高运行效率。此外,CUDA内核优化技术,包括空间分区、GEMM权重重排、Attention内核并行优化等,都大幅提升了Blackwell的性能,带来了直接的四倍加速。
在兼顾准确度的同时,这种技术的改进也大大降低了延迟,确保了在多用户同时请求下的良好体验。在一些需要快速决策的关键场景中,比如金融或医药等领域,响应速度变得尤为重要。
针对GEMM、MoE和Attention运算的FP8数据类型应用使得模型更小,同时充分利用了Blackwell Tensor Core技术的高FP8吞吐量优势。这一系列优化措施确保了在响应严苛需求下,即便是大规模的AI模型,也能保持高效的处理速度和响应能力。
此外,英伟达还采用了推测解码技术,通过较小且快速的草稿模型来预测token序列,而后通过较大的目标模型进行验证,从而在保持生成质量的同时加速推理速度。整体而言,这一技术进步直接回应了对低延迟的迫切需求,并为AI交互应用开辟了新前景。
发布时间:
2025-05-23 19:55:52
评论 ( 0 )