ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

DeepSeek开源FlashMLA库提升AI模型计算效率

2025-02-27

数据:

DeepSeek于2025年2月24日开源了名为FlashMLA的代码库,该代码库旨在优化Hopper GPU的MLA解码内核,专注于处理可变长度序列。此外,DeepSeek还计划在接下来的工作日中陆续开源四个相关的代码库。FlashMLA突破了GPU算力瓶颈,支持BF16和分页KV缓存,并在H800 GPU上实现了3000GB/s内存带宽和580TFLOPS的计算能力。这将大幅提升AI任务的处理效率。

线索:

DeepSeek的开源活动可能会为GPU制造商(如英伟达)带来一定的市场风险,尤其是当其技术提升可能影响到传统的硬件销售。此外,DeepSeek开源的举措可能加速AI技术的普及,带动开源项目的发展与合作,进而增加对高性能GPU的需求。这也意味着相关领域的投资者需要关注技术进步与行业应用之间的关系,以便把握潜在的市场机会。

正文:

DeepSeek在2025年2月24日正式开源了首个代码库FlashMLA,这是针对Hopper GPU进行优化的高效多头潜在注意力(MLA)解码内核,旨在处理可变长度序列。此项技术现已投入生产,并将成为DeepSeek“开源周”系列活动的第一弹,接下来的四个工作日将继续开源更多相关代码库。业内人士预计,这些代码库可能涉及AI算法优化、模型轻量化和应用场景拓展等关键领域。

FlashMLA的主要特点包括对BF16的支持,从而提高数值计算能力并优化存储带宽使用率。此外,其分页KV缓存机制提高了长序列推理的显存利用效率,优化了计算性能。在H800 GPU上,FlashMLA实现了3000GB/s的内存带宽和580TFLOPS的计算能力。传统的解码方法在处理不同长度序列时,会浪费 GPU 的并行计算能力,而FlashMLA通过动态调度和内存优化,提高了相同硬件下的吞吐量。

DeepSeek所提出的低秩注意力架构MLA,帮助其在大模型训练中显著降低成本,同时保持计算和推理性能。通过压缩模型注意力机制的矩阵,DeepSeek显著减少了计算和存储成本,使得其模型的显存占用降低到其他大模型的5%-13%。这种创新模型被认为能够更有效地突破GPU算力瓶颈,为高性能AI任务提供更快的处理能力。

DeepSeek秉持开放的开源理念,计划持续与全球开发者分享最新的研究成果,推动行业发展。其开源政策不仅限于模型权重,还着眼于在人工智能领域的更广泛应用,进一步降低模型使用和部署的成本,促进市场需求的扩展。

随着DeepSeek的持续开源,业内普遍认为其为开源模型的发展树立了榜样,同时其技术创新也可能会以更高效的方式促进整体AI行业的进步。

发布时间:

2025-02-24 20:22:50

相关推荐

评论 ( 0 )

2.5 W

文章

22.3 W

点赞

回顶部