ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

DeepSeek发布高效FP8矩阵乘法库DeepGEMM

2025-02-28

数据:

DeepGEMM是一个支持密集和MoE GEMM的FP8 GEMM库,性能最高可达1350+ FP8 TFLOPS,核心逻辑约为300行,支持密集和两种MoE布局,普通GEMM可提速多达2.7倍。

线索:

DeepGEMM的发布可能会推动FP8计算能力的提升,推动相关硬件的销售。投资者需关注英伟达等相关公司的股票表现。与此同时,开发社区的参与可能为该公司带来新的合作机会,但也需要注意对非专利技术的依赖可能影响产品竞争力。

正文:

DeepSeek最近发布了DeepGEMM,这是一个专为高效的FP8通用矩阵乘法设计的库。它支持密集和混合专家(MoE)分组GEMM,为V3/R1训练和推理提供动力。该库在Hopper GPU上性能达到1350+ FP8 TFLOPS,具有无过多依赖、清晰易用的特点。

DeepGEMM的设计非常简洁,核心逻辑仅有约300行代码。在普通GEMM中,该库可以将矩阵运算速度提升多达2.7倍,而在分组GEMM下,速度提升可达到1.1倍至1.2倍。虽然该库目前仅支持英伟达的Hopper Tensor Core,但它设计轻量,使其在多种矩阵形状上性能与专业调优库相当。

DeepSeek在DeepGEMM项目上欢迎开发者提出优化建议,并且提供了详细的使用指南,要求用户有一定的CUDA和PyTorch环境支持。该库支持即时编译,用户在安装时无需预编译,为用户提供了更为便利的使用体验。

此外,DeepGEMM还利用了Hopper架构的张量内存加速器(TMA),实现更快的数据移动,并对常见的性能细节进行了优化。尽管在某些形状上的表现可能不尽如人意,但总体来看,该库仍具备优秀的性能潜力。

DeepSeek希望通过此库进一步推动FP8在机器学习领域中的应用,并期待社区的积极反馈与优化建议。

发布时间: 2025-02-26 11:44:26

相关推荐

评论 ( 0 )

3.2 W

文章

57.4 W

点赞

回顶部