ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

清华团队推出KTransformers提升深度学习推理效率

2025-02-13

数据:

DeepSeek-R1开源项目,支持24GB显存本地运行,推理生成速度可达14 tokens/s。

线索:

DeepSeek-R1的开源项目在本地部署为许多开发者提供了新的可能性,尤其对于预算有限的中小团队。这种技术进步可能会带来广泛的投资机会,尤其在AI和机器学习领域的创业公司。同时,这也带来了对显存和计算资源新需求的潜在风险,可能导致硬件市场和云服务费用的波动。

正文:

DeepSeek-R1在国内外引起了广泛关注,但由于推理服务器频繁宕机和高昂的按GPU小时计费的成本,中小团队面临着很大挑战。此外,市场上现有的本地部署解决方案多为参数量减少90%的蒸馏版,无法满足需要671B参数的MoE架构对显存的高要求,即便使用8卡A100显卡也难以承载。因此,在本地小规模硬件上运行真正的DeepSeek-R1被认为几乎不可能。

但最近,清华大学KVCache.AI团队与趋境科技联合发布的KTransformers开源项目更新了这一点,支持在仅有24GB显存的计算机上运行DeepSeek-R1和V3的671B完整版。该项目的预处理速度可达到286 tokens/s,推理生成速度最高可达14 tokens/s。

在DeepSeek-V2时代,该项目就因“专家卸载”技术受到关注,它能够使236B的大模型在24GB显存的消费级显卡上流畅运行,显存需求降至十分快。此外,KTransformers团队还公布了v0.3预览版的性能指标,整合Intel AMX指令集后,CPU预填充速度最高可达286 tokens/s,相比现有的llama.cpp快近28倍,这对于处理大规模代码库等长序列任务来说,可以从“分钟级等待”缩短到“秒级响应”。

KTransformers还提供了HuggingFace Transformers兼容的API和类似ChatGPT的Web界面,降低了上手难度。同时,基于YAML的“模板注入框架”允许灵活配置量化策略和内核替换等多种优化。

KTransformers项目的技术背后采用了MoE(混合专家)架构,将模型中的任务分配给不同的专家模块,使模型具有很强的稀疏性,从而在推理任务时只激活部分模型参数。尽管需要大量存储空间,但计算资源需求相对较低。团队采用GPU/CPU的异构计算划分策略,将非共享的稀疏MoE矩阵存放在CPU/DRAM上,而稠密部分则在GPU上处理。由于采用4bit量化,模型的显存需求缩减至24GB,只需用一张4090显卡满足。

团队在多项功能的实现中,通过计算强度的offload策略、高性能CPU和GPU算子、CUDA Graph加速等方式优化推理速度。新的MLA运算符能充分释放显卡算力,通过直接将矩阵吸收到权重中,减少了KV缓存的大小,从而显著提升了GPU的计算能力利用。

KTransformers框架旨在平衡推理性能和可扩展性,提供Windows和Linux平台的支持,方便研究人员进行各种测试。随着大模型的不断发展,KTransformers以异构计算的方式开启了新的推理路径,使科研工作者无需巨额预算也能探索模型的本质。

发布时间:

2025-02-12 18:30:58

相关推荐

评论 ( 0 )

2.4 W

文章

15.5 W

点赞

回顶部