ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

DeepSeek发布NSA机制优化AI训练推理速度

2025-02-20

数据:

DeepSeek推出的NSA机制能够实现最高11.6倍的速度提升,并在性能上超越传统的全注意力模型,同时降低预训练成本。

线索:

DeepSeek的NSA机制代表了一项重要技术进展,可能对长上下文任务的处理效率和效果带来革命性变化。由于其硬件优化和稀疏注意力机制,投资者可以关注相关概念股的表现及技术应用带来的新机会;同时,由于人工智能行业竞争加剧,相关技术对市场格局的改变也可能带来风险。

正文:

DeepSeek近日宣布推出了一种新型稀疏注意力机制——NSA(原生稀疏注意力),旨在实现超速度的长上下文训练和推理。这种机制经过针对现代硬件的优化设计,能够显著加快推理速度和降低预训练成本,同时保持性能不变。NSA在多个基准测试和长上下文任务中表现优越,甚至在某些情况下超越了传统的完全注意力模型。

此外,DeepSeek在社交平台发布的技术论文中提到,NSA的引入不仅可以提升大语言模型处理64k长文本的速度,还在多个阶段如解码、前向传播和反向传播显著提高效率,最高可达11.6倍。这标志着DeepSeek在稀疏注意力领域的创新,结合了算法和硬件的双重优化,以解决长文本处理中的计算瓶颈。

与DeepSeek相比,其他公司例如xAI则选择了通过大规模购置GPU来追求工程规模,然而这种“大力出奇迹”的方式并未能在效率与成本之间实现理想的平衡。DeepSeek的NSA则可能为进一步的技术发展和市场应用开辟新的道路,同时也为投资者提供了潜在的机会与风险考量。

发布时间:

2025-02-18 17:22:04

相关推荐

评论 ( 0 )

2.4 W

文章

15.5 W

点赞

回顶部