ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

DeepSeek北大Engram条件记忆架构提升Transformer并降部署成本

2026-01-14

摘要:DeepSeek与北京大学合作发表了一篇新论文,提出了一种名为“Engram”的“条件记忆”模块,旨在解决Transformer架构缺乏原生知识查找机制的核心缺陷。该模块通过现代化的哈希N-gram嵌入技术,提供近似O(1)的确定性知识查找,将静态模式检索任务从动态计算中分离。研究发现,Engram与主流的混合专家模型(MoE)存在互补关系,两者在稀疏参数预算分配上呈现“U形扩展定律”,存在一个最优配比。在27B参数规模的实验中,集成Engram的模型在等参数、等计算量的条件下,全面优于纯MoE基线模型,不仅在知识任务(如MMLU、CMMLU)上有所提升,在推理(如BBH、ARC)、代码(如HumanEval)和数学(如GSM8K、MATH)任务上提升更为显著。论文指出,条件记忆可能成为下一代稀疏大模型的关键组成部分,并暗示其可能被集成到未来的模型架构中。

线索

* 投资机会

1. 架构创新与效率提升:Engram代表了一种新的稀疏化方向(条件记忆),与现有的条件计算(MoE)形成互补。这为AI模型在参数规模、计算效率和知识容量之间找到更优平衡提供了新路径,可能催生新一代高性能、高效率的基础模型。

2. 推理能力增强:实验表明,Engram通过卸载静态模式识别任务,释放了Transformer主干网络的“注意力”资源,使其更专注于复杂推理。这直接提升了模型在数学、代码和逻辑推理等核心能力上的表现,这些正是当前AI应用的高价值领域。

3. 长上下文处理优化:Engram有助于模型更好地处理长文本,因为释放的注意力容量可以更有效地管理全局上下文依赖。这对于需要处理长文档、复杂对话和多轮交互的应用场景(如法律、金融、客服)具有重要价值。

4. 系统工程优化潜力:Engram的确定性检索机制允许将庞大的参数表存储在CPU内存甚至更慢的存储介质中,并通过预取技术与GPU计算重叠,从而以极小的延迟代价支持远超GPU显存容量的模型参数。这为在有限硬件条件下部署超大模型提供了可行的工程方案。

* 潜在风险

1. 技术成熟度:该研究目前仍处于论文阶段,虽然实验结果积极,但其在大规模生产环境中的稳定性、泛化能力以及与传统训练/推理管道的整合仍需经过更广泛的实践验证。

2. 工程实现复杂度:虽然论文提出了系统优化方案,但实际实现大规模Engram模块的高效训练和推理,涉及复杂的内存管理、通信调度和缓存策略,对工程团队提出了很高要求。

3. 竞争与迭代速度:AI架构迭代迅速,Engram是众多探索方向之一。其他团队可能提出不同的解决方案,或现有技术(如MoE的改进)快速演进,可能影响其长期竞争优势。

4. 应用场景适配:Engram的优势可能在某些任务上更为突出,而在其他任务上收益不明显。投资者需评估目标应用场景是否与该项技术的优势相匹配。

正文

一篇由DeepSeek与北京大学研究人员合作完成的新论文提出,当前主流的大语言模型架构Transformer存在一个根本性缺陷:缺乏原生的知识查找机制。许多本应通过快速检索完成的任务(如识别固定实体、短语),模型被迫使用多层注意力机制和前馈网络进行耗时的模拟计算,效率低下且挤占了用于复杂推理的计算资源。

为此,研究团队提出“条件记忆”作为一种新的稀疏建模原语,并给出了其具体实现——“Engram”模块。Engram一词源于神经学中的“记忆痕迹”。该模块的核心思想是将语言建模任务分为两类:一类是需要动态“组合与推理”的任务(如逻辑推理、长程依赖),另一类则是“模式检索”任务(如实体名、固定搭配)。Engram旨在专门处理后一类任务。

技术上,Engram是一个插入Transformer层之间的可扩展查表模块。它通过“分词器压缩”技术(如规范化文本)减少有效词表大小,然后使用“多头哈希”函数,将输入token及其上下文(N-gram)映射到一个巨大的嵌入表中,实现近似O(1)复杂度的确定性检索。为了解决哈希冲突和多义词歧义,模块引入了“上下文感知门控”机制,利用当前的隐藏状态动态决定是否采纳检索到的记忆信息,从而保证准确性。

论文的一个关键发现是Engram与混合专家模型(MoE)之间的互补关系。研究定义了稀疏参数分配比例ρ(ρ=1代表所有稀疏预算都给MoE专家,ρ=0代表都给Engram)。实验表明,验证损失与ρ之间存在一致的“U形扩展定律”。纯MoE或纯Engram都不是最优解,当大约20%-25%的稀疏参数预算分配给Engram时,模型达到最佳性能。这表明“条件计算”(MoE)与“条件记忆”(Engram)是稀疏模型两个互补且不可或缺的维度。

为了验证实际效果,研究团队训练了多个模型进行对比,所有模型保持相同的激活参数量(约3.8B)和训练数据量(2620亿token)。对比模型包括:密集模型Dense-4B、纯MoE模型MoE-27B、混合模型Engram-27B(将部分稀疏参数分配给Engram)以及扩大记忆的Engram-40B。

实验结果显示:

1. 全面超越MoE基线:在总参数均为26.7B的条件下,Engram-27B在多个基准测试中全面优于MoE-27B。提升不仅限于知识任务(MMLU提升3.0分,CMMLU提升4.0分),在通用推理(BBH提升5.0分,ARC-Challenge提升3.7分)、代码(HumanEval提升3.0分)和数学(GSM8K提升2.2分,MATH提升2.4分)任务上提升更为显著。

2. 有效加深网络:分析表明,Engram模块使模型早期层无需再进行繁琐的特征组合“苦力活”,其第5层的表征与MoE基线第12层的表征相似,相当于“加深”了网络的有效深度,释放出的层可用于更高级的推理。

3. 长上下文能力增强:在长上下文评估中,Engram模型表现突出,例如在RULER测试集的Multi-Query NIAH任务中从84.2提升至97.0。这是因为Engram卸载了局部依赖建模,使注意力机制能更专注于全局上下文。

4. 可扩展性:Engram-40B进一步提升了性能,且训练后期损失仍在下降,表明记忆容量尚未饱和,具有继续扩展的潜力。

5. 系统效率:得益于确定性检索,Engram的巨大参数表可以存储在CPU内存中。通过异步预取技术,在H800 GPU上推理时,即使使用千亿参数的表,对模型吞吐量的影响也可控制在3%以内,实现了存储与计算的高效解耦。

论文在结论中指出,Engram将“硬件感知效率”确立为核心设计原则,并认为条件记忆将成为下一代稀疏模型中不可或缺的建模基元。这项研究为大模型架构的发展提供了新的方向,即从单一的“计算稀疏化”迈向“计算”与“记忆”双轴协同优化的新时代。

发布时间:2026-01-13 09:20:58

相关推荐

评论 ( 0 )

3.7 W

文章

72.9 W

点赞

回顶部