DeepSeek北大Engram条件记忆架构提升Transformer并降部署成本

2026-01-14

摘要：DeepSeek与北京大学合作发表了一篇新论文，提出了一种名为“Engram”的“条件记忆”模块，旨在解决Transformer架构缺乏原生知识查找机制的核心缺陷。该模块通过现代化的哈希N-gram嵌入技术，提供近似O(1)的确定性知识查找，将静态模式检索任务从动态计算中分离。研究发现，Engram与主流的混合专家模型（MoE）存在互补关系，两者在稀疏参数预算分配上呈现“U形扩展定律”，存在一个最优配比。在27B参数规模的实验中，集成Engram的模型在等参数、等计算量的条件下，全面优于纯MoE基线模型，不仅在知识任务（如MMLU、CMMLU）上有所提升，在推理（如BBH、ARC）、代码（如HumanEval）和数学（如GSM8K、MATH）任务上提升更为显著。论文指出，条件记忆可能成为下一代稀疏大模型的关键组成部分，并暗示其可能被集成到未来的模型架构中。

线索：

* 投资机会：

1. 架构创新与效率提升：Engram代表了一种新的稀疏化方向（条件记忆），与现有的条件计算（MoE）形成互补。这为AI模型在参数规模、计算效率和知识容量之间找到更优平衡提供了新路径，可能催生新一代高性能、高效率的基础模型。

2. 推理能力增强：实验表明，Engram通过卸载静态模式识别任务，释放了Transformer主干网络的“注意力”资源，使其更专注于复杂推理。这直接提升了模型在数学、代码和逻辑推理等核心能力上的表现，这些正是当前AI应用的高价值领域。

3. 长上下文处理优化：Engram有助于模型更好地处理长文本，因为释放的注意力容量可以更有效地管理全局上下文依赖。这对于需要处理长文档、复杂对话和多轮交互的应用场景（如法律、金融、客服）具有重要价值。

4. 系统工程优化潜力：Engram的确定性检索机制允许将庞大的参数表存储在CPU内存甚至更慢的存储介质中，并通过预取技术与GPU计算重叠，从而以极小的延迟代价支持远超GPU显存容量的模型参数。这为在有限硬件条件下部署超大模型提供了可行的工程方案。

* 潜在风险：

1. 技术成熟度：该研究目前仍处于论文阶段，虽然实验结果积极，但其在大规模生产环境中的稳定性、泛化能力以及与传统训练/推理管道的整合仍需经过更广泛的实践验证。

2. 工程实现复杂度：虽然论文提出了系统优化方案，但实际实现大规模Engram模块的高效训练和推理，涉及复杂的内存管理、通信调度和缓存策略，对工程团队提出了很高要求。

3. 竞争与迭代速度：AI架构迭代迅速，Engram是众多探索方向之一。其他团队可能提出不同的解决方案，或现有技术（如MoE的改进）快速演进，可能影响其长期竞争优势。

4. 应用场景适配：Engram的优势可能在某些任务上更为突出，而在其他任务上收益不明显。投资者需评估目标应用场景是否与该项技术的优势相匹配。

正文：

一篇由DeepSeek与北京大学研究人员合作完成的新论文提出，当前主流的大语言模型架构Transformer存在一个根本性缺陷：缺乏原生的知识查找机制。许多本应通过快速检索完成的任务（如识别固定实体、短语），模型被迫使用多层注意力机制和前馈网络进行耗时的模拟计算，效率低下且挤占了用于复杂推理的计算资源。

为此，研究团队提出“条件记忆”作为一种新的稀疏建模原语，并给出了其具体实现——“Engram”模块。Engram一词源于神经学中的“记忆痕迹”。该模块的核心思想是将语言建模任务分为两类：一类是需要动态“组合与推理”的任务（如逻辑推理、长程依赖），另一类则是“模式检索”任务（如实体名、固定搭配）。Engram旨在专门处理后一类任务。

技术上，Engram是一个插入Transformer层之间的可扩展查表模块。它通过“分词器压缩”技术（如规范化文本）减少有效词表大小，然后使用“多头哈希”函数，将输入token及其上下文（N-gram）映射到一个巨大的嵌入表中，实现近似O(1)复杂度的确定性检索。为了解决哈希冲突和多义词歧义，模块引入了“上下文感知门控”机制，利用当前的隐藏状态动态决定是否采纳检索到的记忆信息，从而保证准确性。

论文的一个关键发现是Engram与混合专家模型（MoE）之间的互补关系。研究定义了稀疏参数分配比例ρ（ρ=1代表所有稀疏预算都给MoE专家，ρ=0代表都给Engram）。实验表明，验证损失与ρ之间存在一致的“U形扩展定律”。纯MoE或纯Engram都不是最优解，当大约20%-25%的稀疏参数预算分配给Engram时，模型达到最佳性能。这表明“条件计算”（MoE）与“条件记忆”（Engram）是稀疏模型两个互补且不可或缺的维度。

为了验证实际效果，研究团队训练了多个模型进行对比，所有模型保持相同的激活参数量（约3.8B）和训练数据量（2620亿token）。对比模型包括：密集模型Dense-4B、纯MoE模型MoE-27B、混合模型Engram-27B（将部分稀疏参数分配给Engram）以及扩大记忆的Engram-40B。

实验结果显示：

1. 全面超越MoE基线：在总参数均为26.7B的条件下，Engram-27B在多个基准测试中全面优于MoE-27B。提升不仅限于知识任务（MMLU提升3.0分，CMMLU提升4.0分），在通用推理（BBH提升5.0分，ARC-Challenge提升3.7分）、代码（HumanEval提升3.0分）和数学（GSM8K提升2.2分，MATH提升2.4分）任务上提升更为显著。

2. 有效加深网络：分析表明，Engram模块使模型早期层无需再进行繁琐的特征组合“苦力活”，其第5层的表征与MoE基线第12层的表征相似，相当于“加深”了网络的有效深度，释放出的层可用于更高级的推理。

3. 长上下文能力增强：在长上下文评估中，Engram模型表现突出，例如在RULER测试集的Multi-Query NIAH任务中从84.2提升至97.0。这是因为Engram卸载了局部依赖建模，使注意力机制能更专注于全局上下文。

4. 可扩展性：Engram-40B进一步提升了性能，且训练后期损失仍在下降，表明记忆容量尚未饱和，具有继续扩展的潜力。

5. 系统效率：得益于确定性检索，Engram的巨大参数表可以存储在CPU内存中。通过异步预取技术，在H800 GPU上推理时，即使使用千亿参数的表，对模型吞吐量的影响也可控制在3%以内，实现了存储与计算的高效解耦。

论文在结论中指出，Engram将“硬件感知效率”确立为核心设计原则，并认为条件记忆将成为下一代稀疏模型中不可或缺的建模基元。这项研究为大模型架构的发展提供了新的方向，即从单一的“计算稀疏化”迈向“计算”与“记忆”双轴协同优化的新时代。

发布时间：2026-01-13 09:20:58

DeepSeek北大Engram条件记忆架构提升Transformer并降部署成本

相关推荐

评论 ( 0 )

取消回复

DeepSeek北大Engram条件记忆架构提升Transformer并降部署成本

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站