摘要:2026年1月12日,DeepSeek与北京大学合作发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,创始人梁文锋为作者之一。论文核心提出“条件记忆”概念,并同步开源了相关记忆模块Engram。该技术旨在通过“查—算分离”的新架构,在同等参数和算力下,显著提升大模型在知识调用、通用推理、代码及数学任务上的性能。业内分析认为,此项技术有望成为DeepSeek下一代旗舰模型V4的核心架构。有信息显示,DeepSeek计划于2026年2月中旬(农历新年前后)推出V4模型,但具体时间可能调整。
线索:
* 技术突破与效率提升:Engram模块代表的“条件记忆”是继混合专家模型(MoE)后,大模型稀疏化方向的又一重要演进。其“查—算分离”架构直接针对Transformer在静态知识检索上的低效问题,有望在成本可控的前提下,大幅提升模型的知识应用与复杂推理能力。若验证成功,可能成为行业新的技术范式。
* 产品迭代与竞争格局:该论文被广泛视为DeepSeek V4的技术蓝图。V4若如期发布并集成此技术,可能进一步巩固DeepSeek在性能竞赛中的领先地位,特别是在编程、数学等关键领域。这将对其他大模型厂商构成压力,加速行业整体技术迭代。
* 潜在风险与不确定性:新技术从论文到大规模稳定应用仍需工程化验证。V4的确切发布时间和最终性能表现仍有变数。此外,该架构创新可能很快被同行借鉴或超越,长期竞争优势的维持取决于持续研发和生态构建。
正文:
2026年1月12日,人工智能公司DeepSeek发布了一篇题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)的新学术论文。该论文由DeepSeek与北京大学的研究团队共同完成,DeepSeek创始人梁文锋位列作者署名之中。
论文指出,当前大型语言模型主要处理两类性质不同的任务:一是需要深度动态计算的组合推理,二是对静态知识的检索。然而,现有的Transformer架构缺乏原生的高效知识查找机制,模型在调用已知信息时仍需进行耗时的计算推导,导致算力资源浪费。
为解决这一问题,研究团队提出了“条件记忆”作为模型稀疏性的一个新维度,并开发了名为Engram的记忆模块来实现这一理念。该技术的核心是“查—算分离”架构,旨在让专门的模块处理专门的任务:Engram模块负责高效检索和存储静态知识,而计算模块(如MoE专家)则专注于复杂的推理过程。团队通过优化神经计算与静态记忆之间的资源分配,发现了U型缩放定律,证明混合稀疏容量分配方案优于纯粹的MoE基准模型。
实验结果表明,引入条件记忆模块后,模型在知识调用、通用推理、代码生成和数学解题等多项任务上的性能均获得显著提升,且这是在模型参数总量和计算预算保持不变的条件下实现的。论文结论认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语。
同日,DeepSeek宣布将与此论文相关的记忆模块Engram进行开源。业内分析指出,此次发布的论文与开源模块,很可能揭示了DeepSeek下一代旗舰模型V4的技术路线。有信息显示,DeepSeek计划于2026年2月中旬,即农历新年前后,正式推出V4模型,但该时间安排仍存在调整的可能性。此前曾有报道称,DeepSeek V4在内部初步测试中展现出卓越的编程能力。自2024年底发布V3模型后,其下一代旗舰模型的进展一直备受行业关注。
发布时间:2026-01-13T11:28:24+00:00



评论 ( 0 )