ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

DeepSeek密集招人开源论文备战V4大模型

2026-01-16

摘要:DeepSeek近期正进行大规模技术岗位招聘,同时密集发布了两项核心技术研究成果。其一是与北京大学合作的Engram模块,旨在为Transformer模型增加高效的外部记忆机制,实验显示在270亿参数规模下,该模块使模型在MMLU、BBH及数学能力上分别提升3.4、5.0和2.4个百分点,长文本检索准确率从84.2%提升至97.0%。其二是关于模型架构稳定性的mHC(流形约束超连接)研究,在27B参数的混合专家模型上实现了更稳定的训练曲线,损失相比基线降低0.021,推理能力提升2.1%。这些动向被外界解读为该公司正在为下一代模型DeepSeek V4积攒技术基础。

线索:从技术发展角度看,DeepSeek在模型基础架构上的连续突破(高效记忆、训练稳定性)若成功整合至下一代产品,可能显著提升其模型性能与效率,形成技术壁垒。这为关注AI基础设施层的投资提供了潜在机会。然而,相关技术仍处于研究论文阶段,其大规模工程化落地效果、商业化进程以及面临的市场竞争(包括国际头部厂商的进展)存在不确定性,是潜在的风险点。

正文

DeepSeek近期在招聘活动和技术研究方面表现活跃。该公司正在招聘包括深度学习研究员、深度学习研发工程师、大模型全栈工程师、全栈开发工程师、核心系统研发工程师在内的多个核心技术岗位,同时开放校招、社招和实习渠道,另有产品、设计等岗位。招聘信息显示,大部分岗位可选择在北京或杭州工作。此前在2025年11月,该公司也曾因团队规模扩大而进行过行政岗位的招聘。

在技术研究方面,DeepSeek近期连续发布重要成果。一项是与北京大学合作完成的名为“Engram”的研究,相关论文题为《Conditional Memory via Scalable Lookup》。该研究旨在解决当前Transformer架构缺乏原生“条件记忆”的问题,试图为模型增加一个可高效调取知识的外部记忆模块。研究发现了记忆与计算资源分配的U型扩展规律,实验表明,在同等计算量下,将20%-25%的资源分配给静态记忆(Engram)、其余分配给神经计算(MoE)时模型效果最优。在270亿参数规模的实验中,集成Engram模块的模型在MMLU评测中提升3.4个百分点,在BBH推理能力上提升5.0个百分点,在数学能力上提升2.4个百分点,在长文本检索测试中的准确率从84.2%大幅提升至97.0%。该架构支持“预取-重叠”策略,可利用CPU内存存储知识,GPU专注逻辑计算。

另一项是于元旦当天发布的关于模型架构稳定性的研究《mHC:流形约束超连接》。该研究旨在解决超大规模模型训练时的稳定性问题,通过将神经网络连接约束在特定流形空间来维持训练稳定。在27B参数的混合专家模型上,mHC架构展现出稳定的训练曲线,最终损失相比基线降低0.021,推理能力提升2.1%。研究团队还为mHC的实施进行了一系列基础设施优化:使用TileLang框架实现融合内核以减少内存访问;为Sinkhorn-Knopp算法设计了专门的前向和反向内核;扩展了DualPipe调度策略以重叠计算与通信。

这两篇论文的作者列表中均包含DeepSeek创始人梁文锋。根据其过往论文作者名单,DeepSeek核心团队人员稳定性较高,此次招聘主要为扩增需求。

基于上述密集的技术输出和招聘动态,外界推测DeepSeek正在为其下一代模型(可能被称为V4)进行技术储备和团队扩充。推测中的V4模型可能整合MoE的高效计算、Engram的海量记忆能力,并由mHC架构保障其超大规模训练的稳定性。

发布时间:2026-01-14 20:23:49

相关推荐

评论 ( 0 )

3.7 W

文章

73.2 W

点赞

回顶部