ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

DeepSeek发布mHC架构,改善大模型训练稳定性

2026-01-02

摘要:2026年初,DeepSeek发布了一篇由创始人梁文锋等人署名的新研究论文,提出了一种名为“流形约束超连接”(mHC)的新型神经网络架构。该架构旨在解决现有“超连接”(HC)技术在大规模模型训练中存在的稳定性、可扩展性及内存开销问题。论文指出,mHC通过在信息流中引入约束规则,能在保持性能优势的同时提升训练稳定性,有望推动大模型底层架构的工业化,并可能降低AI研发门槛。

线索:此项研究属于AI模型底层架构的基础创新,直接针对Transformer核心组件的扩展性瓶颈。若其效果经后续工程实践验证,可能从两方面产生影响:一是机会:显著提升大模型训练的效率和稳定性,降低算力需求与训练成本,使算力有限的中小企业开发更复杂模型成为可能,并促进超大规模多模态模型等复杂场景的落地。二是风险:该技术目前尚处于学术论文阶段,其在实际超大规模训练、不同任务泛化性以及最终性能增益上的表现,仍需产业界进一步验证,距离产生直接商业影响尚有距离。

正文

DeepSeek于新年之际发布了一篇技术论文,提出了一种名为“流形约束超连接”(mHC)的新网络架构。该研究旨在解决传统“超连接”(HC)架构在大规模模型训练中面临的不稳定性、可扩展性受限及内存访问开销大的问题。

近年来,超连接技术通过拓宽神经网络的“信息传输通道”、增加通道间的连接,拓展了经典的残差连接范式,提升了模型性能。但这种连接的多样化也带来了上述挑战。

DeepSeek提出的mHC架构,被类比为给超连接的“信息通道”添加了一套“交通规则”。其核心是通过数学方法(如利用Sinkhorn-Knopp算法将连接矩阵约束在双随机矩阵流形上),在保留超连接性能优势的同时,恢复信息原样传递的特性,从而使模型训练更稳定、更容易扩展,以推动大模型底层架构的工业化落地。

论文题为《mHC:流形约束超连接》。论文的核心贡献者包括解振达、韦毅轩、曹焕琪,DeepSeek创始人兼CEO梁文锋也位列作者之中。

论文中指出,mHC为未来的研究开辟了多个前景广阔的路径,研究团队希望它能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC可能为下一代基础架构的演进指明新方向。

从行业应用角度看,mHC架构可能有助于企业在训练更大规模基础模型时减少硬件投入、缩短训练周期,从而降低大模型研发的门槛,使得算力有限的中小AI企业也能尝试开发更复杂的模型。此外,训练稳定性和可扩展性的提升,也有助于大模型在需要超大规模参数的多模态模型、工业级智能决策系统等更复杂场景中落地。

自2025年初受到广泛关注以来,DeepSeek在模型迭代与开源上持续发力。例如在2025年12月,其同步推出了DeepSeek-V3.2与V3.2-Special模型;同年11月底,开源了数学推理模型DeepSeek-Math-V2,该模型被认为是首个达到国际奥数金牌水平并开放使用的数学模型。

发布时间:2025-12-31 17:55

相关推荐

评论 ( 0 )

3.6 W

文章

71.1 W

点赞

回顶部