ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

华为推出新型超大规模AI模型盘古Ultra MoE

2025-06-01

数据:

盘古Ultra MoE模型参数规模:7180亿

超大规模MoE训练数据量:超过18TB

算力利用率提升:从30%提升至41%

线索:

华为推出的盘古Ultra MoE模型在超大规模MoE模型训练领域取得突破,展现了国产人工智能技术的进步。这为相关行业的投资者提供了潜在的机会,尤其是在算力基础设施、AI模型开发和应用方面。同时,仍需关注技术稳定性和市场竞争带来的风险。

正文:

华为近日在MoE模型训练领域取得新进展,推出了一款参数规模高达7180亿的全新模型——盘古Ultra MoE。该模型是在昇腾AI计算平台上完成全流程训练的准万亿MoE模型。华为还发布了关于盘古Ultra MoE模型架构和训练方法的技术报告,披露了众多细节,强调了昇腾平台在超大规模MoE训练性能上的显著提升。

业内专家指出,训练超大规模和极高稀疏性的MoE模型面临巨大挑战,训练过程的稳定性常常难以确保。为了解决这一问题,盘古团队在模型架构和训练方法方面进行了创新设计,成功实现了在昇腾平台上的全流程训练。

在模型架构方面,盘古团队提出了DSSN稳定架构和TinyInit小初始化的方法,实现了超过18TB数据的长期稳定训练。同时,盘古Ultra MoE模型采用了业界领先的MLA和MTP架构,在预训练和后训练阶段利用Dropless训练策略,达成超大规模MoE架构在模型效果与效率之间的最佳平衡。

在训练方法上,华为团队首次在昇腾CloudMatrix 384超节点上实现了大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练步骤进入超节点集群时代。此外,华为团队还在一个月内对预训练系统进行了迭代升级,开发了适配昇腾硬件的自适应流水掩盖策略及内存优化策略,将算力利用率从30%提升至41%。

值得一提的是,华为近期发布的盘古Pro MoE大模型参数量为720亿,激活参数量为160亿,凭借动态激活专家网络的创意设计,实现了小参数模型的卓越性能。业内专家表示,华为的盘古Ultra MoE和盘古Pro MoE系列模型的推出,表明华为在实现国产算力与模型自主可控的训练实践,同时在集群训练系统的性能上达到了行业领先,这进一步验证了中国在人工智能基础设施上的创新能力,为整个人工智能产业的发展提供了强大支持。

发布时间:

2025-05-30 00:00:00

相关推荐

评论 ( 0 )

2.8 W

文章

38.5 W

点赞

回顶部