摘要:英伟达开源了Nemotron 3大模型家族,其采用混合Mamba-Transformer MoE架构以提升推理效率,并公开了超过10万亿token的训练数据及完整训练配方。该模型在性能上具有竞争力,推理速度较其他开源模型快1.5至3.3倍。技术亮点包括用于更大模型的LatentMoE架构、使用NVFP4格式进行低精度训练,以及采用覆盖多任务的多环境强化学习进行后训练。
线索:英伟达此次全面开源高性能大模型,包括核心训练数据与配方,显著降低了行业训练前沿模型的门槛,可能加速开源生态竞争并推动AI应用成本下降。其展示的高效架构和低精度训练技术,为AI芯片与算力基础设施的需求提供了明确的技术演进方向,相关硬件与软件工具链公司或将受益。风险在于,过度开放可能短期内削弱其高端云服务的差异化优势,并需关注开源模型生态中可能出现的合规与安全挑战。
正文:
英伟达发布了开源大模型家族Nemotron 3,旨在成为高效的开放模型。该模型采用了混合Mamba-Transformer MoE架构,并应用了NVFP4低精度训练技术。此次开范围广泛,不仅开放了模型权重,还公开了超过10万亿token的训练数据、预训练与后训练软件栈以及完整的训练配方。
在架构层面,Nemotron 3为最大化推理效率,大量使用Mamba-2层替代传统Transformer的自注意力层。Mamba层在生成时只需存储固定大小的状态,不受序列长度影响。以Nano型号为例,其架构主要由交替堆叠的Mamba-2层和MoE层构成,仅保留少数自注意力层。具体层排布模式为:5个Mamba-2+MoE的重复单元,接3个同样结构的单元,再来1个包含注意力层的单元,最后是4个Mamba-2+MoE单元。在8千输入、16千输出的典型推理场景下,Nemotron 3 Nano 30B-A3B的吞吐量达到同类模型Qwen3-30B-A3B的3.3倍,且序列越长优势越明显。在长上下文能力上,该模型在100万token输入长度的RULER基准测试中,Nemotron 3 Nano基座模型得分为68.2,而同样条件下训练的Nemotron 2 Nano 12B模型得分为23.43。
针对Super和Ultra型号,英伟达提出了LatentMoE架构。该架构先将token从原始隐藏维度投影到更小的潜在维度(通常为原始维度的四分之一),在此低维空间完成专家路由和计算,再投影回原始维度。此举减少了专家权重的加载量和通信开销。标准MoE使用128个专家并激活其中6个,而LatentMoE使用512个专家并激活22个。在总参数量和激活参数量相近(均为约80亿激活、730亿总参)的情况下,LatentMoE在多项下游任务上表现更优:MMLU-Pro从48.30提升至52.87,代码任务从51.95提升至55.14,数学任务从78.32提升至80.19。路由门控网络、共享专家计算及非专家层仍保留在原始维度。
Super和Ultra型号还采用了NVFP4格式进行训练。NVFP4是一种4位浮点格式,采用E2M1元素格式(2位指数、1位尾数),配合16元素的微块缩放和E4M3格式的块缩放因子。在相关硬件上,FP4的峰值吞吐量是FP8的3倍。研究显示,已使用NVFP4格式稳定训练了高达25万亿token。与BF16训练相比,Nano模型的损失差距控制在1%以内,80亿激活参数的更大模型差距缩小到0.6%以内。在MMLU、GSM8K、HumanEval等下游任务上,NVFP4训练模型与BF16版本的准确率曲线几乎重合。并非所有层都量化至NVFP4:Mamba输出投影层量化后会出现高达40%的flush-to-zero现象,故保留在MXFP8精度;QKV投影和注意力投影保留在BF16;网络最后15%的层也保持高精度以确保稳定性;MTP层和潜在投影对推理时间影响小,同样保留在BF16。
Nemotron 3的后训练采用了多环境强化学习,同步训练涵盖数学推理、竞赛编程、指令遵循、软件工程、搜索、对话、通用工具使用、长上下文等多种任务。该方法相比分阶段训练更稳定,不易出现奖励黑客行为,也避免了能力退化问题。在此过程中,AIME25数学分数从80提升至90,LiveCodeBench从65提升至72,τ²-Bench工具使用分数从40提升至50左右。高效的推理吞吐量为生成海量强化学习样本提供了优势。训练采用了异步强化学习架构来解耦训练和推理,并利用多token预测加速样本生成,训练算法使用GRPO配合掩码重要性采样。整个后训练软件栈以Apache 2.0协议开源。此外,模型支持推理时的思维预算控制,用户可指定思维链的最大token数,为实际部署中的效率与精度平衡提供细粒度控制。
发布时间:2025-12-26 19:49:35



评论 ( 0 )