ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

未知

2025-12-11

数据:

INTELLECT-3模型参数为106B,使用512张NVIDIA H200 GPU,采用分布式强化学习技术,已全面开源。

线索:

INTELLECT-3的发布可能会推动大规模强化学习研究的进展,吸引开发者和研究者参与,并为相关软件和服务提供投资机会。然而,竞争加剧及技术更新迅速可能带来投资风险。

正文:

Prime Intellect最近发布了INTELLECT-3,这是一个拥有106B参数的混合专家模型,利用其开发的强化学习技术进行训练。在各类基准测试中,INTELLECT-3表现卓越,超越了许多更大规模的模型,标志着其在数学、代码、科学和推理领域的领先地位。

Prime Intellect将INTELLECT-3的训练流程完全开源,包括模型权重、框架、数据集和评测体系。这样的开放性使得每个人都能参与后续的模型训练。

INTELLECT-3使用了PRIME-RL框架进行全面训练。该框架支持所有阶段的操作,包括数据生成、监督微调和强化学习,通过与多个环境和评测任务的整合,确保训练的高效稳定。

论文研究团队还强调了分布式训练的重要性,确认分布式是扩展训练规模、提高速度的关键。此外,他们在过去六个月内进行的大量实验以及对性能和稳定性的研究,为INTELLECT-3的成功奠定了基础。

INTELLECT-3的训练环境由Verifiers库构建,并托管于Environments Hub,使得模型在训练过程中能有效评测。所有训练环境和评测任务也已全面公开,以支持强化学习的开发。

在设备方面,研究人员在64个节点上部署了512张NVIDIA H200 GPU,确保硬件_fault-tolerance_,同时通过高效调度和监控手段,保持训练过程的稳定性。

INTELLECT-3的训练包括两个主要阶段:监督微调和大规模RL训练,涵盖多种环境,经过了为期两个月的训练。未来,Prime Intellect计划扩展智能体式RL,进一步丰富RL环境,以适应更广泛的应用需求。

Prime Intellect致力于构建一个开放的超级智能技术栈,旨在将前沿模型的训练能力带给每个人,实现与顶尖团队的竞技可能。

发布时间:

无发布时间信息。

相关推荐

评论 ( 0 )

3.2 W

文章

57.0 W

点赞

回顶部