未知

2025-12-11

数据：

INTELLECT-3模型参数为106B，使用512张NVIDIA H200 GPU，采用分布式强化学习技术，已全面开源。

线索：

INTELLECT-3的发布可能会推动大规模强化学习研究的进展，吸引开发者和研究者参与，并为相关软件和服务提供投资机会。然而，竞争加剧及技术更新迅速可能带来投资风险。

正文：

Prime Intellect最近发布了INTELLECT-3，这是一个拥有106B参数的混合专家模型，利用其开发的强化学习技术进行训练。在各类基准测试中，INTELLECT-3表现卓越，超越了许多更大规模的模型，标志着其在数学、代码、科学和推理领域的领先地位。

Prime Intellect将INTELLECT-3的训练流程完全开源，包括模型权重、框架、数据集和评测体系。这样的开放性使得每个人都能参与后续的模型训练。

INTELLECT-3使用了PRIME-RL框架进行全面训练。该框架支持所有阶段的操作，包括数据生成、监督微调和强化学习，通过与多个环境和评测任务的整合，确保训练的高效稳定。

论文研究团队还强调了分布式训练的重要性，确认分布式是扩展训练规模、提高速度的关键。此外，他们在过去六个月内进行的大量实验以及对性能和稳定性的研究，为INTELLECT-3的成功奠定了基础。

INTELLECT-3的训练环境由Verifiers库构建，并托管于Environments Hub，使得模型在训练过程中能有效评测。所有训练环境和评测任务也已全面公开，以支持强化学习的开发。

在设备方面，研究人员在64个节点上部署了512张NVIDIA H200 GPU，确保硬件_fault-tolerance_，同时通过高效调度和监控手段，保持训练过程的稳定性。

INTELLECT-3的训练包括两个主要阶段：监督微调和大规模RL训练，涵盖多种环境，经过了为期两个月的训练。未来，Prime Intellect计划扩展智能体式RL，进一步丰富RL环境，以适应更广泛的应用需求。

Prime Intellect致力于构建一个开放的超级智能技术栈，旨在将前沿模型的训练能力带给每个人，实现与顶尖团队的竞技可能。

发布时间：

无发布时间信息。

ReadCai财经资讯站