数据:
开源22万条DeepSeek R1的高质量数据。
线索:
DeepSeek R1在全球范围内引发了复现热潮,尽管部分核心信息未完全公开,但Open R1项目正快速推进,旨在实现DeepSeek的完全开放复现。最新发布的OpenR1-Math-220k数据集提供了生成的小模型推理能力支持,投资者需要关注开源人工智能领域的持续创新和竞争,以及相关技术带来的商业机会和风险。
正文:
DeepSeek的影响力引发了全球范围的复现热潮。在中国AI团队实现反向技术输出后,Open R1项目作为开源运动的重要组成部分,正在努力复现DeepSeek-R1的技术。虽然DeepSeek-R1部分信息未完全开源,但已有技术报告提供了复现的指导,有多个技术团队开始实验,并取得了初步成果。
Open R1项目的目标是全面开放DeepSeek-R1,补充所有未公开的技术细节。项目不到几周已完成了GRPO实现、训练和评估代码以及用于合成数据的生成器。近期,他们发布了OpenR1-Math-220k数据集,这一数据集填补了DeepSeek R1中合成数据的缺口。
OpenR1-Math-220k数据集基于DeepSeek R1生成的80万条推理轨迹,筛选并验证后得到了22万条高质量数据。这些数据可以显著提升小型模型的推理能力。在相似条件下,使用OpenR1-Math-220k数据集训练的Qwen-7B-Math-Instruct模型,与DeepSeek-Distill-Qwen-7B性能相当。
Open R1通过与Numina团队合作,优化了数据集的生成和审核过程。数据集中包含80万条R1推理轨迹,这些数据是在本地计算群集上生成,而不依赖API,每天能够产生18万条推理结果。团队采取了对生成的答案进行自动过滤的策略,确保只有高质量的推理结果被纳入数据集中。
Open R1群体为了确保数据集的高质量,完善了数学验证系统,并通过使用Llama-3.3-70B-Instruct模型进行二次评估,找回了2.5万条被误判的有效数据。经过三轮微调的Qwen2.5-Math-Instruct模型,在数学基准测试中体现出良好的性能。
在探索新的推理能力中,Open R1团队还与多个实验室合作研究,发现高质量的训练样本对于增强推理能力至关重要。当前的研究方向显示,与简单的量化指标相比,如何利用少量高质量样本在语言模型中实现高级推理能力变得越来越重要。
发布时间:
2025-02-11 14:59:19



评论 ( 0 )