数据:
Qwen模型可以在使用虚假奖励的情况下提升25%的性能。
线索:
研究表明,RLVR(可验证奖励强化学习)在处理虚假奖励时,仍能有效提高Qwen模型的数学推理能力。这一发现可能为AI模型的训练提供了新的思路,也暗示目前普遍认同的“奖励信号正确性”理论可能并非绝对。此外,该研究主要集中在Qwen系列模型,并未显示其他模型能获得类似的性能提升,这提示了潜在的模型差异性和针对性投资机会。
正文:
研究显示,即使在使用错误的奖励信号的情况下,Qwen模型的性能仍能得到显著提升,具体提升约为25%。这一发现源于华盛顿大学的博士生团队,使用了RLVR方法对Qwen模型进行研究。团队发现,RLVR可以激活Qwen模型预训练中的推理能力,而无需考虑奖励信号的正确性。
研究团队用Qwen模型进行了一系列实验,以探讨虚假奖励对提升数学推理能力的影响。他们设计了不同的奖励函数,其中包括真实奖励、投票奖励、格式奖励、随机奖励和错误奖励。实验结果显示,这些奖励函数,即便是虚假的奖励,均能在基准测试中显著提高模型的数学推理性能。错误标签的训练效果提升了24.6%,而真实答案的提升幅度为28.8%。这样看,使用虚假奖励也能实现接近真实奖励的效果。
此外,团队发现这一天赋的增益主要体现在Qwen2.5系列模型中,其他非Qwen模型在虚假奖励下的性能几乎没有变化,甚至有所下降。研究分析表明,Qwen模型在预训练期间学习到的特定推理策略,可以通过RLVR的应用进一步增强。此外,GRPO方法的裁剪偏差也可能导致随机奖励生成有益的训练信号。
此次研究是由多位华盛顿大学的华人学者共同完成,并强调了在AI模型的改进中,推理过程的重要性与结果并重的观点。同时,研究也呼吁进一步验证Qwen以外的模型,避免单一关注使得研究失去广泛的应用价值。
发布时间:
2025-05-30 10:41:38
评论 ( 0 )