ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

高熵token在强化学习中提升模型性能的研究发现

2025-06-09

数据:

在强化学习中,使用20%的高熵token训练模型的效果优于使用全部token,表现出更强的推理能力和更高的分数。

线索:

这一发现为强化学习在大模型中的应用提供了新的视角,可能带来高效训练方法的投资机会。与此同时,低熵token的副作用不可忽视,可能导致模型性能下降。

正文:

近期,Qwen与清华LeapLab团队的研究指出,在强化学习中,仅需20%的高熵token即可实现比传统使用所有token训练更优的效果。该方法在Qwen3-32B模型上创造了新的状态最佳分数:在AIME’24中达到63.5分,AIME’25中达到56.7分,将最大响应长度从20k延长至29k。通过对token熵的深入分析,团队发现低熵token对推理能力的贡献非常小,甚至具有负面效应。

研究表明,高熵token在推理过程中扮演着重要角色。在进行链式思考时,超过50%的token熵值低于0.01,仅20%的token熵值超过0.672。高熵token如“wait”、“however”在逻辑推理中起着连接作用,而低熵token则通常是确定性的组成部分。实验发现,通过适度提高高熵token的解码温度,可以有效提升推理性能。

通过仅关注训练中的top 20%高熵token,研究团队在Qwen3-32B中系统性屏蔽低熵token的梯度,取得了显著提升。相比之下,只用低熵token的训练则会显著降低性能。

实验还发现该方法在模型规模上具有明显的优势,32B模型的提升效果最显著,14B次之,8B模型效果相对较小。在域外任务中的表现也显示出高熵token与模型泛化能力之间的密切关系。

除了提升训练效率外,团队研究发现,强化学习与可验证奖励(RLVR)算法并不是完全重构,而是在基础模型上进行细致的调整。高熵token的灵活性对推理模型的有效泛化至关重要。

最后,团队提出高熵token可能解释了强化学习在泛化方面的优势,而低熵token的使用则可能限制了模型的探索能力。

发布时间:

2025-06-06 10:45:37

相关推荐

评论 ( 0 )

2.9 W

文章

40.7 W

点赞

回顶部