数据:
小红书Hi Lab团队提出\”Think When You Need\”的强化学习训练方式,旨在大幅降低模型的平均思考长度,并有效提升推理能力。实验表明,越智能的模型思考长度反而更短,这一现象与人类认知相吻合。
线索:
该团队的新方法有可能为强化学习领域带来积极的变化,投资者可以关注相关技术公司的发展和新产品的推出。然而,也需要考虑到市场对新技术的接受度,以及可能出现的技术替代风险。
正文:
小红书的技术团队在6月19日发布了一项关于深度思考模型的新研究。该研究指出,使用Test-Time Scaling(测试时扩展)的方法,可以显著提升模型的推理能力,但这种做法同时导致出现了很多冗余和无效的思考。为了解决这个问题,小红书Hi Lab团队提出了一种新的强化学习训练方式,名为\”Think When You Need\”。该方法在不妥协最终效果的前提下,动态降低了模型的平均思考长度。实验结果显示,这种训练方式在包括推理和非推理任务等多种情景下都表现良好。同时,研究还发现,模型的聪明程度(即参数量)越高,其所需的思考长度越短。这一发现与目前深度思考模型的普遍表现相悖,但却与人类的认知行为非常相似。
发布时间:
2025-06-19 20:52:05
评论 ( 0 )