小红书Hi Lab推新强化学习方法Think When You Need

2025-06-20

数据：

小红书Hi Lab团队提出\”Think When You Need\”的强化学习训练方式，旨在大幅降低模型的平均思考长度，并有效提升推理能力。实验表明，越智能的模型思考长度反而更短，这一现象与人类认知相吻合。

线索：

该团队的新方法有可能为强化学习领域带来积极的变化，投资者可以关注相关技术公司的发展和新产品的推出。然而，也需要考虑到市场对新技术的接受度，以及可能出现的技术替代风险。

正文：

小红书的技术团队在6月19日发布了一项关于深度思考模型的新研究。该研究指出，使用Test-Time Scaling（测试时扩展）的方法，可以显著提升模型的推理能力，但这种做法同时导致出现了很多冗余和无效的思考。为了解决这个问题，小红书Hi Lab团队提出了一种新的强化学习训练方式，名为\”Think When You Need\”。该方法在不妥协最终效果的前提下，动态降低了模型的平均思考长度。实验结果显示，这种训练方式在包括推理和非推理任务等多种情景下都表现良好。同时，研究还发现，模型的聪明程度（即参数量）越高，其所需的思考长度越短。这一发现与目前深度思考模型的普遍表现相悖，但却与人类的认知行为非常相似。

发布时间：

2025-06-19 20:52:05

小红书Hi Lab推新强化学习方法Think When You Need

相关推荐

评论 ( 0 )

取消回复

小红书Hi Lab推新强化学习方法Think When You Need

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站