数据:
1B模型在测试时Scaling中超越405B模型,小型模型通过计算最优TTS策略击败大型模型,研究显示基于消息的奖励感知策略将显著提高Llama等模型的性能。
线索:
本研究揭示了不同策略模型和过程奖励模型在进行测试时计算扩展的效果,强调了奖励感知计算最优TTS策略的重要性。这为投资者在AI模型研发及应用方面提供了新机会,并可能促使小型模型开发的商机。与此同时,如果投入不当,也可能导致资源浪费及市场竞争加剧的风险。
正文:
最近,一篇多机构联合发表的论文在人工智能领域引起了广泛关注,该论文指出:在测试时扩展(TTS)过程中,采用计算最优策略的1B模型能够明显超越405B的模型。这一发现是基于在数学任务上进行的实验,特别是在MATH-500和AIME24基准测试中的成果。
研究显示,使用包括清华、哈工大和北邮在内的机构的团队开发的计算最优TTS策略,能够在各种复杂任务中增强小型模型的表现。实际上,0.5B模型在特定数学任务中表现优于GPT-4o,3B模型能力超越405B模型,而7B模型在性能上超越了OpenAI的o1和DeepSeek R1。
测试时扩展逐渐成为提升大型语言模型(LLM)性能的新趋势,利用额外的计算能力重新分配模型在推理时的算力,不仅提升了小型模型的表现,也使它们在性能上能够与大型模型竞争。
本研究提出了如何为不同类型模型分配最优计算资源。通过分析多种策略模型和过程奖励模型,团队提出了一系列强化学习背景下的新方法,试图通过整合奖励因素来提高模型响应的质量与准确性。
此外,在对问题难度的评估中,团队发现使用绝对问题难度标准比分位数更有效,这证明了采用更直观的评估方法在本研究中的可行性。
接下来,研究团队探讨了在不同策略模型和难度问题下,如何理想地提升TTS表现。他们发现,即使在小型模型中,TTS策略的优化也能够带来显著的性能提升,表明TTS的选择值得在各类任务和模型中深度研究。
最后,研究结果还表明,用计算最优TTS策略的小型模型如Qwen2.5-0.5B以及Llama-3.2-3B能利用更少的推理FLOPS超越大型模型,显示出计算高效性的潜力。
发布时间:
2025-02-12 16:56:46



评论 ( 0 )