数据:
OpenAI正在训练一个新模型,规模介于GPT-4.1和GPT-4.5之间,核心目标是提高推理能力并通过强化学习(RL)进行持续更新。强化学习的关键在于生成高质量的数据和奖励函数,并可能带来显著的投资机会和挑战。
线索:
当前的推理模型正在快速发展,强化学习成为其成功的关键因素,能够改变研究方向和技术优先级。然而,模型的训练仍面临基础设施瓶颈和奖励函数难以定义的挑战,可能会影响其广泛应用与效果。
正文:
OpenAI似乎正在悄然进行一个新模型(称为o4)的训练,规模介于现有的GPT-4.1和GPT-4.5之间。根据最新的长文报道,这一模型将基于GPT-4.1进行强化学习训练。强化学习被宣传为改变模型推理能力的关键,甚至可能重塑大厂的研究方向和重点。尽管计算集群尚未显著扩展,但预训练在不牺牲智能水平的情况下显得尤为重要。
研究表明,中等规模模型在RL反馈循环中的表现超出了大型模型,从而对模型的扩展能力产生影响。新的o4模型显然是OpenAI推理产品的重要一步,其基础模型的选择将直接影响最终的效果。虽然RL的操作需要大量推理计算,但其结果可能提升模型的商业价值。
在强化学习的推进中,奖励函数的设计成为了一大难题,这不仅涉及模型表现的反馈,还包括定义标准和目标。尤其是在不可验证任务领域,奖励函数的模糊性可能导致模型训练的局限性。值得注意的是,对于标准答案明确的任务,RL的效果显著,有助于提升模型性能。
然而,随着模型在实际应用中长期任务的复杂性增加,推理能力的评估也变得更加困难,可能导致奖励信号稀疏化。同时,持续的RL训练可能导致模型频繁\”换血\”,有助于不断扩展其能力。然而,反复的训练也需要有强大的基础设施支持,同时处理\”奖励黑客\”问题愈发重要。
最后,随着强化学习的深入应用,AI模型尤为需要丰富的高质量数据支撑。在未来,随着对数据和模型训练方法的探索,AI行业可能会见证显著的发展潜力,并对投资者提出新的机会。
发布时间: 2025-06-10 20:08:59
评论 ( 0 )