数据:
o3模型在ARC-AGI-1测试中得分为57%,成本为1.5美元/任务;o4-mini模型得分42%,成本0.23美元/任务;在ARC-AGI-2测试中,两种模型准确率均未超过3%。o3模型在最近的测试相比以前的版本表现有所下降。
线索:
o3模型在成本和效率方面的优势为投资者提供了关注AI技术的机会。然而,由于模型在不同测试中的表现有差异,投资者需注意技术更新带来的风险,及其对市场竞争力的持续影响。
正文:
OpenAI的o3中杯在最新的ARC-AGI测试中表现突出,得分57%,成本仅为1.5美元每任务,显示出其在所有COT推理模型中的最佳性价比。然而,值得一提的是,o3与去年发布的版本相比,成绩有所下降,当时o3在低推理能力测试中得分达到75.7%,经过更长推理时间甚至超越人类得分。实际上,虽然o3的名称相同,但最新版本并非完全相同,且其并未专门针对ARC-AGI测试进行训练。
根据ARC Prize的说明,ARC-AGI测试是一种专门评估大模型智能能力的基准测试,包含一系列挑战性高的任务,要求AI在未见新问题上展现其适应能力。在比较中,OpenAI的o3模型的得分虽然不及早期版本,但在完成任务的成本效率上表现非常优秀。
此外,ARC官方还提出了几个关键发现,指出早期任务的准确率较高,而执行更复杂任务时的失败率更高,可能与高级推理的低效率有关。
最终,虽然o3在最新测试中有所下滑,整体上依然展现出在AI推理能力上的强劲市场竞争力。
发布时间:
2025-04-23 11:43:59
评论 ( 0 )