ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

OpenAI中杯o3 ARC-AGI测试得分57% 成为性价比之王

2025-04-25

数据:

o3模型在ARC-AGI-1测试中得分为57%,成本为1.5美元/任务;o4-mini模型得分42%,成本0.23美元/任务;在ARC-AGI-2测试中,两种模型准确率均未超过3%。o3模型在最近的测试相比以前的版本表现有所下降。

线索:

o3模型在成本和效率方面的优势为投资者提供了关注AI技术的机会。然而,由于模型在不同测试中的表现有差异,投资者需注意技术更新带来的风险,及其对市场竞争力的持续影响。

正文:

OpenAI的o3中杯在最新的ARC-AGI测试中表现突出,得分57%,成本仅为1.5美元每任务,显示出其在所有COT推理模型中的最佳性价比。然而,值得一提的是,o3与去年发布的版本相比,成绩有所下降,当时o3在低推理能力测试中得分达到75.7%,经过更长推理时间甚至超越人类得分。实际上,虽然o3的名称相同,但最新版本并非完全相同,且其并未专门针对ARC-AGI测试进行训练。

根据ARC Prize的说明,ARC-AGI测试是一种专门评估大模型智能能力的基准测试,包含一系列挑战性高的任务,要求AI在未见新问题上展现其适应能力。在比较中,OpenAI的o3模型的得分虽然不及早期版本,但在完成任务的成本效率上表现非常优秀。

此外,ARC官方还提出了几个关键发现,指出早期任务的准确率较高,而执行更复杂任务时的失败率更高,可能与高级推理的低效率有关。

最终,虽然o3在最新测试中有所下滑,整体上依然展现出在AI推理能力上的强劲市场竞争力。

发布时间:

2025-04-23 11:43:59

相关推荐

评论 ( 0 )

2.7 W

文章

32.1 W

点赞

回顶部