OpenAI中杯o3 ARC-AGI测试得分57% 成为性价比之王

2025-04-25

数据：

o3模型在ARC-AGI-1测试中得分为57%，成本为1.5美元/任务；o4-mini模型得分42%，成本0.23美元/任务；在ARC-AGI-2测试中，两种模型准确率均未超过3%。o3模型在最近的测试相比以前的版本表现有所下降。

线索：

o3模型在成本和效率方面的优势为投资者提供了关注AI技术的机会。然而，由于模型在不同测试中的表现有差异，投资者需注意技术更新带来的风险，及其对市场竞争力的持续影响。

正文：

OpenAI的o3中杯在最新的ARC-AGI测试中表现突出，得分57%，成本仅为1.5美元每任务，显示出其在所有COT推理模型中的最佳性价比。然而，值得一提的是，o3与去年发布的版本相比，成绩有所下降，当时o3在低推理能力测试中得分达到75.7%，经过更长推理时间甚至超越人类得分。实际上，虽然o3的名称相同，但最新版本并非完全相同，且其并未专门针对ARC-AGI测试进行训练。

根据ARC Prize的说明，ARC-AGI测试是一种专门评估大模型智能能力的基准测试，包含一系列挑战性高的任务，要求AI在未见新问题上展现其适应能力。在比较中，OpenAI的o3模型的得分虽然不及早期版本，但在完成任务的成本效率上表现非常优秀。

此外，ARC官方还提出了几个关键发现，指出早期任务的准确率较高，而执行更复杂任务时的失败率更高，可能与高级推理的低效率有关。

最终，虽然o3在最新测试中有所下滑，整体上依然展现出在AI推理能力上的强劲市场竞争力。

发布时间：

2025-04-23 11:43:59

OpenAI中杯o3 ARC-AGI测试得分57% 成为性价比之王

相关推荐

评论 ( 0 )

取消回复

OpenAI中杯o3 ARC-AGI测试得分57% 成为性价比之王

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站