ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

Poetiq模型大幅提升ARC-AGI准确率,成本显著降低

2025-12-27

摘要

初创公司Poetiq发布评测称,通过其自主研发的“meta-system”(元系统)辅助,GPT-5.2 X-High模型在复杂的ARC-AGI-2(PUBLIC-EVAL数据集)测试中取得了75%的准确率,较此前最高水平提升约15%,且每个问题的解决成本低于8美元。该系统无需对底层大模型进行任何再训练或微调,通过迭代推理与自我审计机制提升性能,并支持灵活切换不同模型。团队核心成员来自Google DeepMind。

线索

机会:该技术路径(推理编排)若被验证有效,可能意味着AI应用性能的上限将部分由系统层而非模型层决定。这将降低对单一巨量模型的依赖,为专注于优化推理流程、提升模型利用效率的中间层公司创造巨大机会。能够实现低成本、高性能、跨模型适配的系统解决方案,有望迅速在需要复杂推理的企业级场景中落地。

风险:技术仍处于早期评测阶段,其成绩依赖OpenAI的API基础设施稳定性,且处理时间较长(最简单问题需8-10分钟,复杂问题可达12小时),商业应用的实时性面临挑战。此外,性能提升在更严格的SEMI-PRIVATE测试中尚未得到验证,“模型交换”的普适性也有待更多模型测试证明。

正文

一项最新的评测结果显示,在无需对模型本身进行再训练或微调的情况下,通过一套外部辅助系统即可显著提升大语言模型的复杂推理性能。

初创公司Poetiq使用ARC-AGI-2测试集对其系统进行了评测。ARC-AGI-2通常用于衡量尖端模型在复杂抽象推理任务上的表现。Poetiq在其称为“meta-system”的系统中运行了GPT-5.2 X-High模型。

评测在PUBLIC-EVAL数据集上进行,该数据集是ARC测试的一部分,包含基础推理任务和标准的NLP、数学推理测试,是一个公开、标准的评测集。结果显示,GPT-5.2 X-High取得了75%的准确率。这一成绩比之前的最先进水平高出约15%。同时,每个问题的解决成本低于8美元。

Poetiq特别强调,此次评测没有对GPT-5.2进行任何再训练或模型特定的优化。与Poetiq此前在同一数据集上测试的其他模型相比,GPT-5.2在准确率和成本方面实现了显著改进。

Poetiq进一步设想,如果其在PUBLIC-EVAL测试中表现良好的规律能够延续到ARC Prize官方的SEMI-PRIVATE测试中,那么“GPT-5.2 X-High + Poetiq系统”的组合将比以往任何系统配置都更强大。

ARC Prize总裁Greg Kamradt对此表示:“很高兴看到Poetiq发布GPT-5.2 X-High的结果。如果这个成绩能保持下去,他们的系统看起来能很好地处理模型交换。不过,在OpenAI API的基础设施问题解决之前,结果还没有得到完全验证。”这里的“模型交换”指的是系统可以切换不同的模型来应对任务需求,而无需对系统或模型进行大规模调整或重新训练。

OpenAI总裁Greg Brockman也转发了相关消息,指出GPT-5.2在ARC-AGI-2上超越了人类基准成绩。

针对评测结果,社区提出了一些疑问。关于每个任务的平均耗时,Poetiq回复称,目前没有专门统计该数据,最简单的问题大约在8到10分钟后完成,而最难的问题必须在12小时的时间限制内终止,因此未来仍有改进空间。

有评论指出,大部分性能提升似乎来自于测试框架和协调机制,而非模型特定的调优。在没有训练变更的情况下准确率提升约15%,这表明仅在搜索、路由和终止逻辑方面就还有很大的优化空间。另有人疑问,为何在该设置中,性能更高的X-High版本每个任务成本反而比High版本低。Poetiq肯定了一种观点,即“X-High只是比High更快地收敛到正确答案”。

Poetiq团队由6位研究员和工程师组成,其中多位核心成员来自Google DeepMind。联合创始人兼联席CEO Ian Fischer曾是Google DeepMind的资深研究员;另一位联合创始人兼联席CEO Shumeet Baluja同样是出身于Google/DeepMind的资深专家。

取得上述成绩的关键在于Poetiq构建的“meta-system”。该系统不依赖特定的大模型,可以与任何前沿模型配合使用,其核心在于优化推理过程,而非训练或微调模型本身,这使得它能随着新模型发布快速适配。

该元系统构建了一种迭代式推理过程,主要包含两个机制:

1. 迭代式的问题求解循环:系统并非一次性生成答案,而是利用大语言模型生成潜在解决方案,随后接收并分析反馈,再次调用模型对方案进行改进。这是一个多步骤、自我改进的过程。

2. 自我审计:系统能够自主审计运行进度,自行判断何时已获得足够信息、当前解决方案是否令人满意,从而决定终止过程。该机制有助于避免不必要的计算浪费,降低整体成本。

Poetiq强调,其所有元系统的适配工作均在新模型发布前完成,且系统从未直接接触过ARC-AGI任务集。该系统在多个不同模型上均取得了跨版本、跨模型族的性能提升,表明其对推理策略具有良好的泛化能力。

对于该元系统,有评论认为:“在模型之上构建智能,而不是在模型内部构建,意味着可以在几小时内适配新模型,非常高明。适配开源模型,并且成功迁移到新的封闭模型,这表明捕捉到的东西是推理过程本身的基本规律,而不是模型特定的怪癖。”

发布时间:2025-12-25 16:15:00

相关推荐

评论 ( 0 )

3.5 W

文章

67.4 W

点赞

回顶部