Poetiq模型大幅提升ARC-AGI准确率，成本显著降低

2025-12-27

摘要：

初创公司Poetiq发布评测称，通过其自主研发的“meta-system”（元系统）辅助，GPT-5.2 X-High模型在复杂的ARC-AGI-2（PUBLIC-EVAL数据集）测试中取得了75%的准确率，较此前最高水平提升约15%，且每个问题的解决成本低于8美元。该系统无需对底层大模型进行任何再训练或微调，通过迭代推理与自我审计机制提升性能，并支持灵活切换不同模型。团队核心成员来自Google DeepMind。

线索：

机会：该技术路径（推理编排）若被验证有效，可能意味着AI应用性能的上限将部分由系统层而非模型层决定。这将降低对单一巨量模型的依赖，为专注于优化推理流程、提升模型利用效率的中间层公司创造巨大机会。能够实现低成本、高性能、跨模型适配的系统解决方案，有望迅速在需要复杂推理的企业级场景中落地。

风险：技术仍处于早期评测阶段，其成绩依赖OpenAI的API基础设施稳定性，且处理时间较长（最简单问题需8-10分钟，复杂问题可达12小时），商业应用的实时性面临挑战。此外，性能提升在更严格的SEMI-PRIVATE测试中尚未得到验证，“模型交换”的普适性也有待更多模型测试证明。

正文：

一项最新的评测结果显示，在无需对模型本身进行再训练或微调的情况下，通过一套外部辅助系统即可显著提升大语言模型的复杂推理性能。

初创公司Poetiq使用ARC-AGI-2测试集对其系统进行了评测。ARC-AGI-2通常用于衡量尖端模型在复杂抽象推理任务上的表现。Poetiq在其称为“meta-system”的系统中运行了GPT-5.2 X-High模型。

评测在PUBLIC-EVAL数据集上进行，该数据集是ARC测试的一部分，包含基础推理任务和标准的NLP、数学推理测试，是一个公开、标准的评测集。结果显示，GPT-5.2 X-High取得了75%的准确率。这一成绩比之前的最先进水平高出约15%。同时，每个问题的解决成本低于8美元。

Poetiq特别强调，此次评测没有对GPT-5.2进行任何再训练或模型特定的优化。与Poetiq此前在同一数据集上测试的其他模型相比，GPT-5.2在准确率和成本方面实现了显著改进。

Poetiq进一步设想，如果其在PUBLIC-EVAL测试中表现良好的规律能够延续到ARC Prize官方的SEMI-PRIVATE测试中，那么“GPT-5.2 X-High + Poetiq系统”的组合将比以往任何系统配置都更强大。

ARC Prize总裁Greg Kamradt对此表示：“很高兴看到Poetiq发布GPT-5.2 X-High的结果。如果这个成绩能保持下去，他们的系统看起来能很好地处理模型交换。不过，在OpenAI API的基础设施问题解决之前，结果还没有得到完全验证。”这里的“模型交换”指的是系统可以切换不同的模型来应对任务需求，而无需对系统或模型进行大规模调整或重新训练。

OpenAI总裁Greg Brockman也转发了相关消息，指出GPT-5.2在ARC-AGI-2上超越了人类基准成绩。

针对评测结果，社区提出了一些疑问。关于每个任务的平均耗时，Poetiq回复称，目前没有专门统计该数据，最简单的问题大约在8到10分钟后完成，而最难的问题必须在12小时的时间限制内终止，因此未来仍有改进空间。

有评论指出，大部分性能提升似乎来自于测试框架和协调机制，而非模型特定的调优。在没有训练变更的情况下准确率提升约15%，这表明仅在搜索、路由和终止逻辑方面就还有很大的优化空间。另有人疑问，为何在该设置中，性能更高的X-High版本每个任务成本反而比High版本低。Poetiq肯定了一种观点，即“X-High只是比High更快地收敛到正确答案”。

Poetiq团队由6位研究员和工程师组成，其中多位核心成员来自Google DeepMind。联合创始人兼联席CEO Ian Fischer曾是Google DeepMind的资深研究员；另一位联合创始人兼联席CEO Shumeet Baluja同样是出身于Google/DeepMind的资深专家。

取得上述成绩的关键在于Poetiq构建的“meta-system”。该系统不依赖特定的大模型，可以与任何前沿模型配合使用，其核心在于优化推理过程，而非训练或微调模型本身，这使得它能随着新模型发布快速适配。

该元系统构建了一种迭代式推理过程，主要包含两个机制：

1. 迭代式的问题求解循环：系统并非一次性生成答案，而是利用大语言模型生成潜在解决方案，随后接收并分析反馈，再次调用模型对方案进行改进。这是一个多步骤、自我改进的过程。

2. 自我审计：系统能够自主审计运行进度，自行判断何时已获得足够信息、当前解决方案是否令人满意，从而决定终止过程。该机制有助于避免不必要的计算浪费，降低整体成本。

Poetiq强调，其所有元系统的适配工作均在新模型发布前完成，且系统从未直接接触过ARC-AGI任务集。该系统在多个不同模型上均取得了跨版本、跨模型族的性能提升，表明其对推理策略具有良好的泛化能力。

对于该元系统，有评论认为：“在模型之上构建智能，而不是在模型内部构建，意味着可以在几小时内适配新模型，非常高明。适配开源模型，并且成功迁移到新的封闭模型，这表明捕捉到的东西是推理过程本身的基本规律，而不是模型特定的怪癖。”

发布时间：2025-12-25 16:15:00

Poetiq模型大幅提升ARC-AGI准确率，成本显著降低

相关推荐

评论 ( 0 )

取消回复

Poetiq模型大幅提升ARC-AGI准确率，成本显著降低

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站