摘要:
初创公司Poetiq发布评测称,通过其自主研发的“meta-system”(元系统)辅助,GPT-5.2 X-High模型在复杂的ARC-AGI-2(PUBLIC-EVAL数据集)测试中取得了75%的准确率,较此前最高水平提升约15%,且每个问题的解决成本低于8美元。该系统无需对底层大模型进行任何再训练或微调,通过迭代推理与自我审计机制提升性能,并支持灵活切换不同模型。团队核心成员来自Google DeepMind。
线索:
机会:该技术路径(推理编排)若被验证有效,可能意味着AI应用性能的上限将部分由系统层而非模型层决定。这将降低对单一巨量模型的依赖,为专注于优化推理流程、提升模型利用效率的中间层公司创造巨大机会。能够实现低成本、高性能、跨模型适配的系统解决方案,有望迅速在需要复杂推理的企业级场景中落地。
风险:技术仍处于早期评测阶段,其成绩依赖OpenAI的API基础设施稳定性,且处理时间较长(最简单问题需8-10分钟,复杂问题可达12小时),商业应用的实时性面临挑战。此外,性能提升在更严格的SEMI-PRIVATE测试中尚未得到验证,“模型交换”的普适性也有待更多模型测试证明。
正文:
一项最新的评测结果显示,在无需对模型本身进行再训练或微调的情况下,通过一套外部辅助系统即可显著提升大语言模型的复杂推理性能。
初创公司Poetiq使用ARC-AGI-2测试集对其系统进行了评测。ARC-AGI-2通常用于衡量尖端模型在复杂抽象推理任务上的表现。Poetiq在其称为“meta-system”的系统中运行了GPT-5.2 X-High模型。
评测在PUBLIC-EVAL数据集上进行,该数据集是ARC测试的一部分,包含基础推理任务和标准的NLP、数学推理测试,是一个公开、标准的评测集。结果显示,GPT-5.2 X-High取得了75%的准确率。这一成绩比之前的最先进水平高出约15%。同时,每个问题的解决成本低于8美元。
Poetiq特别强调,此次评测没有对GPT-5.2进行任何再训练或模型特定的优化。与Poetiq此前在同一数据集上测试的其他模型相比,GPT-5.2在准确率和成本方面实现了显著改进。
Poetiq进一步设想,如果其在PUBLIC-EVAL测试中表现良好的规律能够延续到ARC Prize官方的SEMI-PRIVATE测试中,那么“GPT-5.2 X-High + Poetiq系统”的组合将比以往任何系统配置都更强大。
ARC Prize总裁Greg Kamradt对此表示:“很高兴看到Poetiq发布GPT-5.2 X-High的结果。如果这个成绩能保持下去,他们的系统看起来能很好地处理模型交换。不过,在OpenAI API的基础设施问题解决之前,结果还没有得到完全验证。”这里的“模型交换”指的是系统可以切换不同的模型来应对任务需求,而无需对系统或模型进行大规模调整或重新训练。
OpenAI总裁Greg Brockman也转发了相关消息,指出GPT-5.2在ARC-AGI-2上超越了人类基准成绩。
针对评测结果,社区提出了一些疑问。关于每个任务的平均耗时,Poetiq回复称,目前没有专门统计该数据,最简单的问题大约在8到10分钟后完成,而最难的问题必须在12小时的时间限制内终止,因此未来仍有改进空间。
有评论指出,大部分性能提升似乎来自于测试框架和协调机制,而非模型特定的调优。在没有训练变更的情况下准确率提升约15%,这表明仅在搜索、路由和终止逻辑方面就还有很大的优化空间。另有人疑问,为何在该设置中,性能更高的X-High版本每个任务成本反而比High版本低。Poetiq肯定了一种观点,即“X-High只是比High更快地收敛到正确答案”。
Poetiq团队由6位研究员和工程师组成,其中多位核心成员来自Google DeepMind。联合创始人兼联席CEO Ian Fischer曾是Google DeepMind的资深研究员;另一位联合创始人兼联席CEO Shumeet Baluja同样是出身于Google/DeepMind的资深专家。
取得上述成绩的关键在于Poetiq构建的“meta-system”。该系统不依赖特定的大模型,可以与任何前沿模型配合使用,其核心在于优化推理过程,而非训练或微调模型本身,这使得它能随着新模型发布快速适配。
该元系统构建了一种迭代式推理过程,主要包含两个机制:
1. 迭代式的问题求解循环:系统并非一次性生成答案,而是利用大语言模型生成潜在解决方案,随后接收并分析反馈,再次调用模型对方案进行改进。这是一个多步骤、自我改进的过程。
2. 自我审计:系统能够自主审计运行进度,自行判断何时已获得足够信息、当前解决方案是否令人满意,从而决定终止过程。该机制有助于避免不必要的计算浪费,降低整体成本。
Poetiq强调,其所有元系统的适配工作均在新模型发布前完成,且系统从未直接接触过ARC-AGI任务集。该系统在多个不同模型上均取得了跨版本、跨模型族的性能提升,表明其对推理策略具有良好的泛化能力。
对于该元系统,有评论认为:“在模型之上构建智能,而不是在模型内部构建,意味着可以在几小时内适配新模型,非常高明。适配开源模型,并且成功迁移到新的封闭模型,这表明捕捉到的东西是推理过程本身的基本规律,而不是模型特定的怪癖。”
发布时间:2025-12-25 16:15:00



评论 ( 0 )