摘要
由6位前DeepMind成员创立的初创公司Poetiq,开发了一套元系统,该系统能自动生成策略与模型组合,以优化现有大语言模型在复杂任务上的表现。其推出的Gemini 3 Pro优化技术在ARC-AGI-2基准测试中以54%的得分刷新了业界最佳水平(SOTA),同时将每任务计算成本降至31美元,仅为此前最优方法的一半。该系统的核心优势在于其模型无关性,能够快速适配新发布的模型,并通过自动化推理流程显著提升效率、降低成本。
线索
Poetiq的商业模式并非直接参与大模型的军备竞赛,而是选择成为“AI指挥官”或“模型编排层”,这是一个极具潜力的差异化赛道。其核心投资价值在于:
1. 成本效益与可扩展性:将推理成本减半的成果直接切中了企业级AI应用的最大痛点。其模型无关的特性意味着它可以持续利用最新、最强的模型,而无需承担巨大的模型研发成本,形成一种轻资产、高回报的业务模式。
2. 技术护城河:虽然文章描述其系统“全靠大语言模型”,但如何设计出能够高效、自动化地生成策略、组合模型、并进行自我检查的元系统架构,本身就是一项复杂的技术挑战。创始团队的DeepMind背景为其技术可行性提供了强有力背书。
3. 市场定位:Poetiq可以作为API服务、企业内部AI组件优化器或与云平台合作,市场空间广阔。它赋能而非取代现有模型厂商,这降低了市场推广的阻力。
风险方面,主要威胁来自OpenAI、Google等巨头。如果这些头部公司将类似的模型编排能力作为其模型服务的标准功能,可能会挤压Poetiq的生存空间。因此,Poetiq需要持续保持技术领先,并建立强大的生态合作,以构建稳固的竞争壁垒。
正文
一家名为Poetiq的初创公司由6名来自Google DeepMind的前研究员与工程师组成,该团队累计拥有53年的专业经验。公司成立不到一年,其目标是“以更优的推理,铺就通过安全超级智能的最快路径”。
Poetiq并未研发新的基础大模型,而是构建了一个元系统。该系统能够利用任何现有的前沿大模型,自动生成用于解决特定任务的完整系统,包括策略和模型组合,而无需构建或微调模型本身。
2024年12月8日,ARC Prize官方验证了Poetiq的成果。其推出的Gemini 3 Pro优化技术在ARC-AGI-2排行榜上创下新的业界最佳表现(SOTA),得分达到54%,每任务计算成本为30.57美元。此前的最佳成绩是由Gemini 3 Deep Think(预览版)创下的,其得分为45%,每任务成本为77.16美元。这意味着Poetiq系统在将准确率提升9个百分点的同时,将成本降低了约60%。
Poetiq团队将这一成绩归功于其元系统的设计。该系统具有递归和自我改进的特性,不依赖任何特定的大模型。正因如此,该系统能在Gemini 3与GPT-5.1等新模型发布后数小时内快速接入并取得SOTA表现。
该元系统的核心工作流程是循环式的解题过程:系统首先让大模型生成一个可能的答案(可能包含代码),然后根据反馈进行分析,并继续利用模型改进答案。这种多步骤、自我完善的方式能够逐步构建并打磨最终解答。同时,系统具备自我检查机制,会自主判断何时信息足够、结果可靠,从而自动结束流程,避免算力浪费。
为了展示元系统的通用性,Poetiq将其应用于多个主流模型,包括来自Google DeepMind、OpenAI、Anthropic和xAI的最新模型,并在所有测试中都实现了“更高准确率+更低成本”的结果。例如:
* Poetiq (Grok-4-Fast):基于Grok-4-Fast Reasoning模型构建,主打极致成本效率,其表现比原模型更便宜、更准确,能达到比其价格高两个数量级的模型相当的准确度。
* Poetiq (GPT-OSS-b):基于开源权重模型GPT-OSS-120B,在单题成本不到1美分的情况下取得了显著的准确率。
Poetiq选择ARC-AGI作为其理念的验证场,是因为该基准测试旨在评估模型的抽象推理、归纳、逻辑和策略生成能力,这与Poetiq元系统的优势相匹配。大模型虽然蕴含大量知识,但在复杂推理任务上表现不稳定,高度依赖提示词。Poetiq的系统旨在自动化发现最优推理策略的过程,并在现实限制(如预算)内工作。
Poetiq未来的方向包括让系统攻克更多样化的基准任务,以及利用该系统优化现有大型系统内部的AI组件。团队认为,如果能在不修改模型本身的前提下,通过优化底层知识提取机制来解决长时序任务,或许可以减少对模型调优的依赖。
发布时间
2025年12月15日 10:24



评论 ( 0 )