生产级AI Agent任务执行受限，需改进工具调用与通信协议

2025-12-25

摘要：2025年被资本市场定义为“Agent元年”，但研究揭示其理想与现实的巨大差距。加州大学伯克利分校的调研显示，68%的生产级Agent执行步骤被限制在10步以内，80%的案例使用“结构化控制流”，表明当前Agent更像是在严格流程中工作的“实习生”。DeepMind的两篇论文进一步指出，盲目增加Agent数量或计算预算并不能线性提升性能，反而可能因“协调税”和错误放大而降低效率。研究提出了一个预测架构性能的公式，并发现仅在金融分析等边界清晰的任务中，多智能体协作才能带来显著收益（如中心化架构提升81%）。真正的突破需依赖有效工具管理、内建自我验证和高效通信协议来降低上下文消耗。

线索：

* 风险与挑战：投资需警惕对“多Agent协同”和“无限算力”叙事过于乐观的项目。研究表明，在开放、复杂的任务场景中，简单的多Agent堆砌可能导致性能下降、成本激增且错误率放大。企业当前的实践（如严格步骤限制、使用封装接口）也反映了生产环境对可靠性、可控性和成本的严苛要求，这与追求完全自主的Agent愿景存在矛盾。技术上面临的核心瓶颈是“上下文消耗”问题，即模型在协调、沟通和工具认知上的负担过重。

* 机会与方向：投资机会存在于能系统性降低“上下文消耗”的解决方案中。具体包括：1. 工具/技能管理平台：类似Anthropic Skills的机制，将工具抽象为可复用、可组合的能力模块，降低Agent的认知与学习成本。2. 规划与验证框架：如DeepMind提出的BATS（预算感知测试时缩放）系统，能为Agent提供动态任务规划、预算管理和结果验证能力，提升资源利用效率和任务成功率。3. 高效通信协议：支持Agent间进行结构化、高信息密度通信的基础设施或中间件。此外，在金融分析、数据提取等流程标准化程度高、任务边界清晰的垂直领域，多Agent解决方案已展现出明确价值，是当前更稳妥的投资和落地切入点。

正文：

2025年，在资本市场被称为“Agent元年”。多Agent应用因其高自动化和强泛化能力受到关注，业界一度流行两个观点：第一，单个Agent能力有限，多Agent协作能解决复杂问题；第二，增加Token和工具调用预算能提升性能。

然而，加州大学伯克利分校于2025年12月发布的一份针对生产环境的调研报告《Measuring Agents in Production》，呈现了不同的现实。该研究调研了306位从业者和20个深度案例，只考察已部署上线的系统。核心发现包括：68%的生产级Agent执行步骤被严格限制在10步以内；允许数十步的占16.7%，无限制的仅占6.7%。为控制风险，企业通常在Agent与生产环境间构建抽象层（Wrapper APIs）来封装和简化工具调用。80%的深度访谈案例使用了“结构化控制流”，即任务流程图由人事先定义。此外，12%的已部署系统其Prompt长度超过10,000 Tokens。这些情况表明，当前的Agent更类似于被置于严格标准作业流程中的“实习生”，虽能理解模糊意图，但自主性和复杂性有限。

2025年11月和12月，DeepMind连续发布的两篇论文为上述现象提供了原理性解释，并直接挑战了Agent领域的两个核心假设。

第一篇论文《Towards a Science of Scaling Agent Systems》通过超过180个受控实验，测试了单Agent、独立多Agent、去中心化多Agent、中心化多Agent及混合式架构在多种模型和任务上的表现。主要结论如下：

1. 工具-协作权衡：在开放复杂任务中，单纯增加Agent数量会导致性能下降，因为“协调税”（理解接口、维护上下文等成本）会超过并行收益。

2. 能力饱和效应：当单Agent准确率超过45%时，引入多智能体协作往往带来收益递减甚至负收益。

3. 错误放大拓扑：在独立多Agent架构下，错误可能被放大。论文量化了“错误放大因子”，例如该因子为17.2时，意味着单Agent5%的错误率在多Agent系统中可能被放大至86%。

研究最终总结出一个混合效应模型公式：最终效果 = (单体智力 + 人多力量大) – (人多的混乱程度 + 沟通的噪音 + 工具的认知负担)。该模型能以87%的准确率预测特定任务下的最优架构。实验显示，在多数任务（如游戏规划、网页浏览）中，多Agent架构优势不明显甚至有害；唯独在金融分析这类边界清晰、流程明确的任务中，中心化多Agent架构能带来高达81%的性能提升。这表明当前模型尚不具备自组织分工能力，仍需人为编排任务流程。

第二篇论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》则证伪了“更多预算等于更好效果”的假设。研究发现，单纯增加工具调用预算，Agent性能并不会线性增长，而是很快遇到天花板。例如，标准ReAct Agent在预算翻倍后准确率仅微升0.2个百分点，因为模型平均只使用了少量预算，且缺乏机会成本概念，容易在错误路径上浪费资源。

为解决此问题，论文提出了BATS（预算感知测试时缩放）系统，其核心是预算感知规划和预算感知验证两个模块。规划模块动态管理任务树，根据预算调整探索策略；验证模块对答案进行约束检查，指导Agent继续深挖或及时转向。实验表明，BATS在网页浏览任务上的准确率相比标准ReAct提升95%（达到24.6%）和46%（达到46.0%），且在相同准确率下，综合成本比并行投票方案低40%以上。

综合来看，当前多Agent系统面临的核心挑战是“无效的上下文消耗”，包括沟通噪音和工具认知负担，它们抵消了协作带来的潜在收益。要让多Agent系统真正发挥潜力，未来需要突破以下方向：

1. 有效工具管理：将工具抽象为可复用的技能模块，降低认知与协调成本。

2. 内建的自我验证能力：通过形式化验证机制，减少错误积累和无效推理。

3. 模型间高效通信协议：发展结构化、高信息密度的通信方式，降低协商成本。

在这些技术取得实质性进展之前，Agent领域仍处于依赖硬编码、强管控的工程阶段。

发布时间：2025-12-24 10:03:43

生产级AI Agent任务执行受限，需改进工具调用与通信协议

相关推荐

评论 ( 0 )

取消回复

生产级AI Agent任务执行受限，需改进工具调用与通信协议

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站