摘要:2025年被资本市场定义为“Agent元年”,但研究揭示其理想与现实的巨大差距。加州大学伯克利分校的调研显示,68%的生产级Agent执行步骤被限制在10步以内,80%的案例使用“结构化控制流”,表明当前Agent更像是在严格流程中工作的“实习生”。DeepMind的两篇论文进一步指出,盲目增加Agent数量或计算预算并不能线性提升性能,反而可能因“协调税”和错误放大而降低效率。研究提出了一个预测架构性能的公式,并发现仅在金融分析等边界清晰的任务中,多智能体协作才能带来显著收益(如中心化架构提升81%)。真正的突破需依赖有效工具管理、内建自我验证和高效通信协议来降低上下文消耗。
线索:
* 风险与挑战:投资需警惕对“多Agent协同”和“无限算力”叙事过于乐观的项目。研究表明,在开放、复杂的任务场景中,简单的多Agent堆砌可能导致性能下降、成本激增且错误率放大。企业当前的实践(如严格步骤限制、使用封装接口)也反映了生产环境对可靠性、可控性和成本的严苛要求,这与追求完全自主的Agent愿景存在矛盾。技术上面临的核心瓶颈是“上下文消耗”问题,即模型在协调、沟通和工具认知上的负担过重。
* 机会与方向:投资机会存在于能系统性降低“上下文消耗”的解决方案中。具体包括:1. 工具/技能管理平台:类似Anthropic Skills的机制,将工具抽象为可复用、可组合的能力模块,降低Agent的认知与学习成本。2. 规划与验证框架:如DeepMind提出的BATS(预算感知测试时缩放)系统,能为Agent提供动态任务规划、预算管理和结果验证能力,提升资源利用效率和任务成功率。3. 高效通信协议:支持Agent间进行结构化、高信息密度通信的基础设施或中间件。此外,在金融分析、数据提取等流程标准化程度高、任务边界清晰的垂直领域,多Agent解决方案已展现出明确价值,是当前更稳妥的投资和落地切入点。
正文:
2025年,在资本市场被称为“Agent元年”。多Agent应用因其高自动化和强泛化能力受到关注,业界一度流行两个观点:第一,单个Agent能力有限,多Agent协作能解决复杂问题;第二,增加Token和工具调用预算能提升性能。
然而,加州大学伯克利分校于2025年12月发布的一份针对生产环境的调研报告《Measuring Agents in Production》,呈现了不同的现实。该研究调研了306位从业者和20个深度案例,只考察已部署上线的系统。核心发现包括:68%的生产级Agent执行步骤被严格限制在10步以内;允许数十步的占16.7%,无限制的仅占6.7%。为控制风险,企业通常在Agent与生产环境间构建抽象层(Wrapper APIs)来封装和简化工具调用。80%的深度访谈案例使用了“结构化控制流”,即任务流程图由人事先定义。此外,12%的已部署系统其Prompt长度超过10,000 Tokens。这些情况表明,当前的Agent更类似于被置于严格标准作业流程中的“实习生”,虽能理解模糊意图,但自主性和复杂性有限。
2025年11月和12月,DeepMind连续发布的两篇论文为上述现象提供了原理性解释,并直接挑战了Agent领域的两个核心假设。
第一篇论文《Towards a Science of Scaling Agent Systems》通过超过180个受控实验,测试了单Agent、独立多Agent、去中心化多Agent、中心化多Agent及混合式架构在多种模型和任务上的表现。主要结论如下:
1. 工具-协作权衡:在开放复杂任务中,单纯增加Agent数量会导致性能下降,因为“协调税”(理解接口、维护上下文等成本)会超过并行收益。
2. 能力饱和效应:当单Agent准确率超过45%时,引入多智能体协作往往带来收益递减甚至负收益。
3. 错误放大拓扑:在独立多Agent架构下,错误可能被放大。论文量化了“错误放大因子”,例如该因子为17.2时,意味着单Agent5%的错误率在多Agent系统中可能被放大至86%。
研究最终总结出一个混合效应模型公式:最终效果 = (单体智力 + 人多力量大) – (人多的混乱程度 + 沟通的噪音 + 工具的认知负担)。该模型能以87%的准确率预测特定任务下的最优架构。实验显示,在多数任务(如游戏规划、网页浏览)中,多Agent架构优势不明显甚至有害;唯独在金融分析这类边界清晰、流程明确的任务中,中心化多Agent架构能带来高达81%的性能提升。这表明当前模型尚不具备自组织分工能力,仍需人为编排任务流程。
第二篇论文《Budget-Aware Tool-Use Enables Effective Agent Scaling》则证伪了“更多预算等于更好效果”的假设。研究发现,单纯增加工具调用预算,Agent性能并不会线性增长,而是很快遇到天花板。例如,标准ReAct Agent在预算翻倍后准确率仅微升0.2个百分点,因为模型平均只使用了少量预算,且缺乏机会成本概念,容易在错误路径上浪费资源。
为解决此问题,论文提出了BATS(预算感知测试时缩放)系统,其核心是预算感知规划和预算感知验证两个模块。规划模块动态管理任务树,根据预算调整探索策略;验证模块对答案进行约束检查,指导Agent继续深挖或及时转向。实验表明,BATS在网页浏览任务上的准确率相比标准ReAct提升95%(达到24.6%)和46%(达到46.0%),且在相同准确率下,综合成本比并行投票方案低40%以上。
综合来看,当前多Agent系统面临的核心挑战是“无效的上下文消耗”,包括沟通噪音和工具认知负担,它们抵消了协作带来的潜在收益。要让多Agent系统真正发挥潜力,未来需要突破以下方向:
1. 有效工具管理:将工具抽象为可复用的技能模块,降低认知与协调成本。
2. 内建的自我验证能力:通过形式化验证机制,减少错误积累和无效推理。
3. 模型间高效通信协议:发展结构化、高信息密度的通信方式,降低协商成本。
在这些技术取得实质性进展之前,Agent领域仍处于依赖硬编码、强管控的工程阶段。
发布时间:2025-12-24 10:03:43



评论 ( 0 )