2025年AI智能体能力指数级增长，人机协作降本增效

2025-12-24

摘要：人工智能已能完成具有实际经济价值的工作。OpenAI的GDPVAL基准测试显示，在需要人类专家平均4-7小时完成的真实业务任务中，最新AI模型的表现已接近人类专家水平，主要短板在于格式和指令遵循。剑桥大学等机构的研究指出，AI智能体处理长序列任务的能力正呈指数级提升，其性能提升未出现收益递减。然而，AI目前擅长的是特定“任务”，而非包含复杂互动和决策的完整“工作”。人类对AI的使用方式将决定其影响：若仅用于替代人力或生成低价值内容，将带来风险；若作为协作工具，则可显著提升工作效率并降低成本。

线索：

* 风险：AI的经济价值可能被误用或低估。风险一在于企业可能短视地仅将AI用于自动化替代，而非赋能员工和业务创新，导致组织僵化和人才浪费。风险二在于缺乏明确目标的使用可能导致“生产力陷阱”，即AI生成大量低价值或冗余内容（如不必要的多版本报告），反而增加筛选和管理负担，淹没有效信息。

* 机会：投资机会存在于两个层面。一是直接利用AI作为生产力工具的场景，特别是在法律文书分析、基础代码生成与审查、营销内容初稿、学术研究复现与验证等领域，能够实现显著的效率提升（研究称最高可达40%的速度提升和60%的成本降低）。二是投资于解决AI当前“最后一公里”问题的技术和服务，例如：提升AI输出格式规范性、增强复杂指令理解与遵循能力的中间件或提示工程工具；以及帮助企业设计人机协同工作流、最大化AI价值而非简单替代人力的咨询服务。

正文：

人工智能现已能够执行具有实际经济价值的工作。一个常见的质疑是其实用性，例如当要求AI根据一份备忘录制作PPT时，它可能生成多达17个版本。针对AI是否真正具备经济价值的问题，需要依据数据进行评估。

目前，衡量AI能力普遍依赖各类“基准测试”。OpenAI近期推出了名为GDPVAL的新基准测试，专注于评估大模型在现实工作场景中创造经济价值的能力。该测试设计如下：题目由来自金融、法律、零售等行业的资深专家（平均拥有14年经验）出题，难度相当于人类专家平均需要4至7小时完成的真实业务任务。评测采用盲测方式，由不知情的第三方专家对AI和人类专家完成的同一任务结果进行评分。

测试结果显示，人类专家最终获胜，但优势微弱。同时，测试发现AI模型进步迅速，较新模型的得分远超旧模型。AI表现不及人类的主要原因并非“幻觉”或事实性错误，而在于“格式排版不佳”和“未能精确遵循指令”——这些被认为是相对容易改进的方面。此外，AI在不同专业领域的表现存在差异。

尽管测试表明下一代AI模型可能在此类任务上超越人类专家，但这并不意味着AI已准备好取代人类工作。关键在于区分“任务”与“工作”：任务是具体的、离散的活动（如写一段代码）；工作则是复杂的集合，包含一系列任务、人际沟通、决策以及对突发状况的处理。只要AI尚无法像人类一样处理复杂的互动，它就无法完全取代一个岗位。

那么，AI在需要多步骤的复杂任务上能力如何？此前普遍认为AI独立完成长任务（如编写完整软件）非常困难，因为过程中的错误会累积导致失败。然而，剑桥大学等机构的最新研究颠覆了这一认知，指出AI智能体的能力正在爆发，其性能提升并未出现收益递减，主要原因包括：1）性能的微小提升能显著扩大可完成任务的范畴；2）具备自我修正能力，不会被单一错误拖垮；3）更长的上下文窗口允许单次处理更长的流程；4）模型自身规划能力的增强。研究表明，衡量AI能以至少50%几率独立完成的任务复杂度的指标（METR），从GPT-3到GPT-5持续保持指数级增长。这意味着在不远的未来，AI将能够独立完成目前需要专业人士一天甚至一周时间的复杂任务。

然而，真正完全自主的智能体尚不存在。AI的未来影响很大程度上取决于人类如何使用它。当前主要存在两大风险导向：一是组织仅关注利用AI削减成本、替代人力，而非探索其拓展或转型业务的潜能；二是在没有明确目标的情况下过度使用AI，导致生成大量不必要的低价值内容（如前述的17份PPT），形成“电子垃圾”的洪流。

作为一种替代方案，OpenAI建议采用人机协作的工作流程：专家将任务委托给AI，将其输出作为初稿进行审查和修正。如果初稿质量不足，可通过优化指令要求AI重试；若仍不奏效，则由人类亲自完成。研究估计，遵循此流程，专家的工作速度可提升40%，成本可降低60%，同时保持对工作成果的控制权。

具有经济实用性的智能体已经出现。例如，利用AI智能体复现学术论文，有助于应对学术界的“可复现性危机”。尽管当前智能体能够完成的任务范围仍有局限，但其已展现出经济价值，并且该价值正在增长。

最终将出现何种未来，区别主要不在于AI技术本身的演进，而在于人类选择如何使用AI。通过有意识地判断哪些工作值得做，而不仅仅是关注AI能做什么，可以确保这些工具增强人类的能力，而不仅仅是提升效率。

发布时间：2025-12-23 18:43

2025年AI智能体能力指数级增长，人机协作降本增效

相关推荐

评论 ( 0 )

取消回复

2025年AI智能体能力指数级增长，人机协作降本增效

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站