ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

2025年AI智能体能力指数级增长,人机协作降本增效

2025-12-24

摘要:人工智能已能完成具有实际经济价值的工作。OpenAI的GDPVAL基准测试显示,在需要人类专家平均4-7小时完成的真实业务任务中,最新AI模型的表现已接近人类专家水平,主要短板在于格式和指令遵循。剑桥大学等机构的研究指出,AI智能体处理长序列任务的能力正呈指数级提升,其性能提升未出现收益递减。然而,AI目前擅长的是特定“任务”,而非包含复杂互动和决策的完整“工作”。人类对AI的使用方式将决定其影响:若仅用于替代人力或生成低价值内容,将带来风险;若作为协作工具,则可显著提升工作效率并降低成本。

线索

* 风险:AI的经济价值可能被误用或低估。风险一在于企业可能短视地仅将AI用于自动化替代,而非赋能员工和业务创新,导致组织僵化和人才浪费。风险二在于缺乏明确目标的使用可能导致“生产力陷阱”,即AI生成大量低价值或冗余内容(如不必要的多版本报告),反而增加筛选和管理负担,淹没有效信息。

* 机会:投资机会存在于两个层面。一是直接利用AI作为生产力工具的场景,特别是在法律文书分析、基础代码生成与审查、营销内容初稿、学术研究复现与验证等领域,能够实现显著的效率提升(研究称最高可达40%的速度提升和60%的成本降低)。二是投资于解决AI当前“最后一公里”问题的技术和服务,例如:提升AI输出格式规范性、增强复杂指令理解与遵循能力的中间件或提示工程工具;以及帮助企业设计人机协同工作流、最大化AI价值而非简单替代人力的咨询服务。

正文

人工智能现已能够执行具有实际经济价值的工作。一个常见的质疑是其实用性,例如当要求AI根据一份备忘录制作PPT时,它可能生成多达17个版本。针对AI是否真正具备经济价值的问题,需要依据数据进行评估。

目前,衡量AI能力普遍依赖各类“基准测试”。OpenAI近期推出了名为GDPVAL的新基准测试,专注于评估大模型在现实工作场景中创造经济价值的能力。该测试设计如下:题目由来自金融、法律、零售等行业的资深专家(平均拥有14年经验)出题,难度相当于人类专家平均需要4至7小时完成的真实业务任务。评测采用盲测方式,由不知情的第三方专家对AI和人类专家完成的同一任务结果进行评分。

测试结果显示,人类专家最终获胜,但优势微弱。同时,测试发现AI模型进步迅速,较新模型的得分远超旧模型。AI表现不及人类的主要原因并非“幻觉”或事实性错误,而在于“格式排版不佳”和“未能精确遵循指令”——这些被认为是相对容易改进的方面。此外,AI在不同专业领域的表现存在差异。

尽管测试表明下一代AI模型可能在此类任务上超越人类专家,但这并不意味着AI已准备好取代人类工作。关键在于区分“任务”与“工作”:任务是具体的、离散的活动(如写一段代码);工作则是复杂的集合,包含一系列任务、人际沟通、决策以及对突发状况的处理。只要AI尚无法像人类一样处理复杂的互动,它就无法完全取代一个岗位。

那么,AI在需要多步骤的复杂任务上能力如何?此前普遍认为AI独立完成长任务(如编写完整软件)非常困难,因为过程中的错误会累积导致失败。然而,剑桥大学等机构的最新研究颠覆了这一认知,指出AI智能体的能力正在爆发,其性能提升并未出现收益递减,主要原因包括:1)性能的微小提升能显著扩大可完成任务的范畴;2)具备自我修正能力,不会被单一错误拖垮;3)更长的上下文窗口允许单次处理更长的流程;4)模型自身规划能力的增强。研究表明,衡量AI能以至少50%几率独立完成的任务复杂度的指标(METR),从GPT-3到GPT-5持续保持指数级增长。这意味着在不远的未来,AI将能够独立完成目前需要专业人士一天甚至一周时间的复杂任务。

然而,真正完全自主的智能体尚不存在。AI的未来影响很大程度上取决于人类如何使用它。当前主要存在两大风险导向:一是组织仅关注利用AI削减成本、替代人力,而非探索其拓展或转型业务的潜能;二是在没有明确目标的情况下过度使用AI,导致生成大量不必要的低价值内容(如前述的17份PPT),形成“电子垃圾”的洪流。

作为一种替代方案,OpenAI建议采用人机协作的工作流程:专家将任务委托给AI,将其输出作为初稿进行审查和修正。如果初稿质量不足,可通过优化指令要求AI重试;若仍不奏效,则由人类亲自完成。研究估计,遵循此流程,专家的工作速度可提升40%,成本可降低60%,同时保持对工作成果的控制权。

具有经济实用性的智能体已经出现。例如,利用AI智能体复现学术论文,有助于应对学术界的“可复现性危机”。尽管当前智能体能够完成的任务范围仍有局限,但其已展现出经济价值,并且该价值正在增长。

最终将出现何种未来,区别主要不在于AI技术本身的演进,而在于人类选择如何使用AI。通过有意识地判断哪些工作值得做,而不仅仅是关注AI能做什么,可以确保这些工具增强人类的能力,而不仅仅是提升效率。

发布时间:2025-12-23 18:43

相关推荐

评论 ( 0 )

3.4 W

文章

65.6 W

点赞

回顶部