ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

企业AI落地面临幻觉与数据挑战,工程化能力成关键

2025-12-18

摘要:企业AI应用面临“博士生”模型与“小学生”工程的错配困境,核心挑战在于控制模型“幻觉”、进行数据治理以及解决“AI提效悖论”(员工感觉更累)。研究表明,AI已可覆盖美国11.7%的劳动力任务(薪资规模1.2万亿美元),其中非技术类的认知与行政型任务规模是技术类任务的五倍。真正的提效拐点出现在AI准确率大幅提升(如从40%至90-95%)并辅以完善的工程工具体系时,这要求企业选择高频、刚需、容错空间大的场景,并重视数据治理、服务治理和人机协同模式的构建。

线索:投资机会与风险并存。机会在于“冰山之下”的广阔市场,即金融、保险、物流、医疗等领域的认知与行政型任务自动化,其市场规模远超纯技术岗位。此外,提供AI工程化工具、数据治理服务、人机协同平台的企业将迎来发展红利。风险方面,AI项目存在高实施成本与不确定的ROI,将准确率从80%提升至95%所需的时间和成本难以预测,可能导致投资失败。同时,在B端等高风险场景,模型“幻觉”可能引发严重业务错误和安全问题,对AI的可控性、可观测性提出极高要求。人才结构转型也是一大挑战,兼具业务理解、产品思维和AI技术的复合型人才稀缺,将成为制约企业AI落地的关键瓶颈。

正文

当“小学生”遇上“博士生”

讨论首先围绕模型使用展开。一个观点认为,顶尖模型(如GPT-4、Gemini 3)的智能水平已达到“博士生”级别,但为其搭建的工程环境和编写的Prompt可能仍处于“小学生”水平。这种能力错配导致AI表现不佳。

一位来自阿里巴巴的技术专家分享了基于GUI自动化背景的三个体会:

1. 基础模型选型:需根据具体场景挑选模型。GUI操作类似RPA,对视觉的grounding与推理方式与文本任务不同。在多种模型探索中,千问3在特定GUI场景中表现突出。

2. Agent架构设计:AI Agent架构需从不确定性逐步收敛,而非遵循固定流程。核心是通过工程化手段让模型输出可控。例如,在GUI Agent中引入“裁判”角色,在每一步操作后进行判断。

3. 上下文工程:对于不开发基础模型的团队而言,上下文工程是实现AI能力的核心。若未完整构建过Agent,难以理解其核心意义,因为任务所需的大量信息无法一次性提供给模型,上下文工程决定了模型能力的发挥程度。

针对B端客户需求死板的问题,彩讯股份的AI产研部总经理提出,大模型的“幻觉”是其创造力的来源。如果模型毫无幻觉,就只能背诵知识。因此,应根据场景决定是否需要降低幻觉。在创作类场景,幻觉有助于生成多样内容;在B端业务场景,则需尽量降低。

降低幻觉的方法包括:

* 上下文工程:将专家经验、工具API结果、推理链等注入模型。

* 全流程可观测与可控:B端无法接受黑箱流程。需将意图理解、任务规划、知识调用、工具使用等每一步推理过程打印出来,让用户可见。例如,在行程规划中反复询问用户偏好。

* 接受不完美并持续迭代:AI应用上线后无法达到100%准确,需通过迭代从80分提升至90分、95分。必须通过工程化手段,如人为干预、补充信息,处理模型无法覆盖的部分。

* 增加配套模块:有时需减少模型规模以提升可控性,或让模型先生成规划,再由人工校验,转化为可控流程。

共识认为,大模型智商虽高,但需要大量知识和工程化能力的支撑。模型的创造性来源于“幻觉”,必须接受这种跳脱,同时用工程手段将其控制在合理范围内。

数据的“上下文”缺失

数据是AI的燃料,让AI“读懂”企业内部业务逻辑的最大绊脚石是数据治理。许多客户不理解为何强大的模型仍需数据。原因在于:

1. 模型不理解业务场景:模型无法理解企业特有的术语和流程。例如,在运营商场景,“套餐”可能被误解为快餐套餐。

2. 专家经验需显性化:专家的经验和流程需要传递给模型,否则模型无法解决场景化问题。

数据治理分为两类:

* 知识性数据:包括专家经验、文档、结构化数据等。治理方式有两种:纳入知识库或用于模型训练。若用于训练,需进行清洗、去重、标注、脱敏。若进入知识库,需管理数据来源、更新机制、冲突处理与时效性。

* 生产过程数据:包括API调用记录、系统日志等。这类数据在实时推理时作为上下文提供给模型,需设置严格约束,防范跨权限数据泄露风险。例如,财务Agent的数据被缓存后,可能被无权限的招聘Agent访问。

完成治理后,需进行模型效果评估,分为技术指标(准确率、召回率等)和业务指标(用户增长率、销售转化率等)。这些业务数据是Agent持续迭代的基础。

对于GUI Agent,除了知识性数据,图形数据的准确性至关重要。模型需要理解GUI的“动作空间”(点击、拖拽等)。对于非标准化的UI,需通过数据灌入和示例教学帮助模型学习。同时,可采用CAG(缓存式LAG)等技术处理热点图形数据。在所有类型的Agent中,数据治理都是前置关键环节。

是“真提效”还是“更累了”?

一线员工有时反馈使用AI后“更累了”,因为需要写Prompt、复核结果并承担错误责任。真正的提效拐点在于:

1. 准确率:当AI Agent的准确率较低时,员工会缺乏信心。一个案例显示,某GUI Agent在四月准确率约40%,员工难以依赖;到九月,准确率提升至90%-95%后,团队信心增强,C端业务完全由AI接管,效率提升明显。

2. 工程与工具体系:需要配套调试工具、脚手架、Prompt模板库等基础设施,让员工专注于AI核心部分,而非无关的技术细节。

关于“AI是提升效率还是让人更累”的问题,两者并存。AI确实在写材料、调研、分析等方面显著提升了效率。但同时,行业处于技术转型期,持续学习新知识带来压力。此外,AI时代的工作复杂度和不确定性增加,项目成本和投入产出比更难估算。

一项MIT主导的研究提出了“Iceberg Index”(冰山指数)概念。研究显示,AI技术已可覆盖美国经济中约11.7%的劳动力任务,涉及薪资规模1.2万亿美元。其中,技术圈层任务仅占约2.2%的劳动力。而大量认知型和行政型任务(如金融审核、保险理赔、物流协调等)在技术上已高度可自动化,这些“冰山之下”的任务规模是“冰山之上”的五倍。结论是:真正取代岗位的不是AI本身,而是“更会使用AI的人”。

随着AI发展,基础工作者的角色将转型为借助AI完成更高效、更深入的分析。技术招聘标准也发生变化:

* 核心能力不变:软件工程、架构能力仍是核心。

* 新增加分项:AI工程能力、概率思维能力、效果评估能力、从业务场景识别AI价值的能力。

* 项目“一号位”要求更高:需兼顾项目管理与产品设计,理解业务、懂AI技术,能将底层AI能力包装成用户可感知的产品功能。

* 测试工程师角色转变:需具备业务理解和产品思维,参与全流程质量保障,设计端到端测试用例,并具备风险意识。

* 全员AI能力:公司要求全员具备AI能力,并提供相应培训。前端工程师需参与交互设计,思考多模态交互、信息呈现等问题。

一个重要的招聘标准是候选人是否真正愿意并频繁使用AI,形成真实体感,以把握AI的特性与行为规律。

价值与终局——算账与未来

在评估AI应用场景时,需避免两个极端:好高骛远(直接升级核心系统)和隔靴搔痒(选择低频边缘场景)。场景选择原则包括:

* 业务价值:高频、刚需、有明确付费方。

* 数据就绪度:数字化程度高,知识已结构化。

* 容错空间:可引入人机协同模式,将错误率控制在可接受范围。

场景价值评估需衡量总拥有成本(硬件、Token、人力、合规)与价值机会(降本、提价、留存、决策优化)。当价值机会减去总拥有成本为正时,值得投入。

当前尚无通用方法判断AI落地场景,建议采用快速迭代、小规模试点的方式。在“效率提升”方向已有大量成功案例,如用AI自动生成日报周报。在更复杂的Agent场景,各公司仍在探索。

关于如何精确匹配个人需求和商品信息,一种思路是利用AI对全网数据进行结构化整理,理解用户行为背后的真实需求,并结合用户描述、社交媒体内容等构建商品的完整表述,实现场景与商品的精准匹配。这需要充分的数据预处理与治理。

在给企业做AI应用落地时,最难的环节之一是服务治理,即将AI与企业现有庞大的业务流程、系统和数据深度融合。例如,将数万个API转化为模型可调度的插件,并保证其性能、管理与监控,是巨大挑战。

关于Agent自主操作手机是否会失控的问题,如果准确率和流程控制在可确定范围内,不会失控。但Agent存在不确定性,必须通过风险前置处理,如在产品流程中加入“阀门式”安全措施,在技术端加入可视化链路和监督机制,对关键步骤进行实时中断,以规避风险。

发布时间:2025-12-17T10:40:34+00:00

相关推荐

评论 ( 0 )

3.3 W

文章

60.6 W

点赞

回顶部