ReadCai财经资讯

AI手机自动化路径分歧:读屏与接口对接的博弈

2025-12-19

摘要

国内“AI手机”通过读屏和模拟点击等技术实现跨应用自动化,提升了效率但也引发了对权限突破、隐私和责任的担忧。与此形成对比,海外科技巨头如苹果、谷歌等则选择更为保守的接口化路线,通过标准化协议让AI调用第三方应用能力,而非直接操作界面。当前,行业正探索Agent to Agent(A2A)等协作机制,旨在建立一套可审计、可治理的安全边界,以平衡创新体验与系统性风险,避免陷入“权限竞赛”。

线索

本文揭示了AI手机发展路径上的关键分叉口,带来了不同的投资风险与机会。

* 风险:国内厂商激进的“读屏”路径虽然短期体验惊艳,但其底层依赖对系统权限的深度突破。这可能引发两大风险:一是监管风险,一旦出现大规模隐私泄露或安全事件,可能招致严厉的行业监管,导致整个技术路线被否定;二是生态风险,无序的“权限竞赛”会破坏既有应用生态的稳定性,增加长期治理成本。投资于过度依赖该路径且缺乏安全治理框架的公司,面临较高的不确定性。

* 机会:真正的长期机会在于构建AI生态的“基础设施”和“规则”。海外厂商主导的接口化路线和协议(如Anthropic的MCP)旨在建立一个标准化、可扩展、可治理的协作体系。投资于以下两类标的更具潜力:1)标准制定者与核心协议开发方,如同MCP协议的背后支持者,它们有望在未来AI生态中占据核心地位;2)积极拥抱并整合标准化协议的平台型公司,它们能利用开放生态快速、安全地提升产品AI能力,避免重复造轮子和安全雷区,从而在长期竞争中占据优势。

正文

近期,“AI手机”概念引发关注。其核心能力在于通过读屏、模拟点击、进程注入等方式,实现跨应用的自动化流程。用户发出指令后,手机可在多个App之间自动执行下单、搜索、规划或支付等任务,无需人工干预。这种效率展示提高了公众对AI助手能力的期待,也推动了厂商加速展示相关技术。

然而,此类能力的技术门槛部分体现在对系统权限边界的突破上,引发了关于效率、隐私与责任之间如何平衡的讨论。与国内的积极氛围不同,海外市场的软硬件厂商整体表现相对克制。苹果、谷歌、三星等公司尚未推出类似的AI自动化体验,而是在A2A等AI智能体连接的技术框架上进行探索。

在是否让AI助手直接操作第三方应用的问题上,中美企业呈现出不同的技术路径。以OpenAI、Anthropic、谷歌、微软、苹果与xAI为代表的美国科技公司,其AI助手暂未采用读屏、模拟点击的方式操作手机应用。谷歌Gemini与微软Copilot虽在手机上具备屏幕共享与实时问答功能,但AI助手仍无法直接操作。

有限的探索主要集中在PC端,并被限定在受控环境内。美国公司在图形用户界面(GUI)方向的尝试可分为Browser Use与Computer Use两类。前者允许AI在浏览器中代理用户行为,后者试图让AI操作整台电脑,但普遍通过沙盒或虚拟机进行隔离。OpenAI的Atlas浏览器允许ChatGPT在网页层面执行任务,但禁止运行代码、下载文件或访问本地应用。Anthropic的Claude for Chrome、谷歌的Gemini Agent及微软集成Copilot的Edge浏览器能力边界类似,且均处于早期测试阶段。

在Computer Use方向,美国公司的推进也较为谨慎。Anthropic于2024年底发布的Computer Use API至今仅供开发者测试,并要求使用虚拟环境。谷歌于今年10月发布的Gemini 2.5 Computer Use模型同样处于开发者预览阶段。OpenAI在7月推出的ChatGPT Agent,其工作环境也是一台完全隔离的虚拟机。微软在Recall功能引发隐私争议后,将功能拆分为Copilot Vision与Copilot Actions,前者仅在授权应用内提供辅助,后者则在沙盒桌面中运行并严格限制文件访问。这些设计反映出美国AI公司对AI Agent权限的警惕,其考量核心在于责任与法律问题,而非单纯的技术能力。

国内厂商选择手机端GUI路线,与其产业背景相关。国内移动互联网形成的“超级App”与“跨场景服务”模式,使厂商倾向于在前台整合服务。让AI直接操作被视为缩短价值兑现路径的选择,但这也意味着更高的系统性风险。

与“直接操作界面”不同,美国厂商倾向于让AI通过标准化接口调用第三方能力。这一策略在OpenAI、操作系统厂商及Anthropic身上呈现出不同形态。OpenAI通过其插件体系、Assistants API及基于MCP协议的Apps SDK,将第三方应用以卡片形式嵌入ChatGPT对话流程,使AI成为统一调度层。苹果、谷歌、微软等操作系统厂商则采取了基础设施路径:苹果的Apps Intent框架、谷歌Android 16的AppFunctions API、微软Windows 11的Apps Actions API,均强调由应用主动声明功能,供系统级AI调用。

Anthropic作为初创公司,聚焦于规则制定。其于2024年11月开源的MCP协议,已获得OpenAI、谷歌、微软等厂商的接入,并于今年12月捐赠给Linux基金会。数据显示,MCP的活跃公共服务数量在一年内从2000增长至1万,并被主流AI产品采纳。接口路线为AI智能体提供了可规模化、可治理的演进路径。

国内AI手机的发展正进入如何建立长期可扩展安全边界的阶段。部分团队追求激进体验,也有观点呼吁更沉稳的路径。OPPO ColorOS智慧产品研发总监姜昱辰表示,GUI Agent是长尾场景的兜底技术,OPPO更倾向通过Agent to Agent(A2A)实现生态互联。

A2A协作机制的核心是“分权协作”:系统级AI理解用户意图并拆解任务,分发给各应用自己的Agent,由其在自身权限边界内完成执行。这种模式在明确的授权与责任体系内运行,便于事后审计与纠错。这一思路与Anthropic推动的MCP协议一致,依赖开放生态、明确的接口与可审计的流程。另一方向是构建端侧记忆系统,在本地存储用户信息,以在不读取其他应用数据、不上传云端的前提下实现个性化。

行业担忧在于,若厂商为争夺市场而不断下探系统权限,可能引发“权限竞赛”,导致生态稳定性丧失,安全与隐私风险被指数级放大。因此,行业呼吁跨应用协作应走向标准化,建立包括双重授权机制、权限分级、行为日志及A2A、MCP等开放协议在内的基础设施。

发布时间

2025-12-18T17:15:19+00:00

相关推荐

评论 ( 0 )

3.3 W

文章

61.5 W

点赞

回顶部