ReadCai财经资讯
当前位置:首页 » 13. 科技 » 企业软件

微软推出多模态大语言模型支持的AgentOS UFO²

2025-04-25

数据:

微软发布了新的桌面操作系统UFO²,通过多模态大语言模型(LLM)和画中画(PiP)功能来提高复杂桌面工作流程的自动化能力。评估表明,UFO²在鲁棒性和执行准确性方面有显著提高。该系统通过深度集成与现代Windows应用相结合,以减少每一步的LLM开销。

线索:

UFO²的推出可能为桌面自动化市场带来新的投资机会,尤其是在高效任务自动化和提高用户生产力方面。但也存在技术整合和用户适应性的风险,特别是在系统与多种应用的兼容性以及用户体验上。

正文:

微软近期推出了一款新的针对Windows桌面的AgentOS,名为UFO²。该操作系统运用多模态大语言模型(LLM),旨在通过自然语言处理来实现复杂桌面工作流程的自动化。尽管目前许多Computer-Using Agent(CUA)仍处于概念验证阶段,且面临许多挑战,如操作系统集成程度低、依赖不稳定的屏幕截图交互等,UFO²的出现则提供了一个潜在的解决方案。

UFO²的设计目标是提高运行效率,减少每一步所需的LLM开销。它采用了画中画(PiP)功能,允许用户与自动化agent同时进行操作,互不干扰。该系统通过本地部署和自然语言指令转化为跨多个应用程序的任务协调,旨在提供稳定可靠的桌面自动化体验。

UFO²内部由HostAgent和AppAgent两部分组成。HostAgent作为系统控制中心,负责将用户的目标转化为结构化子任务,并协调各个AppAgent。每个AppAgent则是针对特定应用程序的工作进程,具备原生API接口,专注于稳定的任务执行能力。

为了保证用户桌面环境的响应速度和可用性,UFO²采取了轻量化的画中画界面,确保agent执行过程与用户工作流并行。研究团队在多个Windows应用程序上对UFO²进行了严格测试,结果显示与之前的CUA相比,UFO²在执行准确性和效率都有显著提升。

未来,UFO²计划继续缩小与人类水平的性能差距,不断通过在多样的GUI交互数据集上的微调,提升智能体的能力。同时,跨平台部署也将在未来工作中占据重要位置,提供统一的桌面自动化解决方案。在微软不断推动agent技术发展的背景下,市场对下一代智能化Windows的期待不断上升。

发布时间:

2025-04-22 20:55:29

相关推荐

评论 ( 0 )

2.7 W

文章

32.1 W

点赞

回顶部