谷歌发布本地机器人视觉-语言-动作模型提升应用能力

2025-06-30

数据：

谷歌于2025年6月25日发布了可在机器人本地部署的视觉-语言-动作模型Gemini Robotics On-Device，具有卓越的通用性和任务泛化能力。该模型只需50-100次演示即可学习新技能，具有在离线环境中执行复杂任务的能力，为机器人应用的广泛性和灵活性提供了新的可能。

线索：

谷歌推出本地VLA模型标志着机器人领域正朝向自主性的“端侧时代”迈进。这一进展可能为投资带来机会，如机器人硬件标准化的趋势，拓展多领域如家庭、医疗、教育等应用；同时也存在风险，如机器人硬件的多样性带来的适配性挑战以及高昂的数据收集成本。

正文：

谷歌的DeepMind在2025年6月25日正式发布了首个完全可在本地部署的视觉-语言-动作模型，名为Gemini Robotics On-Device。此创新标志着具身智能正从依赖于云计算的环境，向可以在硬件终端上独立自主运行的重要转折点，开辟了新的产业机会。

以往，具身智能的部署面临着对云计算资源的高度依赖，限制了机器人在无网络或网络不稳定的环境下的独立作业能力。同时，由于模型规模庞大，高效运转于计算资源有限的机器人上也成为难题。不过，Gemini Robotics On-Device能够在算力受限的设备上稳定运行，而且无需网络数据依赖，对延迟敏感的应用程序具有显著优势。

该模型的演示中，机器人在无网络状态下成功完成了多项任务，包括“把一个魔方放进包装袋里”和“拉开包包的拉链”，展现出了感知、语义理解、空间推理和精确执行的综合能力。研究人员表示，它不仅具备灵活性和通用性，只需50-100次演示就能学习新技能，大大扩大了模型的应用范围。

重要的是，Gemini Robotics不仅最初针对特定机器人进行训练，还可以泛化到不同形态的机器人，比如双臂和人形机器人。谷歌还首次开放了VLA模型的微调功能，允许工程师和机器人公司基于自有数据进一步优化模型，加强其在特定任务、场景和硬件平台上的表现。此外，谷歌推出的Gemini Robotics SDK将方便开发者进行模型评估与调整，显示出谷歌希望为机器人领域打造一个开放、通用且易于开发的平台。

该模型的发布标志着具身智能即将进入“端侧时代”，类似于大语言模型的趋势。这种进展将使机器人在家庭、医疗、教育等场景中更易于应用，同时解决数据隐私、实时反应和安全稳定性等面临的挑战。

尽管如此，机器人硬件的多样性和复杂性仍然是一个主要挑战。市场上各种机器人硬件的存在，意味着即便是通用模型，仍需针对每种设备进行细致适配和调优。此外，实际应用中数据收集和标注的成本也可能颇高，尤其是在复杂的工业或特定服务场景中。

机器人在复杂动态环境中保持鲁棒性同样至关重要。诸如光照变化、物体遮挡以及人机交互中的微小差异，都将对模型的感知和决策能力提出高要求，确保其在各种实际场景中保持稳定性和安全性是未来发展的重要任务。

发布时间：

2025-06-27 08:22:24

谷歌发布本地机器人视觉-语言-动作模型提升应用能力

相关推荐

评论 ( 0 )

取消回复

谷歌发布本地机器人视觉-语言-动作模型提升应用能力

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站