ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

英伟达高管谈机器人趋势:硬件快于软件,数据规模是关键

2025-12-30

摘要:英伟达机器人业务负责人Jim Fan指出,当前机器人领域在硬件可靠性、行业标准和技术路线上均面临根本性挑战。硬件(如Optimus、e-Atlas等)的可靠性不足严重限制了软件迭代速度;行业缺乏如MMLU之于大模型那样的统一评估标准,导致基准测试混乱;主流技术路线视觉-语言-动作模型(VLA)因其预训练目标与机器人物理操作需求错位而受到质疑,Jim Fan正押注视频世界模型作为替代方案。尽管存在这些瓶颈,行业长期前景被看好,有分析预测机器人产业规模将从当前的910亿美元增长至2050年的25万亿美元。

线索

* 风险

1. 硬件瓶颈风险:硬件可靠性问题(如过热、损坏)是普遍且高成本的工程挑战,直接影响研发效率和产品化进程,相关公司的运营成本和商业化时间表可能承压。

2. 评估与估值风险:行业标准缺失使得不同公司的技术进展难以客观比较,演示视频(常从上百次尝试中选取最佳结果)可能夸大实际能力,增加了投资者评估技术实力和投资价值的难度。

3. 技术路线风险:当前主流的VLA技术路线受到来自行业内部的根本性质疑,其发展可能面临天花板。若技术范式发生转变,押注现有路线的公司可能面临研发资源错配的风险。

* 机会

1. 硬件可靠性解决方案:能够提升机器人硬件耐用性、稳定性并降低维护成本的零部件、材料或系统集成商将具备核心优势。

2. 标准化与评估工具:推动建立机器人领域统一基准测试、评测体系或高保真仿真平台的公司或机构,可能成为行业基础设施的关键构建者。

3. 下一代技术范式:视频世界模型等被视为更符合机器人需求的新技术方向,关注在此领域进行前瞻性研发的公司或团队。

4. 数据与规模化:高效的数据采集方案(如技能捕捉手套成功率近90%)、大规模高质量数据集(如Egocentric-10K)以及能证明具身智能Scaling Law的模型,是突破当前限制的关键,相关领域存在机会。

5. 长期市场潜力:尽管面临短期挑战,机器人产业巨大的远期市场增长预期(至2050年达25万亿美元)及科技巨头的持续加码,表明该领域仍是长期重要赛道。

正文

英伟达机器人业务负责人、GEAR实验室联合负责人Jim Fan近期对机器人行业现状提出评价,认为该领域仍处于混乱状态,在软件迭代、标准制定和技术路线选择上存在根本性问题。

Jim Fan总结了2025年在机器人领域学到的三个主要教训:

第一,硬件可靠性成为软件迭代的最大障碍。尽管Optimus、e-Atlas、Figure、Neo、G1等机器人展现了精湛的工程技术,但硬件可靠性严重限制了软件开发速度。机器人无法像人类一样自我修复,过热、电机损坏、固件异常等问题频繁发生且错误不可逆,维护机器人需要整个运营团队的支持。Jim Fan指出,当前最先进的人工智能尚未充分发挥这些前沿硬件的全部潜力,形容为“身体的能力超过了大脑的指挥能力”。

第二,行业标准缺失导致评估体系混乱。Jim Fan将机器人领域的基准测试状况称为“史诗级灾难”。他指出,与大语言模型领域已形成MMLU、SWE-Bench等共识性标准不同,机器人行业在硬件平台、任务定义、评分标准、模拟器或真实世界设置等方面均无统一标准。当前普遍现象是,公司在发布新闻时临时定义自己的基准测试并宣称达到“当前最佳”水平,且演示视频往往是从大量尝试中挑选出的最佳效果。Jim Fan呼吁在2026年改善这一状况,重视可复现性和科学纪律。

第三,对当前主流技术路线提出根本性质疑。Jim Fan对占主导地位的视觉-语言-动作模型(VLA)技术路线提出质疑。VLA模型通常是在预训练的视觉语言模型(VLM)基础上嫁接动作模块。他认为该路线存在两个核心问题:首先,VLM中的大多数参数是为语言和知识服务的,而非为物理学服务;其次,视觉编码器为追求高层理解会主动丢弃对机器人灵巧操作至关重要的低级细节。Jim Fan认为,VLM的预训练目标与机器人需求存在错位,“没有理由相信VLA的性能会随着VLM参数的增加而扩展”。他表示正押注于视频世界模型作为更适合机器人策略的预训练目标。

针对Jim Fan的观点,有讨论指出,目前实际交付的模型如Helix、GR00T N1和π0等仍构建在VLM基础上,且世界模型当前多用于策略评估和合成数据,而非直接运动控制。Jim Fan回应称,这些是2025年的模型,期待2026年的下一代模型。

除Jim Fan的观点外,分析指出数据在机器人领域的重要性日益凸显。例如,Generalist模型通过大规模数据证明了具身智能的Scaling law(规模定律),即数据量和模型参数越大,任务表现越好。同时,出现了如Sunday这样方便数据采集的定制化机器人硬件,其利用技能捕捉手套采集人类动作数据,能以近90%的成功率转换为机器人可用数据。大型数据集如Egocentric-10K(汇集1万小时工作数据)也受到关注。然而,具体的数据路线(如人类中心采集、真机遥操、仿真数据等)仍未收敛。

在模型方面,视觉-语言-动作模型(VLA)是2025年机器人领域的热点。据一份综述统计,仅2025年就发表了超过200篇VLA相关研究。VLA旨在让机器人能同时处理视觉感知、语言理解和动作生成,以实现任务泛化。针对Jim Fan对VLA的批评,该综述提出了一些未来发展方向作为回应,例如:整合物理驱动的世界模型以实现语义与物理精度的统一;通过“形态无关表征”解耦高层规划与低层控制,以发挥数据规模效益而非盲目堆叠参数;将世界模型能力“嫁接”到VLM上,使VLA具备主动物理感知和规划能力。该综述还倾向“模拟优先、失败为中心”的数据范式和更全面的能力评估体系。

尽管面临现实挑战,机器人产业的长期前景被广泛看好。有研究报告预测,机器人产业规模有望从当前的910亿美元增长至2050年的25万亿美元。同时,除少数公司外,多数硅谷科技巨头均已加码机器人软件或硬件领域。

发布时间:2025-12-29T12:31:12+00:00

相关推荐

评论 ( 0 )

3.5 W

文章

69.6 W

点赞

回顶部