智元发布GO-1和灵犀X2一个致敬DeepSeek一个致敬乔布斯

内容摘要  GO-1模型中引入的「隐式规划专家」能做长跨度的宏观行为规划,每个行为都对应数十个微观动作;  时隔半年,智元从内到外地更新了它的机器人产品。在3月10日和3月11日两天,智元接连发布了首个「机器人通用基座大模型」——智元启元大模型(Genie Operator-1,简称GO-1),以及第二代的灵犀机器人X2。  两项发布中,

  GO-1模型中引入的「隐式规划专家」能做长跨度的宏观行为规划,每个行为都对应数十个微观动作;

  时隔半年,智元从内到外地更新了它的机器人产品。在3月10日和3月11日两天,智元接连发布了首个「机器人通用基座大模型」——智元启元大模型(Genie Operator-1,简称GO-1),以及第二代的灵犀机器人X2。

  两项发布中,前者相当于给机器人装了一个更聪明的大脑。按照OpenAI为机器人智能演化提出的G1至G5发展框架,「过去业界的机器人大脑更多处于G2到G3阶段,即从基于规则的控制到扩散模型,GO-1则处于G3到G4的过渡阶段,通用能力更强。」智元合伙人、具身业务部总裁、研究院执行院长姚卯青对第一财经「新皮层」说。

  灵犀机器人的更新,更多在于运动控制能力——小脑的提升。2024年8月,智元创始人彭稚辉(稚晖君)首次发布该系列机器人时,是在整场发布会的最后作为one more thing发布的。在此之前,智元的核心产品是体型更大(1.7米左右)的远征系列机器人,主要工作场景是工厂;灵犀机器人则小巧得多,只有1.3米左右,体重不到34公斤,面向C端用户。2024年首次推出时,灵犀X1连走路都跌跌撞撞,而3月11日发布的灵犀X2灵巧得多,不仅能像人一样「可爱地」走路、跑、转圈,还能跳舞,甚至玩平衡车、骑自行车以及跟另一台灵犀X2相互协作。发布视频中,彭稚辉称灵犀X2内置了模块化的小脑控制器Xyber-Edge,这是灵犀X1没有的。

  智元发布以上两项更新前,宇树科技的人形机器人刚刚在春晚舞台以及宇树的社交账号上大秀舞蹈能力,展现运动控制上的性能。而硅谷初创公司Figure AI也于2月20日发布其自研的机器人模型Helix,其创始人称,Figure已实现「完全端到端、完全自主」的机器人AI突破。取得这项突破后,Figure随即宣布终止与OpenAI的合作。此前,两家公司曾合作为Figure的机器人定制AI模型。

  去年机器人大会在北京举办期间,「新皮层」获得的不少声音还认为,由于家庭场景的复杂性,在很长时间内只能在工业场景下使用,后者对动作的要求更单一。然而从Figure到智元的产品更新反映出,人形机器人进入家庭场景的速度可能更快——这一切都是AI带来的。

  姚卯青在智元发布GO-1后的媒体采访中称,机器人走入家庭可能只需要5年。并且,他声称,只投入机器人本体(即硬件)的开发没有未来,因为只开发本体,不投入AI,机器人就只能做有限任务,只是个昂贵的大号玩具。他告诉媒体,智元在AI方面是P0级的投入。

  早在2023年首次召开发布会,介绍智元的机器人产品远征A1及其控制系统时,彭稚辉就表示,「机器人的任务编排不只需要ChatGPT,还需要WorkGPT」。不过提出「WorkGPT」这一概念后,智元就没有再详细解释过它是如何构建这一「动作大模型」的。

  GO-1是智元首次正式发布的机器人基座大模型。智元具身研究中心常务主任任广辉在介绍该模型时称,机器人领域的基座模型已经过了至少两代变革:第一代机器人模型是基于规则的控制算法,第二代机器人模型普遍采用VLA(Vision-Language-Action,视觉-语言-动作)架构。

  VLA架构是Google DeepMind于2023年7月发布RT-2机器人模型时提出的新架构,它在VLM视觉语言模型的基础上增加了Action的环节,旨在实现从视觉输入(Vision)、语言推理(Language)到动作输出(Action)的完整闭环。作为端到端大模型架构,VLA可以简化通常需要多个独立模块才能完成的任务流程,在推出后逐渐受到很多智驾公司的认同,元戎启行、理想汽车、Waymo都已经开始尝试这种技术路线。

  然而VLA虽然很有潜力,问题也很明显,想要训练一个这样的端到端大模型,往往需要大量的高质量训练样本。对于已经有大量汽车上路,并且汽车还在源源不断提供驾驶数据的车企来说,这个问题还有办法解决,但对于智元这样还处于早期培育市场阶段的机器人公司来说,获取数据依然是个难题。

  VLA架构模型的数据采集成本一直居高不下,除了商用的机器人少,原因还在于不同形态的机器人采集的数据难以跨本体(即机器人)地使用——机器人的身高、体型不同,数据就难以通用。而且,利用互联网上的人类视频数据训练的结果也难以直接应用到规格不同的机器人上。

  为了降低数据采集成本,智元曾在2024年建立了一个4000平方米的数据采集工厂,还在2024年12月开源了首个面向机器人的数据集AgiBot World,目的之一就是统一机器人的数据规格,甚至统一机器人的硬件规格。此外,VLA架构的泛化性也并不理想,机器人在一个场景学会的东西到了新场景时操作成功率就会大幅下降。如果要将学习能力扩展到新任务,需要重新采集大量新数据,落地成本也会因此上涨。

  于是在GO-1上,智元不再采用VLA架构,而是提出了ViLLA(Vision-Language-Latent-Action,视觉-语言-隐式-动作)这个全新架构。ViLLA是由VLM+混合专家(MoE)组成,MoE中又有两组专家,一组叫「隐式规划专家」(Latent Planner),另一组叫「动作专家」(Action Expert)。ViLLA虽然不是传统的端到端模型,但它通过共享主干网络和联合训练,继承了端到端的数据驱动和联合优化理念。

  「隐式规划专家」是ViLLA架构中最关键的部分,它在训练时关注建模视觉信号当前帧和历史帧之间的隐式(latent)变化,然后在做动作规划时预测出相应的隐式动作。「隐式规划专家」的加入使得GO-1能够将连续视觉变化离散化为「抓取-移动-放置」等更宏观的动作标记。比如在「补充饮料」任务中,隐式专家会生成「定位货架、识别空位、计算抓取路径」等宏观规划链(Chain of Planning,CoP),每个指令可对应数十个底层的微观动作。

  智元称,通过引入「隐式规划专家」,模型就能更好利用跨机器人本体的数据,以及来自互联网的人类视频数据,并且,从这种混合数据中学习的能力能更好被泛化。智元提供的数据称,ViLLA架构能将任务操作的「平均成功率提升12%」。而且训练成本更低,任广辉提供的数据称,比如擦拭污渍,只需要150条数据就可以训练机器人学会,这种数据量一个采集员采集一天就能完成;倒水需要的数据在1000条左右;如果用没有隐式专家的旧VLA架构学习,单数据采集的成本就需要增加1至2个数量级。

  在语言模型领域,AI已经从模仿学习进入到了第二阶段的强化学习,比如DeepSeek的推理模型R1就是在V3模型的模仿学习之后,增加了强化学习的后训练得到的。姚卯青认为,机器人的AI部分也在从模仿学习进入强化学习阶段。发布GO-1当天,智元称其强化学习版本的机器人基座模型也已在研发中,将在未来几个月推出。它很可能是个基于GO-1模型进行强化学习后训练的版本,就像DeepSeek基于V3进行强化学习后得到推理能力更强的R1一样。在机器人领域,推理就意味着更合理、长程的动作规划。

  智元的机器人硬件分为「远征」和「灵犀」两个系列,前者面向B端,后者面向C端。其中灵犀来自于彭稚辉亲自负责的X-Lab,其前身是稚晖君实验室。

  灵犀X1推出时,彭稚辉就称,公司对这个系列产品的定位是高度「模块化」的机器人,甚至连它的大脑都可以尝试用一部手机去支持。为了传达这种模块化理念,2024年8月的发布会上,智元直接打开灵犀X1的「脑壳」,将一部智能手机塞了进去。

  在3月11日发布的灵犀X2上,可以看到更多模块化的东西:除了在灵犀X1上就已实现的关节,灵犀X2还多了小脑控制器Xyber-Edge、域控制器Xyber-DCU等更多自研模块。彭稚辉称,得益于「运控算法方面的突破——从基于规则的控制算法转向数据驱动的强化学习」,灵犀X2的「运动智能」提升很多。展示视频中,它已经不再是个走路跌跌撞撞的「小朋友」,而是更像个身手灵活的青少年。

  GO-1模型有助于提升机器人的「作业智能」,这是智元追求的终极目标,灵犀X2也加载了这一新模型,不过和更强调「作业智能」的远征系列机器人不同,智元想要通过灵犀实现和展示的能力更多元——在「运动智能」和「作业智能」以外,它也着重强调了「交互智能」。智元称,灵犀X2内置了多模态交互大模型「硅光动语」,能进行毫秒级的交互。演示视频中,它像是长出了眼睛和嘴巴,能实时说出它看到了什么、那是什么东西、有什么用,比如通过看说明书为用户解答问题,类似OpenAI发布GPT-4o模型时所展示的能力。

  为了进一步展示亲近感,灵犀X2的脸部还配备了Pad大小的显示屏,差不多可以显示一张人脸。与人对话时,它会更像一个人那样与人交互,而不是更像一台机器。此外,智元还为这款机器人设计了更多拟人动作,比如通过弯腰、探头表达好奇心,通过扫弄肚子的肢体语言表达某种情绪,甚至在它走路时让上半身节奏性地前后微微移动,就好像人在呼吸一样。这些设计与苹果不久前通过一款智能台灯展示的机器人设计思路有相似之处——它们设计的都不是纯粹的功能机器,而是更进一步,希望机器人能扮演与人相似的角色。

  事实上,灵犀X1在2024年首次推出时,就是智元的one more thing。「one more thing」是乔布斯最喜欢的口头禅,也在公司的发布会上多次扮演「彩蛋」功能:薄如信封的MacBook Air笔记本电脑、可以实时视频通话的FaceTime功能、Apple Watch、Vision Pro等有划时代意义的产品,都曾以「one more thing」的名义发布。

  姚卯青称,智元今年的商业化目标是实现营收的倍数增长,出货量达数千台规模。智元在2024年12月宣布量产计划,今年1月6日,智元宣布已经下线台机器人。

  智元推动机器人的规模化生产和交付是为了将前期投入更好分摊掉,而且,根据姚卯青的说法,没有大规模本体硬件,也会「严重影响算法验证」。他认为,目前机器人的算法尚未完全收敛,还需要长期的算法验证,因此AI和本体硬件本身同样重要,而市面上「偏科的公司很多」,有的擅长算法,没有大规模本体硬件,有的有很多本体硬件,但在AI上投入受限。

  在机器人商业化方面,姚卯青称,智元不会参与「9.9万元」的价格战(注:去年8月,宇树发布了一款机器人,定价9.9万元起)。他认为机器人的硬件决定了基础能力的上限,现阶段机器人公司还是应该以「探索技术上限」为导向,而不是「做一个大号玩具」。

  智元已在今年早些时候调整了组织架构,设立了远征、灵犀和Genie三大产品线个团队的主要成员分别在上海、深圳和北京。此外,智元还为灵巧手等零部件设立了几个一级部门。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1