经历了过去一年的沉淀和发展之后,具身智能机器人公司们的发展路径也变得更为清晰。
3月10日,由华为前“天才少年”稚晖君创立的智元机器人(以下简称:智元)发布首个通用具身基座大模型:智元启元大模型(GenieOperator-1)。据智元官方介绍,该模型基于Vision-Language-Latent-Action (ViLLA)架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成。这种模型架构可以让机器人持续学习进化,利用人类视频学习,完成小样本快速泛化,将具身智能推上一个新台阶。
模型发布后,智元合伙人、具身业务部总裁姚卯青和智元具身研究中心常务主任任广辉接受了包括新京报贝壳财经在内的媒体采访。
近两个小时的采访里,数据、AI是被讨论和提及最多的词汇,姚卯青和任广辉多次强调了AI对智元的战略意义。进入2025年,机器人行业之间的竞争将变得更为激烈。
通过分析人类视频进行学习,实现小样本快速泛化
能走能跑能跳舞的人形机器人从去年开始就一直是科技圈讨论的焦点,酷炫的外形总给人一种科幻照进现实的感觉。但对于部分机器人企业的从业者来说,相较于外观,数据才是他们更为关注的。
据智元官方介绍,智元启元大模型发布的初衷就是为了解决具身模型在落地上的困境。在任广辉看来,现在很多具身模型的泛化性相对差一些,比如在实验室训练的模型到了一些新的场景中成功率就会大幅下降;或者机器人在接受训练了一个任务之后想要再做其他的任务就会再次需要大量的数据,这样就会导致数据成本比较高;另外,很多数据在不同的机器人本体之间是无法共用的,行业缺乏一个完整的数据回流的系统,这就导致模型无法持续地进行性能提升,也是现在机器人落地难的主要原因。
Vision-Language-Latent-Action在利用视觉、语言大模型之外,还让机器人学习人类的操作视频和真机的示教数据,任广辉认为,这样的架构就可以构建一个非常完整通用的能力,包括场景理解、指令理解、动作理解,还有精细的动作、操作能力等。所谓小范围泛化则是指可以在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后续训练成本非常低。
“在内部讨论会上,我们会对比不同企业之间的数据量,这比产品外观更能说明各家进度。”银河通用机器人的一位研发工程师告诉贝壳财经记者。数据质量决定了算法的形式,算法又决定了机器人行动轨迹,这都是非常重要的。
为了解决数据不足的问题,银河通用发布端到端具身抓取基础大模型 GraspVLA。银河通用介绍,GraspVLA 的训练包含预训练和后训练两部分,其中预训练完全基于合成大数据,预训练后,模型可直接在真实场景和物体上零样本测试。
另外,据媒体报道,特斯拉也于去年大量招聘操作员收集动作数据,不同企业都在出招解决数据机器人企业数据匮乏的问题。
机器人公司不做大模型将没有未来
在接受媒体采访的时间里,两位受访对象多次提及AI对智元的战略意义以及对于机器人企业发展的重要性,这背后也可以看到智元的发展路径。任广辉认为,机器人公司不做大模型将没有未来。
“今年具身智能、智能机器人首次写入政府工作报告,这说明行业即将迎来更多的新玩家,但同时竞争也会加剧,这对机器人企业本身也提出更高的要求,公司团队规模、产品研发实力、商业化能力是接下来企业之间比拼的重点,只有综合实力过硬的企业才会抢占先机。”姚卯青告诉贝壳财经记者。
按照国际机器人协会预测,2021年到2030年,全球人形机器人市场规模年复合增长率将高达71%。中国电子学会数据显示,到2030年,中国人形机器人市场规模有望达到8700亿元。
行业快速增长,机器人企业之间的发展路线以及商业化模式也开始出现明显分化。
在任广辉看来,AI能力将来一定是区分整个机器人产品竞争力的核心,机器人公司不做大模型将没有未来,没有智能化、没有作业能力的机器人只是一个硬件,能做的事情非常有限,智元未来一定会持续加大对AI的投入。
银河通用机器人、智平方机器人也和智元的观点类似,但在春晚爆火的宇树科技的优势却是在本体硬件层面,对AI的投入比较克制。
去年世界机器人大会召开时,宇树科技创始人王兴兴在接受媒体采访时表示,目前人形机器人行业最大的难题在于,机器人的AI发展是落后于通用AI的,目前尚未达到突破临界点的时刻。
“目前具身智能领域,每家企业的想法都不太一样,技术路线上有所差别,甚至连一些共性的方面都不太一样。例如机器人的相机应该装什么?装几个?装在哪?传感器数据应该怎么采集,是存在很多的差异性的,这就导致整个机器人AI模型的技术路线其实没有那么统一,其实很难评价哪个正确哪个错误,宇树科技在AI的投入是比较克制的。”王兴兴表示。
今年年初,具身智能公司傅利叶在宣布拿到近8亿元E轮融资时,傅利叶创始人兼首席执行官表示,“本轮融资的完成让我们更加坚定了‘为AI打造最佳具身本体’的产品目标。”
从整个机器人行业发展来看,有的企业着力发展具身大模型,有的在本体方面具备优势,就像姚卯青所说,目前“偏科”的机器人公司比较多,有的擅长算法,当然也有其他大量做本体的公司,但智元把自己定位为从硬件、数据、算法,端到端都具备研发能力。然而在行业发展初期,究竟哪种模式更能受到市场认可还有待检验。
新京报贝壳财经记者 张晗
编辑 白昊天
校对 柳宝庆