新京报贝壳财经讯(记者韦博雅)1月9日,银河通用发布端到端具身抓取基础大模型 GraspVLA。
银河通用介绍,GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据,训练数据达到十亿帧“视觉-语言-动作”对,掌握泛化闭环抓取能力、达成基础模型。预训练后,模型可直接在真实场景和物体上零样本测试,并具有七大泛化能力;针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,满足产品需求的专业技能。
银河通用还给出了VLA((视觉-语言-动作模型))达到基础模型需满足的七大泛化标准,即光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化和物体类别泛化。
银河通用表示,对于特定场景的特殊需求, GraspVLA 也具备对新需求的适应及迁移能力。如在工业场景中,仅需采集少量轨迹进行快速后训练,GraspVLA 便可掌握诸如接线座(Wiring Base)、三角板(Triangular Panel)、黑色软管(Black Hose)等特殊工业名词,能从任意摆放的密集场景中找出对应零件。
校对 柳宝庆