智元机器人发布创新通用基座模型,开启具身智能新篇章
近日,智元机器人在科技界投下了一枚震撼弹,正式推出了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一模型的发布,标志着具身智能技术迈出了重要的一步,为机器人的广泛应用奠定了坚实的基础。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架由多模态大模型VLM与混合专家MoE两部分组成。VLM作为模型的主干网络,通过利用互联网上的大规模纯文本和图文数据,使GO-1具备了出色的场景感知和理解能力。而MoE则包含了隐动作专家模型和动作专家模型,前者通过大规模人类操作和跨本体操作视频的学习,赋予了模型动作理解能力;后者则利用高质量的仿真数据和真机数据,确保了模型动作的精准执行。
GO-1的推出,不仅解决了具身智能在场景和物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等方面的问题,还带来了诸多突出的优势。其中,小样本快速泛化能力使得GO-1能够在极少数据甚至零样本的情况下,快速适应新场景和新任务。“一脑多形”的跨本体应用能力,使得GO-1能够轻松迁移至不同形态的机器人,实现快速适配。
在数据采集、模型训练和模型推理方面,GO-1也实现了无缝衔接。搭配智元软硬件一体化框架,GO-1能够高效地处理各个环节,大大降低了后训练成本。同时,智元还为其配备了一整套数据回流系统,使得GO-1能够在实际执行中遇到的问题数据中持续进化学习,不断提升自身的性能。
GO-1的ViLLA框架能够将输入的多相机视觉信号和人类语言指令直接转化为机器人的动作执行。与Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),成功弥合了图像-文本输入与机器人执行动作之间的鸿沟。这意味着,用户只需用日常语言向GO-1发出指令,如“挂衣服”,GO-1就能根据所学习过的知识和数据,快速拆解任务并精准完成。
在实际应用中,GO-1展现出了强大的应用能力。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能轻松应对。GO-1还能快速适应更多场景,如工业操作等,展现了其广泛的适用性。
GO-1的发布,无疑为具身智能技术的发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展,GO-1有望在未来的机器人市场中占据一席之地,为人们的生活和工作带来更多便利。