在机器人技术领域的最新突破中,智元机器人公司正式揭晓了其首款通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在理解和执行人类指令方面迈出了重要一步,还为未来机器人的广泛应用奠定了坚实基础。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了多模态大模型(VLM)与混合专家模型(MoE)。这一组合不仅赋予了GO-1强大的场景感知与理解能力,还使其能够在极少数据甚至无数据的情况下快速适应新场景和新任务,实现了小样本快速泛化。
VLM作为GO-1的主干网络,通过利用互联网上的大规模纯文本和图文数据,使机器人具备了广泛的场景知识。而MoE中的隐动作专家模型和动作专家模型,则分别通过学习互联网上的大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,进一步提升了机器人的动作理解和执行能力。
GO-1的五大特点使其在众多机器人中脱颖而出。采训推一体的设计使得数据采集、模型训练和模型推理能够无缝衔接,大大提高了效率。小样本快速泛化能力则意味着GO-1能够在极少量数据的情况下快速适应新环境和新任务。一脑多形的特性使其能够在不同形态的机器人之间灵活迁移,快速适配各种本体。持续进化能力通过数据回流系统,使GO-1能够在实际执行中不断学习进化。而人类视频学习能力则让机器人能够结合互联网视频和真实人类示范进行学习,进一步增强对人类行为的理解。
GO-1的ViLLA框架能够将多相机视觉信号和人类语言指令直接转化为机器人的动作执行。与传统的Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户用日常语言向机器人发出“挂衣服”的指令时,GO-1能够迅速理解指令含义,并根据所学的人类操作视频和仿真数据,精准完成挂衣服的任务。
GO-1的广泛应用场景展示了其强大的实用性。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多场景中的其他操作任务,GO-1都能够快速适应并高效完成。GO-1还能够通过数据回流持续进化,不断提升其执行任务的准确性和效率。例如,当机器人在做咖啡时不小心将杯子放歪时,它能够从这次经验中学习,并在后续任务中避免类似错误。