在人工智能领域的一次重大突破中,智元机器人公司近期震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这款模型的诞生,标志着机器人在理解指令、执行任务和适应环境方面迈出了巨大的一步。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架由VLM(多模态大模型)和MoE(混合专家)两部分组成。VLM作为模型的主干网络,借助互联网上的大规模纯文本和图文数据,使GO-1具备了强大的场景感知和理解能力。而MoE则包括隐动作专家模型和动作专家模型,前者利用互联网上的大规模人类操作和跨本体操作视频,使模型能够理解动作;后者则通过高质量的仿真数据和真机数据,让模型能够精细执行动作。
GO-1的五大特点使其在众多机器人模型中脱颖而出:采训推一体化,实现了数据采集、模型训练和模型推理的无缝衔接;小样本快速泛化,能够在极少数据甚至零样本下快速适应新场景和新任务;一脑多形,作为一个通用机器人策略模型,能够轻松迁移至不同形态的机器人上;持续进化,借助智元的数据回流系统,模型能够在实际执行中遇到的问题数据中不断学习和进化;人类视频学习,通过结合互联网视频和真实人类示范,模型对人类行为的理解能力得到了显著提升。
在构建GO-1的过程中,智元机器人采用了具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。接下来是互联网的大规模人类操作/跨本体视频,帮助机器人学习人类或其他本体的动作操作模式。再上一层是仿真数据,用于增强模型的泛化能力,使其能够适应不同场景和物体。金字塔的顶层是高质量的真机示教数据,用于训练模型精准执行动作。
ViLLA框架的引入,使得GO-1能够将输入的多相机视觉信号和人类语言指令直接转化为机器人的动作执行。与Vision-Language-Action(VLA)模型相比,ViLLA通过预测隐式动作标记(Latent Action Tokens),成功弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户用日常语言告诉机器人“挂衣服”时,模型能够拆解成多个步骤来执行,包括理解指令含义、识别挂衣服的环节、理解环节中对应的物体和环境,并最终精准完成整个任务。
GO-1的应用场景广泛,从家庭到办公再到工业等多个领域都能发挥其强大功能。在家庭中,机器人可以帮忙倒水、烤吐司;在办公和商业场景中,机器人可以负责检票、发放物料;在商务会议中,机器人能够快速响应人类指令,如拿取饮料和水果。GO-1还能通过数据回流系统持续进化,例如在做咖啡时将杯子放歪的问题,模型能够在后续任务中不断学习和改进,直至成功完成任务。