在机器人技术领域,一项重大突破于近日公布。智元机器人公司发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。该模型以创新的Vision-Language-Latent-Action(ViLLA)框架为核心,结合了VLM(多模态大模型)与MoE(混合专家)技术,展现了卓越的采训推一体化能力、小样本快速泛化、跨本体应用、持续进化以及人类视频学习等特性。
GO-1的ViLLA框架通过VLM作为主干网络,利用了互联网上的大规模纯文本和图文数据,赋予了机器人强大的场景感知和理解能力。在此基础上,MoE中的隐动作专家模型和动作专家模型分别通过大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,实现了对动作的理解和精细执行能力。
智元启元大模型GO-1的五大特点包括:采训推一体化,使得数据采集、模型训练和推理能够无缝衔接;小样本快速泛化,能够在极少数据甚至零样本的情况下快速适应新场景和新任务;一脑多形,使得模型能够轻松迁移至不同形态的机器人上;持续进化,通过实际执行中的数据回流系统不断学习和进化;人类视频学习,能够从互联网视频和真实人类示范中学习,增强对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔结构,从底层的大规模纯文本与图文数据,到人类操作/跨本体视频,再到仿真数据,直至顶层的真机示教数据,形成了全面的教育和培训体系。这使得机器人能够快速适应新场景,轻松面对复杂多变的环境和物体,迅速学习新的操作技能。
在实际应用中,用户只需通过简单的语言指令,GO-1就能将输入的多相机视觉信号和人类语言指令转化为机器人的动作执行。例如,用户告诉机器人“挂衣服”,GO-1能够理解指令的含义,并根据学习过的知识和数据,拆解并执行挂衣服的各个步骤。从理解指令到执行动作,整个过程流畅且精准。
GO-1的应用场景广泛,从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多场景的操作任务,都能快速实现。机器人不仅能快速响应人类指令,还能通过数据回流持续学习和进化,不断提升自身的性能和能力。例如,当机器人在做咖啡时不小心把杯子放歪了,它就能从这次经验中学习,并在未来的任务中避免类似错误。