智元机器人发布通用具身基座大模型GO-1,开启具身智能新纪元
近日,智元机器人在科技创新领域迈出重要一步,正式发布其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。该模型凭借创新的Vision-Language-Latent-Action(ViLLA)框架,实现了具身智能的显著突破。
GO-1的核心在于其ViLLA框架,该框架融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,利用互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则通过隐动作专家模型和动作专家模型,结合互联网上的大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,使GO-1具备了动作的理解和精细执行能力。
GO-1的推出,标志着具身智能在多个方面实现了质的飞跃。其采训推一体的设计,使得数据采集、模型训练和模型推理能够无缝衔接,大大提高了效率。同时,GO-1具备小样本快速泛化的能力,能够在极少数据甚至零样本的情况下快速适应新场景和新任务,极大地降低了后训练成本。
更GO-1实现了“一脑多形”的跨本体应用。这意味着GO-1能够作为一个通用机器人策略模型,在不同机器人形态之间迁移,快速适配到不同本体,从而大大拓展了其应用范围。
GO-1的ViLLA框架还赋予了其持续进化的能力。通过智元的一整套数据回流系统,GO-1能够从实际执行中遇到的问题数据中持续学习,不断优化自身性能。GO-1还能结合互联网视频和真实人类示范进行学习,增强了模型对人类行为的理解。
在实际应用中,GO-1展现了其强大的能力。用户只需用简单的语言指令,如“挂衣服”,GO-1就能根据所看到的画面和所学习的知识,理解指令的含义和要求,并拆解成一系列步骤来执行任务。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能轻松应对。
GO-1还能通过数据回流持续进化。例如,在制作咖啡时,如果机器人不小心把杯子放歪了,GO-1就能从这次失败中学习,不断优化自身动作,直到成功完成任务。
智元机器人的GO-1模型,不仅为机器人代替人类完成各种工作提供了强大的脑力支持,也标志着具身智能正加速迈向通用化、开放化与智能化。从家庭场景到办公和商业场景,再到工业等更多领域,GO-1都能快速适应并实现多种任务,让机器人走向更多不同场景,适应多变的真实世界。