在人工智能领域迎来新突破之际,智元机器人公司震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在理解和执行任务方面迈出了重要一步,还预示着具身智能正加速向通用化、开放化与智能化转型。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,通过大规模互联网文本和图文数据训练,赋予了GO-1强大的场景感知和理解能力。而MoE则包含隐动作专家模型和动作专家模型,前者利用人类操作和跨本体操作视频,使模型能够理解动作;后者则基于高质量的仿真数据和真机数据,确保模型能精准执行动作。
GO-1的发布,带来了五大显著优势。首先,采训推一体的设计,让数据采集、模型训练和推理过程无缝衔接,极大提升了效率。其次,小样本快速泛化能力,使得GO-1能够在极少数据甚至零样本情况下,迅速适应新场景和新任务。“一脑多形”的跨本体应用特性,让GO-1能够轻松迁移至不同形态的机器人,实现快速适配。持续进化能力,则依靠智元的数据回流系统,让模型能够从实际执行中遇到的问题数据中不断学习和进化。最后,人类视频学习能力,让GO-1能够结合互联网视频和真实人类示范,增强对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型。底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解基础。之上是人类操作和跨本体视频数据,帮助机器人学习动作操作模式。再上层是仿真数据,用于增强泛化性。而金字塔的顶层,则是高质量的真机示教数据,确保精准动作执行。这一多层次的数据结构,让GO-1能够接受全面的“基础教育”和“能力培训”,轻松应对多样环境和物体,快速学习新操作。
在实际应用中,用户只需用日常语言向GO-1发出指令,如“挂衣服”,模型便能迅速拆解任务并执行。首先,模型理解指令含义;其次,根据学习过的人类操作视频,规划操作步骤;然后,通过仿真数据模拟操作过程;最后,依靠真机示教数据精准完成任务。这一过程展示了GO-1从理解指令到精准执行的全链条能力。
GO-1的应用场景广泛,从家庭中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,再到工业等更多领域的操作任务,都能轻松应对。GO-1还能通过数据回流持续进化,如机器人做咖啡时杯子放歪的问题,后续便能通过学习成功解决。这一特性确保了GO-1在实际应用中的不断优化和提升。