在人工智能领域迈出重要一步,智元机器人近日震撼发布其首个通用具身基座模型——智元启元大模型Genie Operator-1(GO-1)。这一创新成果不仅标志着机器人在理解与执行任务方面取得了显著进步,还预示着具身智能正加速向通用化、开放化与智能化迈进。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。这一组合使得GO-1能够展现出小样本快速泛化、“一脑多形”跨本体应用、持续进化以及人类视频学习等一系列突出优势。
VLM作为GO-1的主干网络,基于开源多模态大模型5-2B的权重,并利用互联网上的大规模纯文本和图文数据,赋予了机器人广泛的场景感知与理解能力。而MoE中的隐动作专家模型与动作专家模型,则分别通过大规模人类操作和跨本体操作视频,以及高质量的仿真数据和真机数据,进一步提升了模型的动作理解和执行能力。
GO-1的五大特点尤为引人注目。采训推一体化设计确保了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力则意味着机器人能够在极少数据甚至零样本情况下,迅速适应新场景与新任务;“一脑多形”特性使GO-1能够在不同机器人形态间灵活迁移,快速适配各类本体;持续进化能力借助智元的数据回流系统,使机器人能够从实际执行中遇到的问题数据中不断学习进步;而人类视频学习能力则增强了模型对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型,从底层的大规模纯文本与图文数据,到人类操作/跨本体视频,再到仿真数据,直至顶层的真机示教数据,形成了全面而系统的知识体系。这一设计使机器人能够接受全面的“基础教育”和“能力培训”,从而轻松应对多样化的环境和物体,快速学习新操作。
在实际应用中,GO-1展现出了惊人的表现。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能轻松胜任。用户只需通过简单的语言指令,机器人便能迅速响应并执行任务。例如,用户只需说一句“挂衣服”,GO-1便能根据所学知识和经验,完成从理解指令到执行动作的全过程。
GO-1还具备持续进化的能力。当机器人在执行任务中遇到问题时,如做咖啡时不小心将杯子放歪,它能够从这些问题数据中不断学习,直至成功完成任务。这种能力使得机器人在实际应用中能够不断自我完善,提升工作效率和准确性。
智元机器人的这一创新成果,无疑为具身智能的发展注入了新的活力。GO-1的出现,不仅解决了具身智能在场景和物体泛化、语言理解、新技能学习以及跨本体部署等方面的问题,还为机器人走向更多不同场景、适应多变的真实世界提供了强大的脑力支持。未来,随着技术的不断进步和应用场景的不断拓展,GO-1有望成为推动人工智能领域发展的重要力量。