智元机器人发布通用具身基座模型GO-1,引领具身智能新纪元
近日,智元机器人在科技界引发轰动,其最新发布的通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1),标志着具身智能技术迈出了重要一步。GO-1采用创新的Vision-Language-Latent-Action(ViLLA)框架,融合了多模态大模型(VLM)与混合专家(MoE)技术,展现出卓越的采训推一体化、小样本快速泛化、跨本体应用、持续进化及人类视频学习能力。
GO-1的核心优势在于其ViLLA框架,该框架通过VLM和MoE的协同工作,实现了从视觉信号和语言指令到机器人动作执行的无缝转换。VLM作为主干网络,利用互联网大规模数据,赋予了GO-1强大的场景感知和理解能力。而MoE中的隐动作专家模型和动作专家模型,则分别通过人类操作视频和高质量仿真数据,使GO-1具备了动作理解和精细执行能力。
GO-1的五大特点彰显了其革命性:采训推一体化确保了数据采集、模型训练和推理的高效衔接;小样本快速泛化能力使GO-1能在极少数据甚至零样本下适应新场景和新任务;一脑多形特性意味着GO-1可以轻松迁移至不同形态的机器人,实现跨本体应用;持续进化能力通过数据回流系统,使GO-1能从实际执行中不断学习进步;人类视频学习能力则增强了GO-1对人类行为的理解。
在构建GO-1的过程中,智元机器人采用了具身领域的数字金字塔结构。底层为互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解基础。往上依次是互联网的人类操作/跨本体视频、仿真数据和真机示教数据,这些数据共同构成了GO-1的全面教育和能力培训体系,使其能够轻松适应多样环境和物体,快速学习新操作。
GO-1的应用场景广泛,从家庭生活的日常琐事到商务会议的辅助工作,都能轻松应对。例如,在家庭场景中,GO-1可以帮忙倒水、烤吐司;在商务会议中,它能快速响应人类指令,如拿取饮料和水果。GO-1还能通过数据回流系统持续进化,不断优化自身性能。例如,当机器人在制作咖啡时杯子放歪,它能从这次经验中学习,并在下次成功完成任务。
GO-1的问世,不仅解决了具身智能面临的诸多挑战,如场景和物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等,更为机器人走进更多场景、适应多变真实世界提供了可能。从家庭到办公,从商业到工业,GO-1正引领着具身智能向通用化、开放化与智能化加速迈进。