在人工智能领域迎来又一重要里程碑,智元机器人公司近日震撼发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果不仅标志着机器人在理解与执行指令上的巨大飞跃,更预示着具身智能正加速向通用化、开放化与智能化迈进。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,继承了开源多模态大模型的强大权重,通过海量互联网数据的学习,使GO-1拥有了卓越的场景感知与理解能力。而MoE则扮演着隐式规划器与动作预测器的双重角色,通过解析人类操作视频与高质量仿真数据,让机器人不仅理解了动作,更具备了精细执行的能力。
GO-1的五大特性尤为引人注目:采训推一体化设计,确保了数据采集、模型训练与推理的无缝衔接;小样本快速泛化能力,使机器人能在极少数据甚至零样本情况下迅速适应新场景与新任务;一脑多形技术,让GO-1能够轻松迁移至不同形态的机器人本体;持续进化机制,借助数据回流系统,机器人能从实际操作中不断学习成长;人类视频学习能力,则进一步增强了模型对人类行为的理解与模仿。
GO-1的构建基于具身领域的数字金字塔模型,从底层的大规模纯文本与图文数据,到人类操作视频、仿真数据,再到顶层的真机示教数据,每一层都为机器人的“基础教育”与“能力培训”奠定了坚实基础。这一设计使得GO-1能够轻松应对多样化的环境与物体,快速学习并执行新操作。
在实际应用中,GO-1展现了惊人的表现。无论是家庭场景中的倒水、烤吐司,还是商务会议中的拿饮料、递苹果,甚至是活动现场的检票、发放物料,GO-1都能迅速响应并精准完成任务。更令人惊叹的是,通过数据回流机制,GO-1能够持续进化,从实际操作中汲取经验,不断提升自身性能。
在演示视频中,GO-1流畅地完成了一系列复杂任务,从制作咖啡到整理桌面,从接待访客到发放物品,每一个动作都显得那么自然与精准。尤其是当机器人不小心犯错时,如做咖啡时杯子放歪,GO-1能够迅速从错误中学习,不断调整直至成功完成任务。
GO-1的发布,无疑为具身智能的发展注入了强大动力。它不仅解决了传统机器人面临的场景与物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢等问题,更实现了从单一任务到多种任务、从封闭环境到开放世界、从预设程序到指令泛化的跨越。随着GO-1的广泛应用,我们有理由相信,机器人将在更多场景中发挥巨大作用,为我们的生活带来更多便利与惊喜。