智元机器人发布通用基座大模型GO-1,新人形机器人亮相在即

   时间:2025-03-11 03:47 来源:天脉网作者:任飞扬

在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新成果近日正式亮相,标志着通用具身智能基座模型迈出了重要一步。

GO-1由智元机器人公司推出,其核心在于创新的Vision-Language-Latent-Action(ViLLA)框架。这一框架融合了VLM(多模态大模型)与MoE(混合专家)技术,不仅实现了数据采集、模型训练与推理的一体化流程,更在小样本快速泛化、跨本体应用及持续进化等方面展现出显著优势。

VLM作为GO-1的主干网络,继承了开源多模态大模型的权重,并通过互联网上的大规模文本与图文数据,赋予了机器人广泛的场景感知与理解能力。而MoE中的隐动作专家模型与动作专家模型,则分别利用人类操作视频与高质量仿真数据,进一步提升了模型的动作理解与执行能力。

GO-1的五大特点尤为引人注目:采训推一体化设计确保了从数据到应用的无缝衔接;小样本快速泛化能力使其能够在极少数据支持下适应新场景与新任务;一脑多形特性意味着它能在不同形态的机器人之间灵活迁移;持续进化机制通过数据回流系统,使模型能够不断优化;而人类视频学习能力则增强了模型对人类行为的理解。

在构建过程中,GO-1采用了具身领域的数字金字塔模型。底层为互联网上的大规模文本与图文数据,为机器人提供基础知识;中层为人类操作视频,帮助学习动作模式;上层为仿真数据,增强泛化能力;顶层则为高质量真机示教数据,确保精准动作执行。这一结构使GO-1能够全面适应新场景,快速学习新操作。

ViLLA框架通过预测隐式动作标记,有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户发出“挂衣服”的指令时,GO-1能够迅速理解指令含义,并结合所学的人类操作视频与仿真数据,规划并执行挂衣服的完整过程。这一过程不仅展示了GO-1强大的理解与执行能力,也体现了其在家庭、办公及商业场景中的广泛应用潜力。

在实际应用中,GO-1展现了其卓越的性能。从早晨起床后的倒水、烤吐司等家庭任务,到商务会议中的物品递送,再到活动现场的检票与物料发放,GO-1都能迅速响应并完成任务。其数据回流机制确保了模型能够持续优化,如从咖啡制作中的小失误中学习,直至成功完成任务。

GO-1的问世,不仅为机器人技术带来了革命性的突破,也为具身智能的通用化、开放化与智能化发展指明了方向。随着技术的不断进步,我们有理由相信,未来的机器人将更加智能、灵活,能够更好地适应多变的真实世界,为人类的工作与生活带来更多便利。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报