智元机器人发布通用基座大模型GO-1,新人形机器人亮相在即

   时间:2025-03-10 22:10 来源:天脉网作者:柳晴雪

智元机器人发布通用具身基座大模型GO-1,开启机器人智能化新篇章

近日,智元机器人在科技创新领域迈出了重要一步,正式推出了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。该模型的问世,标志着机器人在理解指令、执行任务方面取得了显著突破。

GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,这一框架融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,通过大规模纯文本和图文数据的学习,赋予了GO-1强大的场景感知和理解能力。而MoE则进一步增强了模型的动作规划和执行能力,使其能够快速适应不同场景和任务。

在ViLLA框架的支撑下,GO-1展现出了诸多令人瞩目的特点。首先,它实现了采训推一体化,即数据采集、模型训练和模型推理的无缝衔接,大大提高了机器人的工作效率。其次,GO-1具备小样本快速泛化的能力,能够在极少数据甚至零样本的情况下,快速适应新场景和新任务。它还支持“一脑多形”,即一个通用策略模型可以适用于不同形态的机器人,实现跨本体应用。

GO-1还具备持续进化的能力。通过智元提供的数据回流系统,GO-1可以从实际执行中遇到的问题数据中不断学习,实现自我优化和升级。这种能力使得GO-1在面对复杂多变的环境和任务时,能够不断适应和改进,提高执行效率和准确性。

在应用场景方面,GO-1同样表现出色。它不仅可以应用于家庭场景,如准备餐食、收拾桌面等,还可以拓展到办公和商业场景,如接待访客、发放物品等。GO-1还有望在工业等更多领域发挥重要作用,为各种操作任务提供智能化支持。

GO-1的工作原理也十分先进。它可以将输入的多相机视觉信号和人类语言指令,直接转化为机器人的动作执行。这一过程中,ViLLA框架通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如,当用户用自然语言告诉机器人“挂衣服”时,GO-1能够迅速理解指令含义,并根据所学习的知识和数据,规划出挂衣服的步骤和动作,最终精准完成任务。

在实际应用中,GO-1展现出了极高的灵活性和适应性。无论是早上为用户倒水、烤吐司,还是在商务会议中为用户拿取饮料和水果,GO-1都能迅速响应并准确执行。它还可以通过数据回流持续进化,不断优化自身的执行能力和效率。

智元机器人的这一创新成果,无疑为机器人智能化的发展注入了新的活力。GO-1的出现,不仅将推动机器人在更多场景中的应用和拓展,还将促进具身智能技术的不断升级和完善。未来,我们有理由相信,随着技术的不断进步和创新,机器人将在人类的工作和生活中发挥更加重要的作用。

 
反对 0举报 0 收藏 0
 
更多>同类天脉资讯
全站最新
热门内容
媒体信息
新传播周刊
新传播,传播新经济之声!
网站首页  |  关于我们  |  联系方式  |  版权隐私  |  网站留言  |  RSS订阅  |  违规举报