智元机器人发布通用具身基座大模型GO-1,引领具身智能新纪元
近日,智元机器人在科技创新领域迈出了重要一步,正式推出了其首个通用具身基座模型——Genie Operator-1(简称GO-1)。该模型的问世,标志着具身智能技术迈向了更加通用化、开放化与智能化的新阶段。
GO-1的核心在于其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架由多模态大模型VLM与混合专家MoE相结合构成。VLM作为主干网络,通过利用互联网上的大规模纯文本和图文数据,赋予了GO-1强大的场景感知和理解能力。而MoE则进一步增强了模型的动作理解和执行能力,通过隐动作专家模型和动作预测器,实现了从视觉信号和语言指令到机器人动作执行的无缝对接。
GO-1的推出,解决了具身智能领域长期存在的多个难题。它具备小样本快速泛化的能力,能够在极少数据甚至零样本的情况下适应新场景和新任务,大大降低了后训练成本。同时,GO-1还是一个“一脑多形”的通用机器人策略模型,能够快速适配到不同形态的机器人本体上,实现了跨本体的灵活部署。
在数据吸纳与知识构建方面,GO-1同样表现出色。它基于具身领域的数字金字塔结构,从底层的大规模纯文本与图文数据,到上层的人类操作视频、仿真数据以及真机示教数据,形成了全面的知识体系。这使得GO-1能够轻松面对多种多样的环境和物体,快速学习新的操作,并天然适应新的场景。
在实际应用中,GO-1展现出了惊人的表现。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能迅速响应并执行任务。用户只需通过简单的语言指令,就能让机器人完成各种复杂的工作。
GO-1还具备持续进化的能力。通过智元提供的数据回流系统,GO-1可以从实际执行中遇到的问题数据中不断学习,不断优化自身性能。例如,在制作咖啡时若不小心将杯子放歪,GO-1就能在后续任务中通过持续学习来避免类似错误的发生。
GO-1的推出只是智元机器人在具身智能领域探索的冰山一角。未来几个月内,智元还将推出基于强化学习的仿真模型,并亮相新的人形机器人。这些创新成果将进一步推动具身智能技术的发展,让机器人能够更好地服务于人类社会。