近日,智元机器人在科技领域迈出重要一步,正式发布其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一创新成果标志着机器人在理解和执行人类指令方面取得了显著进展。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,该框架结合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为主干网络,基于互联网上的大规模纯文本和图文数据,赋予GO-1强大的场景感知和理解能力。而MoE则通过隐动作专家模型和动作预测器,利用人类操作和跨本体操作视频以及高质量的仿真和真机数据,使GO-1能够精准执行动作。
GO-1展现了多方面的卓越性能。首先,其采训推一体的设计,使数据采集、模型训练和模型推理得以无缝衔接。其次,GO-1具备小样本快速泛化的能力,能够在极少数据甚至零样本的情况下,快速适应新场景和新任务。“一脑多形”的特性让GO-1能够在不同机器人形态之间迁移,快速适配各种本体。持续进化的能力则通过数据回流系统,使GO-1能从实际执行中遇到的问题数据中不断学习和进化。最后,人类视频学习的功能,让GO-1能够结合互联网视频和真实人类示范,增强对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔结构。底层是互联网的大规模纯文本与图文数据,为机器人提供通用知识和场景理解的基础。之上是互联网的大规模人类操作和跨本体视频,帮助机器人学习各种操作模式。再上一层是仿真数据,用于增强泛化性,使机器人能适应不同场景和物体。顶层则是高质量的真机示教数据,用于训练精准动作执行。这种结构使GO-1能够接受全面的“基础教育”和“能力培训”,轻松面对多种多样的环境和物体,快速学习新的操作。
在实际应用中,GO-1展现出了强大的执行能力。用户只需用日常语言向机器人发出指令,如“挂衣服”,GO-1就能根据视觉信号和所学数据,理解指令的含义和要求,并拆解成一系列步骤来执行任务。从理解场景、规划动作到精准执行,GO-1都能游刃有余地完成。
GO-1的应用场景广泛,无论是家庭、办公还是商业场景,都能发挥其强大的功能。在家庭中,GO-1可以帮忙准备餐食、收拾桌面等;在办公和商业场景中,GO-1可以负责接待访客、发放物品等工作;甚至在更复杂的工业场景中,GO-1也能快速适应并执行各种任务。
GO-1还具备持续进化的能力。例如,在制作咖啡时,如果机器人不小心把杯子放歪了,GO-1就能从这次失败中学习,并在未来的任务中避免同样的错误,直到成功完成任务。
GO-1的出现,为机器人代替人类完成各种工作和生活任务提供了强大的支持。从家庭场景到办公和商业场景,再到更复杂的工业场景,GO-1都能快速适应并执行任务。这标志着具身智能正在加速迈向通用化、开放化与智能化,让机器人能够走向更多不同场景,适应多变的真实世界。