智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即-天脉网

在机器人技术的前沿探索中，一款名为智元启元大模型Genie Operator-1（简称GO-1）的创新成果近日正式亮相，标志着通用具身智能基座模型迈出了重要一步。

GO-1由智元机器人公司推出，其核心在于创新的Vision-Language-Latent-Action（ViLLA）框架。这一框架融合了VLM（多模态大模型）与MoE（混合专家）技术，不仅实现了数据采集、模型训练与推理的一体化流程，更在小样本快速泛化、跨本体应用及持续进化等方面展现出显著优势。

VLM作为GO-1的主干网络，继承了开源多模态大模型的权重，并通过互联网上的大规模文本与图文数据，赋予了机器人广泛的场景感知与理解能力。而MoE中的隐动作专家模型与动作专家模型，则分别利用人类操作视频与高质量仿真数据，进一步提升了模型的动作理解与执行能力。

GO-1的五大特点尤为引人注目：采训推一体化设计确保了从数据到应用的无缝衔接；小样本快速泛化能力使其能够在极少数据支持下适应新场景与新任务；一脑多形特性意味着它能在不同形态的机器人之间灵活迁移；持续进化机制通过数据回流系统，使模型能够不断优化；而人类视频学习能力则增强了模型对人类行为的理解。

在构建过程中，GO-1采用了具身领域的数字金字塔模型。底层为互联网上的大规模文本与图文数据，为机器人提供基础知识；中层为人类操作视频，帮助学习动作模式；上层为仿真数据，增强泛化能力；顶层则为高质量真机示教数据，确保精准动作执行。这一结构使GO-1能够全面适应新场景，快速学习新操作。

ViLLA框架通过预测隐式动作标记，有效弥合了图像-文本输入与机器人执行动作之间的鸿沟。例如，当用户发出“挂衣服”的指令时，GO-1能够迅速理解指令含义，并结合所学的人类操作视频与仿真数据，规划并执行挂衣服的完整过程。这一过程不仅展示了GO-1强大的理解与执行能力，也体现了其在家庭、办公及商业场景中的广泛应用潜力。

在实际应用中，GO-1展现了其卓越的性能。从早晨起床后的倒水、烤吐司等家庭任务，到商务会议中的物品递送，再到活动现场的检票与物料发放，GO-1都能迅速响应并完成任务。其数据回流机制确保了模型能够持续优化，如从咖啡制作中的小失误中学习，直至成功完成任务。

GO-1的问世，不仅为机器人技术带来了革命性的突破，也为具身智能的通用化、开放化与智能化发展指明了方向。随着技术的不断进步，我们有理由相信，未来的机器人将更加智能、灵活，能够更好地适应多变的真实世界，为人类的工作与生活带来更多便利。

具体来说，VLM作为通用具身基座大模型的主干网络，继承开源多模态大模型5-2B的权重，利用互联网大规模纯文本和图文数据，让智元机器人的Genie Operator-1（GO-1）具备了通用的场景感知和理解能…

还没找到呢，我这是在干嘛啊，一个小时就这么没了，太快了！” 现在的互联网不知道会不会让你有这种感觉，想要找个PPT模板，结果看来看去，这个不满意，那个不满意。还没找到呢，我这是在干嘛啊，一个小时就这么没了，太…

据了解，MoE是当前大模型的主流架构，但其在分布式训练中存在大量跨设备通信开销，严重制约了大模型训练效率和成本。接近Monica内部的从业者表示，字节收购的逻辑是以3000万美金的价格收购团队，将其团队和…

在2025年的中国AI战场，字节跳动与开源大模型新贵DeepSeek的较量，折射出巨头在技术主权与生态话语权上的深层博弈。字节担忧开放核心接口会导致“数据外流—模型增强—生态虹吸”的恶性循环，这种警惕在腾讯元…

在今年 DeepSeek 热潮之后，市场普遍认为是 "Agents 元年 " 的关键时刻，AutoAgents也已经开发面向开发者和个人的 " 元知 " 助手，在 2025 年推出，这是一款在真实业务场景…

近日，字节跳动旗下的豆包大模型团队宣布了一项针对混合专家（MoE）架构的重要技术突破，并宣布将此关键技术优化方案开源。这一成果不仅体现了字节跳动在大模型技术领域的深厚积累，也为其在全球范围内的技术竞争增添了新…

除了京东和阿里，另一家专门做特卖的电商唯品会，在用户数据方面的表现也有看头：2024全年SVIP活跃会员数同比增长16%至880万，贡献了占比贡献49%的GMV，表现出了较强的用户粘性。像很多网友都点赞，…

毫无疑问，朋友圈视频时长增加就是张小龙提到的“对用户有价值，是他们需要的东西”，微信的这一动作，并不会让用户感到反感，恰恰相反，由于过去30秒时长的限制，用户往往发布不了有价值的短视频内容，而5分钟的短视频…

阿里天猫小店计划、京东百万便利店计划、苏宁小店、沃尔玛小型便利店 …… 早在 2018 年前后，资本市场迎来便利店热阶段，阿里、京东、苏宁等互联网企业就曾寄希望于通过收编、改造等方式，整改夫妻店生意刘强东喊出…