当前位置: 首页 > 热点>正文
 

首个机器人世界模型开源平台发布

 
 
 
发布日期:2025-08-15 03:22   来源:盖世汽车   阅读量:11752   

近日,智元机器人推出行业首个面向真实世界机器人操控的统一世界模型平台 Genie Envisioner,并宣布将开源全部代码、预训练模型及评测工具。

该平台创新性地将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,首次实现机器人在同一世界模型中完成从感知到决策再到执行的端到端推理流程。

传统机器人学习系统普遍采用quot;数据收集—模型训练—策略评估quot;的分阶段开发模式,各环节相互独立且依赖任务特定调优,导致开发复杂度高、迭代周期长。

GE平台通过构建统一的视频生成世界模型,破解了这一碎片化架构瓶颈。基于约3000小时的真实机器人操控视频数据,平台建立了语言指令到视觉空间的直接映射,完整保留机器人与环境交互的时空动态信息。

核心突破在于视觉中心的世界建模范式。区别于主流VLA方法依赖语言抽象,GE直接在视觉空间中建模机器人与环境交互动态,实现对物理规律的精准捕捉。这一范式带来显著性能跃升:

跨平台泛化效率提升:在Agilex Cobot Magic等全新机器人平台上,GE-Act动作模型仅需1小时遥操作数据即可高质量执行任务,优于需大规模多本体预训练的π0和GR00T模型;

长时序任务执行突破:在折叠纸盒等超10步连续任务中,GE-Act成功率高达76%,关键归因于视觉空间显式建模时空演化的能力及创新的稀疏记忆模块设计。

技术架构由三大协同组件构成:

GE-Base多视角视频基础模型:采用自回归视频生成框架,通过头部与双臂腕部三路视角输入保持空间一致性,结合稀疏记忆机制增强长时序推理。训练分两阶段:3-30Hz多分辨率时序适应训练提升运动鲁棒性,5Hz固定采样策略对齐微调;

GE-Act平行流匹配动作模型:160M参数轻量架构通过交叉注意力机制将视觉表征转换为控制指令,采用quot;慢-快quot;异步推理,在RTX 4090 GPU实现200毫秒54步实时响应;

GE-Sim层次化动作条件仿真器:通过Pose2Image条件与运动向量编码,将控制指令精确转换为视觉预测,支持闭环策略评估与数据生成,每小时可完成数千次策略rollout。

为量化世界模型质量,团队同步推出EWMBench评测套件,从场景一致性、轨迹精度等维度评估建模能力。在Kling、OpenSora等模型对比中,GE-Base在关键指标均领先且与人类判断高度吻合。平台现已开放项目主页、论文及代码仓库,推动具身智能从quot;被动执行quot;向quot;想象—验证—行动quot;范式演进。

免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。


  • 票难抢,酒店也涨价“周杰伦效应”赚麻了?

    票难抢,酒店也涨价“周杰伦效应”赚麻了?

    “我真的是在和人类抢票么?”曾在去年线上演唱会获得10亿点赞的周杰伦,今年线下演唱会再度收获粉丝的热情。近日,周杰伦2023嘉年华世界巡回演唱会多地门票预售陆续开启,开售即售罄让不少粉丝惊呼“根本抢不到”的同时,也让相关话题冲上微博热搜。数...

  • 腾讯QQ音乐iOS/安卓版12.1发布:片段播放支持调节音调升降,视频与

    腾讯QQ音乐iOS/安卓版12.1发布:片段播放支持

    下面是更新内容:「片段练唱」播放页-更多-片段播放升级,支持调节音调升降「音效」视频与MV也能结合银河音效啦,快来体验吧「黑胶播放器」“多彩琉璃”、“深色机械”等更多黑胶播放器等你来解锁体验IT之家附部分新功能演示:......

  • 神十五航天员近日完成第2次出舱,“圆梦乘组”太空出差日程过半

    神十五航天员近日完成第2次出舱,“圆梦乘组”太空出差

    ,IT之家从中国载人航天工程办公室官方公众号获悉,近日,神舟十五号航天员乘组进行了第二次出舱活动。在地面工作人员和舱内航天员邓清明的密切配合下,两名出舱航天员费俊龙、张陆圆满完成全部既定工作任务,安全返回问天实验舱。神舟十五号航天员乘组第二...

  • 索尼发布全阵列式LED电视X90L、量子点OLED电视A95L、OLED

    索尼发布全阵列式LED电视X90L、量子点OLED电

    ,索尼2023年BRAVIAXR电视新品阵容今日全球发布。本次发布的新品共4个系列,包含MiniLED电视X95L、全阵列式LED电视X90L、量子点OLED电视A95L、OLED电视A80L。索尼新一代游戏电视X90L新款电视搭载XR认知...

  • 美国银行称人工智能正迈入“iPhone时刻”,未来7年为世界经济带来15

    美国银行称人工智能正迈入“iPhone时刻”,未来7

    ,美国银行战略分析师预测,人工智能正迈入“iPhone时刻”,预估到2030年会为全球经济带来15.7万亿美元的增长。图源WikiMedia美国银行策略师在周二给客户的一份报告中,列出了AI即将改变格局的四个原因:数据民主化、前所未有的大规...


 

热点文章

推荐图文

投资风向网 | 关于我们 | 网站地图 | RSS订阅 | 皖ICP备2022015281号   邮箱:jokeryouxiang@163.com