当前位置: 首页 > 滚动>正文
 

仅需千分之一数据量!国产视频模型即可实现物理操作

 
 
 
发布日期:2025-07-26 20:08   来源:新华网-北京   阅读量:16355   

我国科技企业生数科技携手清华大学25日发布具身基座模型Vidar。这一模型能够用更少的数据,使虚拟世界中的“视频指令”变成真实世界的“执行操作”,真正实现机器人的“指哪打哪”。

“仅用20分钟的机器人真机数据,即可快速泛化到机器人,所需数据量约为行业均值的千分之一,显著降低了机器人对数据的需求门槛。”生数科技创始人兼首席科学家朱军介绍,模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持高性能的同时,展现出显著的少样本学习优势。

Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。“行业主流的视觉-语言-动作模型高度依赖大量优质数据,并且这些数据往往只适配特定的机器人本体及其采集的特定任务集,然而数据收集费时费力且成本高昂。”朱军说。

而Vidar的核心突破在于其通过解构具身任务的执行范式,充分利用“大量通用视频-中等规模具身视频数据-少量机器人训练特定数据”构成的三级“数据金字塔”,以实现“更少数据、更高效能”。

为使模型更加“见多识广”“见机行事”——实现多类型机器人操作的密切配合、灵活适应更多样的物理环境,研发团队还创新性地研发出一种全新的具身预训练方法,进一步增强对物理世界控制的精准度。

为突破现有具身智能数据被任务“过度捆绑”、规模难以做大的瓶颈,团队创新构建了高精度预测逆动力学模型,实现了低成本、高效率、高精度的机器人动作预测。

“我们希望以多模态大模型推动数字世界与物理世界的深度融合与协同进化。”朱军说,一方面,我们通过打造新一代数字内容创作引擎,使AI成为人类创意的延伸;另一方面,我们通过高效训练具身视频基座模型,实现虚拟与现实的深度互动。

免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。


  • 票难抢,酒店也涨价“周杰伦效应”赚麻了?

    票难抢,酒店也涨价“周杰伦效应”赚麻了?

    “我真的是在和人类抢票么?”曾在去年线上演唱会获得10亿点赞的周杰伦,今年线下演唱会再度收获粉丝的热情。近日,周杰伦2023嘉年华世界巡回演唱会多地门票预售陆续开启,开售即售罄让不少粉丝惊呼“根本抢不到”的同时,也让相关话题冲上微博热搜。数...

  • 腾讯QQ音乐iOS/安卓版12.1发布:片段播放支持调节音调升降,视频与

    腾讯QQ音乐iOS/安卓版12.1发布:片段播放支持

    下面是更新内容:「片段练唱」播放页-更多-片段播放升级,支持调节音调升降「音效」视频与MV也能结合银河音效啦,快来体验吧「黑胶播放器」“多彩琉璃”、“深色机械”等更多黑胶播放器等你来解锁体验IT之家附部分新功能演示:......

  • 神十五航天员近日完成第2次出舱,“圆梦乘组”太空出差日程过半

    神十五航天员近日完成第2次出舱,“圆梦乘组”太空出差

    ,IT之家从中国载人航天工程办公室官方公众号获悉,近日,神舟十五号航天员乘组进行了第二次出舱活动。在地面工作人员和舱内航天员邓清明的密切配合下,两名出舱航天员费俊龙、张陆圆满完成全部既定工作任务,安全返回问天实验舱。神舟十五号航天员乘组第二...

  • 索尼发布全阵列式LED电视X90L、量子点OLED电视A95L、OLED

    索尼发布全阵列式LED电视X90L、量子点OLED电

    ,索尼2023年BRAVIAXR电视新品阵容今日全球发布。本次发布的新品共4个系列,包含MiniLED电视X95L、全阵列式LED电视X90L、量子点OLED电视A95L、OLED电视A80L。索尼新一代游戏电视X90L新款电视搭载XR认知...

  • 美国银行称人工智能正迈入“iPhone时刻”,未来7年为世界经济带来15

    美国银行称人工智能正迈入“iPhone时刻”,未来7

    ,美国银行战略分析师预测,人工智能正迈入“iPhone时刻”,预估到2030年会为全球经济带来15.7万亿美元的增长。图源WikiMedia美国银行策略师在周二给客户的一份报告中,列出了AI即将改变格局的四个原因:数据民主化、前所未有的大规...


 

热点文章

推荐图文

投资风向网 | 关于我们 | 网站地图 | RSS订阅 | 皖ICP备2022015281号   邮箱:jokeryouxiang@163.com