河汉通用宣布寰球首个端到端具身抓取根底大模
作者:[db:作者]日期:2025/01/12 浏览:
河汉通用宣布寰球首个端到端具身抓取基本年夜模子 GraspVLA,预练习数据十亿帧“视觉-言语-举措”对
河汉通用宣布寰球首个端到端具身抓取基本年夜模子 GraspVLA,预练习数据十亿帧“视觉-言语-举措”对
2025年01月10日 14:54
IT之家
IT之家 1 月 10 日新闻,河汉通用昨日(1 月 9 日)发布,结合北京智源人工智能研讨院(BAAI)及北京年夜学跟喷鼻港年夜学研讨职员,宣布首个片面泛化的端到端具身抓取基本年夜模子 GraspVLA。IT之家注:“具身智能”是指将人工智能融入呆板人等物理实体,付与它们感知、进修跟与情况静态交互的才能。据先容,GraspVLA 的练习包括预练习跟后练习两局部。此中预练习完整基于分解年夜数据,练习数据到达了有史以来最年夜的数据体量 —— 十亿帧「视觉-言语-举措」对,控制泛化闭环抓取才能、告竣基本模子。预练习后,模子可直接 Sim2Real(IT之家注:从模仿到事实)在未见过的、变幻无穷的实在场景跟物体上零样本测试,官方声称满意年夜少数产物的需要;而针对特殊需要,后练习仅需小样本进修即可迁徙基本才能到特定场景,保持高泛化性的同时构成合乎产物需要的专业技巧。官方颁布了 VLA 到达基本模子需满意的七年夜泛化“金尺度”:光照泛化、配景泛化、立体地位泛化、空间高度泛化、举措战略泛化、静态烦扰泛化、物体种别泛化。▲ 光照泛化,二倍速播放▲ 配景泛化,三倍速播放▲ 立体地位泛化,二倍速播放▲ 空间高度泛化,二倍速播放▲ 举措战略泛化,三倍速播放▲ 静态烦扰泛化,二倍速播放 ▲ 物体种别泛化,三倍速播放
相关文章