多数网友投票赞成她“去死”后,马来西亚一女孩自杀
IT之家 1 月 23 日消息,如何將視覺語⾔基礎模型(Vision⠠Language⠠Models,⠠VLMs)應⽤於機器⼈以實現通⽤操作是具身智能領域的⼀個核⼼問題,這⼀⽬標的實現受兩⼤關鍵挑戰製約:
VLM 缺少精確的 3D 理解能⼒:通過對⽐學習範式訓練、僅以 2D 圖像 / ⽂本作為輸⼊的 VLM 的天然局限;
⽆法輸出低層次動作:將 VLM 在機器⼈數據上進⾏微調以得到視覺 - 語⾔ - 動作(VLA)模型是⼀種有前景的解決⽅案,但⽬前仍受到數據收集成本和泛化能⼒的限製。

上海智元新創技術有限公司官方今日發文稱,北⼤攜⼿智元機器⼈團隊提出 OmniManip 架構,基於以對象為中⼼的 3D 交互基元,將 VLM 的高層次推理能力轉化為機器⼈的低層次高精度動作。
針對⼤模型幻覺問題和真實環境操作的不確定性,OmniManip 引⼊了 VLM 規劃和機器⼈執⾏的雙閉環係統設計,實現了操作性能突破。目前項⽬主⻚與論⽂已上線,代碼與測試平台即將開源。

IT之家從智元機器人官方獲悉,OmniManip 的關鍵設計包括:
基於 VLM 的任務解析:利⽤ VLM 強⼤的常識推理能⼒,將任務分解為多個結構化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。
以物體為中⼼的交互基元作為空間約束:通過 3D 基座模型⽣成任務相關物體的 3D 模型和規範化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從⽽優化求解出 Active 物體在 Passive 物體規範坐標係下的⽬標交互姿態。
閉環 VLM 規劃:將⽬標交互姿態下的 Active / Passive 物體渲染成圖像,由 VLM 評估與重采樣,實現 VLM 對⾃身規劃結果的閉環調整。
閉環機器⼈執⾏:通過物體 6D 姿態跟蹤器實時更新 Active / Passive 物體的位姿,轉換為機械臂末端執⾏器的操作軌跡,實現閉環執⾏。
此外,OmniManip 具備通⽤泛化能⼒,不受特定場景和物體限製。團隊已將其應⽤於數字資產⾃動標注 / 合成管道,實現⼤規模的機器⼈軌跡⾃動采集。該研究團隊將開源泛化操作⼤規模數據集和對應的仿真評測基準。
據IT之家此前報道,以“天才少年”身份加入華為的稚暉君於 2022 年底宣布離職,創業智元機器人。2024 年 9 月 3 日,智元機器人完成 A++++++ 輪融資,估值已超過 70 億元,得到了包括北汽、上汽、比亞迪在內的國內汽車巨頭支持。
目前,智元機器人量產的第 1000 台通用具身機器人已於本月(1 月 6 日)正式下線,其中包括 731 台雙足人形機器人(遠征 A2 / 靈犀 X1)和 269 台輪式通用機器人(遠征 A2-D / A2-W)。

最新留言