“具身智能小鎮”來(lái)了!機器人逛超市買(mǎi)菜滿(mǎn)街跑,AI充當NPC,來(lái)自上海AI Lab
明敏 發(fā)自 凹非寺
量子位 | * QbitAI
超逼真的機器人小鎮來(lái)了!
在這里,機器人可以像人一樣在超市里購物:
買(mǎi)菜回家做飯:
在辦公室里接咖啡(旁邊還有人類(lèi)同事):
不只有人形機器人,機器狗、臂式機器人也在這個(gè)“城市”里穿梭自如。
這就是由上海AI實(shí)驗室最新提出的首個(gè)模擬交互式3D世界:GRUtopia(中文名:桃源)。
在這里,由多達100k個(gè)交互式、帶精細注釋的場(chǎng)景自由組合成逼真城市環(huán)境。
包含室內室外,餐廳、超市、辦公室、家庭等89個(gè)不同場(chǎng)景類(lèi)別。
由大模型驅動(dòng)的NPC,可以在這個(gè)世界里和機器人對話(huà)交互。
這樣一來(lái),各種機器人能在虛擬小鎮里完成各種行為模擬,也就是最近流行的Sim2Real路線(xiàn),能大幅降低具身智能現實(shí)世界數據收集難度和成本。
該項目計劃開(kāi)源,現階段在GitHub上已提供demo安裝指南。
安裝成功后,就能在demo里控制一個(gè)人形機器人在房間內活動(dòng),并支持調整不同視角。
機器人的虛擬桃源
其核心工作共有三項:
GRScenes
GRResidents
GRBench
其中,GRScenes是一個(gè)包含大規模場(chǎng)景數據的數據集。
它極大程度上擴展了機器人可以活動(dòng)和操作的環(huán)境范圍,此前的工作更聚焦于家庭場(chǎng)景。
該研究表示,他們的目標是將通用機器人的能力擴展到各種服務(wù)場(chǎng)景,比如超市、醫院等。同時(shí)覆蓋室內室外環(huán)境,包括游樂(lè )園、博物館、展覽館等。
對于各個(gè)場(chǎng)景,他們都進(jìn)行了精細高質(zhì)量建模,100 個(gè)場(chǎng)景包含 96 個(gè)類(lèi)別的 2956 個(gè)交互式物體和 22001 個(gè)非交互式物體。
GRResidents是一個(gè)NPC系統。
它由大模型驅動(dòng),同時(shí)對模擬環(huán)境中的場(chǎng)景信息非常了解。因此NPC可以推斷物體之間的空間關(guān)系,參與動(dòng)態(tài)對話(huà)和任務(wù)分配。
借助于這個(gè)系統,GRUtopia可以生成海量場(chǎng)景任務(wù)供機器人完成。
通過(guò)與人類(lèi)進(jìn)行交叉驗證,NPC系統在描述和定位對象上的準確率都不錯。
在描述實(shí)驗中,讓NPC系統隨機選擇一個(gè)物體進(jìn)行描述,人類(lèi)能找到對應物體就算成功。
在定位實(shí)驗中則反過(guò)來(lái),如果NPC系統能根據人類(lèi)給出的描述找到對應物體就算成功。
調用不同大模型的成功率不盡相同,綜合來(lái)看GPT-4o的表現最好。
GRBench是一個(gè)評估具身智能表現的benchmark。
它包含3個(gè)基準,涉及目標定位導航(Object Loco-Navigation)、社交定位導航(Social Loco-Navigation)和定位操作(Loco-Manipulation),這三種評估的難度逐漸遞增。
為了分析NPC和控制API的性能,研究提出了基于LLM和VLM的基線(xiàn),以驗證基準設計的合理性。
實(shí)驗結果表明,與隨機策略相比,在所有基準測試中,使用大型模型作為后端代理的表現都更好。
而且Qwen-VL在對話(huà)上的表現超過(guò)了GPT-4o。
最后整體對比來(lái)看,GRUtopia其他平臺在各個(gè)維度上都更強大。
該研究工作由上海人工智能實(shí)驗室OpenRobot Lab領(lǐng)銜。
該實(shí)驗室聚焦研究具身通用人工智能,致力于構建軟硬虛實(shí)一體化的通用機器人算法體系。
今年5月,該團隊還發(fā)布了具身多模態(tài)大模型Grounded 3D-LLM,能夠自動(dòng)化生成物體到局部區域的場(chǎng)景描述與具身對話(huà)數據,有效緩解了目前三維場(chǎng)景理解的局限性。
論文地址:
GitHub地址:
021yin.com/openrobotlab/grutopia?tab=readme-ov-file
— 完—
量子位年度AI主題策劃正在征集中!
歡迎投稿專(zhuān)題一千零一個(gè)AI應用,365行AI落地方案
或與我們分享你在尋找的AI產(chǎn)品,或發(fā)現的AI新動(dòng)向
點(diǎn)這里??關(guān)注我,記得標星哦~
一鍵三連「分享」、「點(diǎn)贊」和「在看」
科技前沿進(jìn)展日日相見(jiàn) ~