“人工智能那一套,對具身智能來(lái)說(shuō)遠遠不夠”
2024年7月8日,由騰訊研究院吉印通前海國際事務(wù)研究院、青騰和香港科技園公司等多家機構發(fā)起的AISociety人工智能+社會(huì )發(fā)展高端研討會(huì )第二期,在深圳香港科學(xué)園深圳分園成功舉辦。本次論壇的主題為《AI時(shí)代的人機關(guān)系展望》。
以下是來(lái)自清華大學(xué)孫富春教授的主旨發(fā)言:
大家好,我今天給大家匯報的題目是《具身智能如何賦能產(chǎn)業(yè)?》
首先,咱們說(shuō)說(shuō)傳統的具身智能。傳統的AI大多是“紙上談兵”,在離身數據集上做強化學(xué)習,這種強化學(xué)習沒(méi)有考慮到感知和行為在環(huán)境交互過(guò)程中的合理性,特別是感知和行為過(guò)程中得到結果的好壞對認知決策的影響,這些統稱(chēng)為“內體作用”,也就是說(shuō)機器人認知過(guò)程中知識的更新、生長(cháng),包括物理層面的發(fā)育。
由此我們就開(kāi)始研究具身智能。具身智能是通過(guò)感知和行為的與物理世界的交互,通過(guò)內體作用,進(jìn)行決策和行為,我們把它叫做“身體力行”。講一個(gè)例子,比如說(shuō)一個(gè)服務(wù)機器人在洗碗,有用戶(hù)跟它開(kāi)玩笑,它洗干凈了給它弄臟,它看到了之后又把碗洗干凈,這個(gè)過(guò)程需要交互過(guò)程才能完成。傳統的話(huà),用數據集訓練的策略,在洗完碗之后就結束了,別人再把臟東西放進(jìn)去它也不會(huì )再洗。所以只有通過(guò)這個(gè)過(guò)程,即“具身”才能實(shí)現。
1963年,麻省理工學(xué)院Richard Held 教授舉了一個(gè)例子,五對貓做學(xué)習訓練,一個(gè)是用別人的數據集訓練,一個(gè)是在物理世界訓練,結果在物理世界的訓練貓學(xué)會(huì )了行走。這個(gè)例子進(jìn)一步說(shuō)明具身的重要性。實(shí)踐出真知,講的就是這樣一個(gè)道理。
關(guān)于具身智能體和通用操作
2021年ICRA2021世界機器人大會(huì )上我有幸做了開(kāi)幕式后的第一場(chǎng)大會(huì )報告,我當時(shí)就提出了“具身智能體”的概念。具身智能具有感知體和行為體兩個(gè)實(shí)體部分,行為體,如操作末端在生產(chǎn)線(xiàn)上和作業(yè)現場(chǎng)完成各種各樣的任務(wù),還有一個(gè)部分是認知體,就像人一樣,能夠運用大量的知識進(jìn)行認知與決策。具身智能很重要的一個(gè)功能叫做“外感知,內體作用”,這個(gè)內體作用是知識的生長(cháng)與更新,如對書(shū)本上錯誤的知識進(jìn)行修正。所以我們提出了從感知體、認知體和行為體,通過(guò)感知和行為的交互來(lái)實(shí)現這樣的內體作用,包括知識的更新、生長(cháng)與發(fā)育。
下面再看一下通用操作。首先,我們在生產(chǎn)線(xiàn)上也好,在其他場(chǎng)景也好,我們特別希望機器人能夠做通用操作,它必須面對各種各樣的物理形態(tài),包括規則、不規則、尺度變化很大的物體,都能實(shí)現操作。第二是機器人要做多任務(wù),包括能做任務(wù)的生成。比如說(shuō)手術(shù)過(guò)程中發(fā)現出血了,這個(gè)事先根本沒(méi)有考慮到這個(gè)問(wèn)題需要生成止血的任務(wù),所以任務(wù)生成也是在通用操作中必須要具備的一種能力。第三,它要針對操作過(guò)程中操作目標的形態(tài)和姿態(tài)的連續變化,我們模擬了人的大小腦、外周神經(jīng)和中樞神經(jīng)系統是如何控制手的操作。
過(guò)去離身的強化學(xué)習是通過(guò)跟環(huán)境作用產(chǎn)生獎懲機制就可以,而這個(gè)獎懲機制產(chǎn)生的效果好壞是不考慮的,現在具身強化學(xué)習既要考慮到模型如何有利于產(chǎn)生決策,還要考慮決策反過(guò)來(lái)如何不斷優(yōu)化模型,這里用到了非常重要的神經(jīng)符號系統來(lái)作殘差,通過(guò)殘差來(lái)做知識更新的過(guò)程。再一個(gè)是可以把強化學(xué)習,無(wú)模型的強化學(xué)習如何跟控制理論中的模型預測控制做有機結合,進(jìn)一步提高增強智能體對數據和操作環(huán)境的適應能力。
我們還做了一個(gè)很重要的工作,我們用GNN GNN模擬外周神經(jīng),模擬人操作過(guò)程中的肌肉和關(guān)節的形態(tài)變化,通過(guò)多智能體模擬中樞神經(jīng)系統和模擬人的小腦如何通過(guò)與環(huán)境的交互過(guò)程實(shí)現行為的控制。最后把這些技術(shù)集成到 “空間行為體”。這個(gè)空間行為體一方面通過(guò)幾何深度的學(xué)習來(lái)對操作物體的形態(tài)和變化來(lái)進(jìn)行建模,二是要學(xué)習形態(tài)的變化和操作行為之間的映射關(guān)系。另一方面,還要考慮實(shí)際行為與規劃行為的偏差,研究如何利用這個(gè)偏差來(lái)實(shí)現知識的增長(cháng)、更新包括發(fā)育過(guò)程。
具身智能的產(chǎn)業(yè)賦能
接下來(lái)講一下產(chǎn)業(yè)應用問(wèn)題。具身智能特別強調的是“虛實(shí)一體”,要求計算機生成的操作環(huán)境與物理世界高度一致,所以一個(gè)很重要的方面,是對物理環(huán)境當中的各種實(shí)體建立物理屬性,比如說(shuō)杯子有多重,轉動(dòng)慣量是多少,泊松比等,它對光的折射是多少,這是第一個(gè)根本變化。第二個(gè)變化是要考慮實(shí)體在物理環(huán)境相互作用產(chǎn)生的力覺(jué)和聽(tīng)覺(jué),并如何把它做進(jìn)去。
這就涉及到好幾個(gè)建模的技術(shù)。第一,觸覺(jué)和聽(tīng)覺(jué)怎么建模,在觸覺(jué)建模方面我們提出了“粒子交互”的建模方法,可以非常精細地建立實(shí)體之間相互作用的觸覺(jué)。第二,神經(jīng)輻射場(chǎng)的方法,相信騰訊也有很多人在做,適合視覺(jué)環(huán)境下的物體的顏色、紋理和變形的建模。第三,是各個(gè)連接部分的建模,最后通過(guò)融合就能形成我們所說(shuō)的物理數字系統,而這個(gè)物理數字系統是具身智能中非常重要的部分。我們在一個(gè)和物理世界高度一致的環(huán)境中訓練出來(lái)的策略,更能適應物理世界。
我們過(guò)去用預自適應、預隨機化和知識蒸餾等方法提高遷移學(xué)習的魯棒性和泛化能力,但是在物理世界中顯得很不夠。我們能不能分析出計算機世界訓練的策略誤差和物理世界的策略誤差,究竟存在什么樣的關(guān)系?我們團隊目前已經(jīng)給出這個(gè)關(guān)系。通過(guò)這個(gè)關(guān)系,我們就知道誤差的上界是多少,雖然很保守,但是另一方面這個(gè)上界又反過(guò)來(lái)能指導我們物理數字系統究竟如何構建。我們有一篇相關(guān)文章,大家可以在網(wǎng)上看到。
第二個(gè)比較重要的是,具身智能特別強調內體作用,要對各種感知、認知、操作和運動(dòng)建立知識庫。比如說(shuō)我講一個(gè)非常簡(jiǎn)單的例子,人是怎么來(lái)做知識學(xué)習?人這雙手就是通用的,從小學(xué)會(huì )寫(xiě)字、學(xué)會(huì )做各種實(shí)驗、各種裝配等,當然運動(dòng)員、電影演員能夠做出常人做不出來(lái)的各種行為,這些行為是由技能組成的。我們學(xué)到了大量的技能,把這些技能在空間和時(shí)間組合,就形成不同的任務(wù)。那我們能不能把人的學(xué)習過(guò)程教給機器人?
人的學(xué)習過(guò)程一般可以分為三個(gè)階段:第一,認知階段。比如說(shuō)體育課體育老師告訴我們怎么運球,怎么射門(mén),要領(lǐng)要學(xué)會(huì )。第二,精煉階段,要鞏固不斷精煉學(xué)到的要領(lǐng)和原則。第三,自主階段,我們把這個(gè)看成跨任務(wù)和多任務(wù)學(xué)習,這個(gè)過(guò)程使我們對技能的運動(dòng)達到如火純青的地步。。
今天我們把初學(xué)的過(guò)程對應到機器人的模仿學(xué)習,比如說(shuō)把蘋(píng)果放在桌子上,就可以把它看成有三個(gè)技能組成,包括找蘋(píng)果、抓握蘋(píng)果、放置蘋(píng)果。找蘋(píng)果包括眼睛搜蘋(píng)果,檢測蘋(píng)果兩個(gè)動(dòng)作基元,而搜索蘋(píng)果背后是一個(gè)向量,我們叫語(yǔ)義的向量表示。比如說(shuō)在哪里開(kāi)始搜,速度是多少,什么時(shí)候停下來(lái),這是具身智能的很重要的一部分,一定要做向量表示,實(shí)現知識和數據的統一處理,這在A(yíng)I里叫“詞嵌入”。
很多人會(huì )問(wèn)我,很多熟練的工人在生產(chǎn)線(xiàn)上,比如說(shuō)手機裝配的貼膠、貼膜,通過(guò)十幾年的工作,他們的動(dòng)作行為非常標準和規范,我們能不能有一種感應式建模方法呢?我們談到了感應式的技能解析,通過(guò)視覺(jué)、觸覺(jué)和聽(tīng)覺(jué)就能把操作行為轉化成前面談到的技能。比如說(shuō)視覺(jué)主要是拓撲學(xué)習,而觸覺(jué)和聽(tīng)覺(jué)主要是基于事件。現在解析的準確度可以達到96%。
如果把大模型用在一個(gè)特定場(chǎng)景中,首先要做場(chǎng)景庫,這是一個(gè)具身智能和其他地方不一樣的點(diǎn)。具身智能要建大量的操作場(chǎng)景的知識庫,這種知識庫不是大家拿個(gè)手機拍個(gè)照片,而是一個(gè)物理數字系統。比如說(shuō)這里面的車(chē)有重量,它的運動(dòng)速度和各種物理屬性都要具備。這里涉及到一個(gè)知識,比如說(shuō)移動(dòng)操作按鈕是一個(gè)任務(wù),需要三個(gè)技能去做,如何把這些知識用到具體場(chǎng)景里呢?這就有一個(gè)很重要的場(chǎng)景適配,適配之后才能做優(yōu)化。比如說(shuō)把蘋(píng)果放在桌子上,蘋(píng)果可能在任何一個(gè)位置,而描述的操作技能都是一樣的,必須要把操作的技能和場(chǎng)景適配。
這個(gè)例子談的是無(wú)人駕駛,一個(gè)超車(chē)駕駛需要三個(gè)技能,這個(gè)技能庫也要適配到場(chǎng)景當中。3C裝配中比較核心的“打螺絲”,同樣也要適配。這里談到的插線(xiàn),尤其是不同尺寸類(lèi)型的軟排線(xiàn),也要把技能與場(chǎng)景適配。
由此看到大模型用在具身應用方面,跟現在的大模型不一樣的地方在哪里呢?首先要建立大型知識庫,這種知識庫可能是人工建的,也可能是感應式的。第二是要建場(chǎng)景庫,這對未來(lái)的算力提出非常高的要求,如果要作物理數字系統和通常的視覺(jué)點(diǎn)云,相比整個(gè)存儲大概要增加1000倍。第三是要通過(guò)大模型做任務(wù)規劃,第四是做場(chǎng)景適配再做優(yōu)化,才能把大模型用在具身智能當中。
我們用機械臂來(lái)完成軟排線(xiàn)的裝配,末端有一個(gè)執行器,和通常的二指夾爪是不一樣的,這是我們的創(chuàng )新。這是多指,即超過(guò)五個(gè)指的末端執行器,它能夠根據操作對象的物理形態(tài)變胞形成操作構型的變化。我們團隊基于前面介紹的工作,今年參加了在日本ICRA2024的操作抓取比賽和Sim2Real,只參加了這2個(gè)項目的比賽,駿取得了冠軍。在3C裝配這方面的項目很幸運地拿到了日內瓦國際發(fā)明展的金獎。
在未來(lái)發(fā)展上,具身智能帶動(dòng)的另外一場(chǎng)革命將會(huì )是傳感器技術(shù)革命。具身智能傳感器,第一,需要把智能計算前移,也就是說(shuō)傳感器自身具有對數據的處理能力;第二要有行為能力,這是對具身智能傳感器技術(shù)來(lái)說(shuō)非常重要的革新。而這些對算力也提出了巨大的要求。
我們團隊研制的基于微視覺(jué)的觸覺(jué)傳感器,在指尖上實(shí)現了一平方厘米500個(gè)點(diǎn),通過(guò)超分可以做到5000個(gè)點(diǎn),分辨率達到0.2毫米。研制的電容式觸覺(jué)傳感器分辨率達到0.625,研制的壓阻式觸覺(jué)傳感器,分辨率達到1毫米,裝配一只靈巧手的費用是1.5萬(wàn)元。
具身智能未來(lái)發(fā)展和四個(gè)要素有關(guān)系:
第一,本體技術(shù),比如說(shuō)人形機器人,現在兩條腿做得很不錯,但是兩只手普遍不行。如何讓機器人的兩只手做得更好,也是未來(lái)人形機器人發(fā)展中比較重要的部分。
第二,具身智能需要知識+數據+場(chǎng)景。這里場(chǎng)景一定是物理數字系統。我們搞工科的人和文科的人不一樣在哪里?我們要有實(shí)驗室,可以做實(shí)驗。據說(shuō),一些人具有做思維實(shí)驗的能力,愛(ài)因斯坦和霍金都具有做思維實(shí)驗的能力,愛(ài)因斯坦的很多論斷現在驗證都是對的。大模型也可以做物理實(shí)驗,這是具身智能需要的。
第三,具身智能體,能夠實(shí)現感知和行為與物理世界的交互,同時(shí)實(shí)現知識的生長(cháng)、更新和發(fā)育。如機械臂上的傳感器、天花板上的傳感器,如何讓各種資源實(shí)現智能體的狀態(tài)表示,同時(shí)如何在大腦的控制下,讓智能體能夠發(fā)現模型建得不對。主動(dòng)感知是未來(lái)具身智能非常重要的部分。
第四,學(xué)習和進(jìn)化的構架是具身智能中非常重要的部分,它不光包括軟件層面,還包括硬件層面,比如說(shuō)知識怎么更新。還有一部分是物理發(fā)力,經(jīng)常踢球的人腿會(huì )變得很粗,未來(lái)機器人也需要這樣。
孫富春,清華大學(xué)計算機科學(xué)與技術(shù)系教授,博士生導師,IEEE/CAAI/CAA Fellow, 國家杰出青年基金獲得者; 兼任清華大學(xué)校學(xué)術(shù)委員會(huì )委員,計算機科學(xué)與技術(shù)系長(cháng)聘教授委員會(huì )副主任,清華大學(xué)人工智能研究院智能機器人中心主任。兼任擔任國家重點(diǎn)研發(fā)計劃機器人總體專(zhuān)家組成員,中國人工智能學(xué)會(huì )(CAAI)副理事長(cháng),中國自動(dòng)化學(xué)會(huì )(CAA)和中國認知科學(xué)學(xué)會(huì )(IACS)常務(wù)理事,中國教育發(fā)展戰略學(xué)會(huì )人工智能及機器人教育專(zhuān)委會(huì )理事長(cháng)。兼任國際刊物《Cognitive Computation and Systems》,《AI and Autonomous Systems》主編,中國人工智能學(xué)會(huì )會(huì )刊《CAAI Artificial Intelligence Research》執行主編,刊物《Robots and Autonomous Systems》和《International Journal of Social Robots》編委。
騰訊研究院:《機器人崛起:具身智能的技術(shù)、商業(yè)與社會(huì )落地路線(xiàn)圖》
?? 點(diǎn)個(gè)“在看”分享洞見(jiàn)