天圖萬(wàn)境發(fā)布輕舟大模型發(fā)布,引領(lǐng)AI進(jìn)入空間智能時(shí)代
6月27日,首屆中國·重慶科技電影周高峰論壇上,天圖萬(wàn)境現場(chǎng)發(fā)布了“輕舟空間智能大模型”,它使用AI感知視聽(tīng)技術(shù)研發(fā),這也是空間智能大模型的首次行業(yè)亮相。
圖:天圖萬(wàn)境創(chuàng )始人圖拉古做主旨演講
現有的AI大模型,人機交互方式主要是以提示詞輸入為主。但下一代AI,則需要其具備主動(dòng)識別空間環(huán)境的能力,理解人類(lèi)意圖并具備一定的自我決策和自我行為能力。這就需要機器像人類(lèi)一樣擁有可以觀(guān)看的眼睛,聽(tīng)聲的耳朵,最終將這些信息輸送給大腦,并做出決策和行動(dòng)。
為此,我們就不僅僅需要會(huì )對話(huà)的AI,更需要能夠通過(guò)視聽(tīng)感知周?chē)腁I,能夠做出行動(dòng)和決策的AI。因此,一個(gè)全新的AI計算機視覺(jué)(AICV)+AI聽(tīng)覺(jué)的感知時(shí)代正在到來(lái)。天圖萬(wàn)境此次發(fā)布的空間智能大模型“輕舟”,即從這個(gè)角度出發(fā)在補齊AI的感知視聽(tīng)能力。
什么是計算機的感知能力?天圖萬(wàn)境創(chuàng )始人圖拉古,在論壇現場(chǎng)分享了他和團隊研究的新理論,即讓AI擁有跟人類(lèi)一樣的視覺(jué)、聽(tīng)覺(jué),并以此為基礎認識世界,建立對三維空間的認知能力。
圖:天圖萬(wàn)境創(chuàng )始人圖拉古講解AI類(lèi)腦“MoE”框架
AI空間智能大模型,就是仿照人類(lèi)的感知能力,讓AI建立視覺(jué)系統、聽(tīng)覺(jué)系統和大腦中樞。
AI空間智能大模型是一種改進(jìn)的MoE框架,MoE 起源于 1991 年的論文《Adaptive Mixture of Local Experts》。該論文的理念與集合方法類(lèi)似,都是為由不同網(wǎng)絡(luò )組成的系統提供監督程序,每個(gè)網(wǎng)絡(luò )處理不同的訓練集子集。每個(gè)獨立的網(wǎng)絡(luò )或者說(shuō)專(zhuān)家擅長(cháng)于輸入空間的不同區域。至于如何選擇專(zhuān)家這個(gè)問(wèn)題,是由門(mén)控網(wǎng)絡(luò )來(lái)決定每個(gè)專(zhuān)家網(wǎng)絡(luò )的權重。在訓練過(guò)程中,專(zhuān)家網(wǎng)絡(luò )和門(mén)控網(wǎng)絡(luò )都要接受訓練,這種框架也被稱(chēng)為專(zhuān)家混合 (MoE) ,是 LLM 中常用的一種技術(shù),旨在提高其效率和準確性。
圖拉古認為,在 AI視聽(tīng)領(lǐng)域,它應該是一種改良的類(lèi)腦框架,主要是關(guān)注于主動(dòng)決策和主動(dòng)分析,它需要把每一個(gè)專(zhuān)業(yè)的垂直 AI 模型作為一個(gè)專(zhuān)家神經(jīng)元看待,互相連接,彼此通訊,這就像大腦一樣,有負責語(yǔ)言的區域,有負責音樂(lè )的區域,有負責行動(dòng)的區域,有負責平衡的區域,他們雖然都在一個(gè)頭顱內,可是各自卻是獨立的,最終靠神經(jīng)中樞來(lái)協(xié)調并做出反應,多個(gè)區域之間靠生物電通訊。
AI感知視聽(tīng)(人工智能視覺(jué)聽(tīng)覺(jué))技術(shù)和全新改進(jìn)的MoE框架,稱(chēng)之為“聯(lián)級神經(jīng)元”框架,正是模擬人類(lèi)的大腦多區域總決策行為。讓人工智能具有與人類(lèi)相似的視覺(jué)、聽(tīng)覺(jué)感受,再通過(guò)聯(lián)級神經(jīng)元框架,像人的“大腦”中樞系統一樣,將這些AI能力聯(lián)接起來(lái),實(shí)現對世界的記憶力、理解力、分析力,并做主動(dòng)決策和行動(dòng)。
主動(dòng)分析、主動(dòng)獲取、自主決策
AI感知視聽(tīng)技術(shù)和聯(lián)級神經(jīng)元框架與其他大部分大模型所帶來(lái)的區別主要是主動(dòng)性和被動(dòng)性的區別。圖拉古表示,天圖萬(wàn)境的團隊希望創(chuàng )造一個(gè)更加理想的空間智能,讓機器為我們做事,或者幫我們做事。
視聽(tīng)技術(shù)的突破,讓AI有機會(huì )向類(lèi)人腦進(jìn)化
AI感知視聽(tīng)技術(shù)的推出,代表了空間智能領(lǐng)域的一次重大嘗試。那么到底是如何讓AI建立視覺(jué)體系?在現場(chǎng)圖拉古以AI空間智能大模型-“輕舟”如何實(shí)現對視覺(jué)的判斷和感知能力做了講解。
圖拉古舉例說(shuō)明,人類(lèi)伸出一只手指,當注意力集中于手指的時(shí)候,手指是清晰的,背景就是模糊的;當注意力轉向背景時(shí),背景是清晰的,手指就是模糊的;而手指清晰的時(shí)候,人類(lèi)可以識別手指銳利干凈的輪廓,甚至模糊的時(shí)候,也可以理解手指的位置和空間關(guān)系,并知道手指此刻的行為含義。
眼睛注意力在手指時(shí)背景是虛的,眼睛注意力在背景時(shí)手指是虛的,而在機器視覺(jué)中,我們希望任何一種攝像頭,任何一個(gè)畫(huà)面都可以建立人眼和人腦綜合識別效果,所以我們將綠幕圖像首先以人腦注意力機制的方式來(lái)處理圖像,進(jìn)而以人類(lèi)理解世界的方式來(lái)分割圖像。
【AI 空間智能模型-輕舟】第一步:
通過(guò)攝像頭獲得原始圖像↑
【AI 空間智能模型-輕舟】第二步:
模擬人腦和人眼的注意力機制,注意力放置于主體↑
【AI 空間智能模型-輕舟】第三步:
模擬人腦認知機制,分割需要的物體,而非綠色↑
【AI 空間智能模型-輕舟】在視聽(tīng)產(chǎn)業(yè)的應用非經(jīng)典摳綠技術(shù),而是AI類(lèi)腦注意力機制↑
而這樣的技術(shù),絕不僅僅只能用在視聽(tīng)產(chǎn)業(yè)里,未來(lái)任何需要像人類(lèi)一樣的具身智能系統,都將需要實(shí)時(shí)的認識世界,知道面前所看到的到底是什么、在做什么,機器要如何為它看到的東西做出理解決策和行動(dòng)。
【AI 空間智能模型-輕舟】在各行各業(yè)的技術(shù)應用前景↑
圖拉古又舉例了另一項技術(shù)-空間計算;人類(lèi)看到的空間都是三維的,而絕大部分計算機看到的空間都是平面的,盡管人類(lèi)可以通過(guò)激光雷達或者多幕攝像頭傳感器來(lái)計算空間,但這樣的過(guò)程都是復雜的或者計算開(kāi)銷(xiāo)巨大的。天圖萬(wàn)境的技術(shù)通過(guò)空間智能大模型,可以無(wú)需依賴(lài)外部傳感器,實(shí)時(shí)推理4K分辨率的穩定空間信息。
【AI 空間智能模型-輕舟】無(wú)需任何空間傳感器,實(shí)時(shí)推理4K空間深度信息↑
這意味著(zhù)未來(lái)任何傳統的平面圖像或視頻都可以再次以立體的方式呈現在計算機面前,而這樣的方式正是人類(lèi)看到和理解的世界,未來(lái)機器也會(huì )以這樣的方式重新來(lái)認識和感受世界。
【AI 空間智能模型-輕舟】讓機器看到立體的空間世界
而在聽(tīng)覺(jué)方面,天圖萬(wàn)境也與華為云共同研發(fā)了視頻聲效技術(shù),這樣的技術(shù)將模擬人類(lèi)的聽(tīng)覺(jué),通過(guò)聲音來(lái)感知這個(gè)世界并形成聯(lián)想的畫(huà)面或空間關(guān)系。
天圖萬(wàn)境與華為云共同研發(fā)視頻聲效大模型解決方案
AI感知視聽(tīng)技術(shù)起源于電影,隨著(zhù)技術(shù)迭代和發(fā)展,現在的應用場(chǎng)景將不再局限于電影。而正是在電影這樣頂級藝術(shù)的嚴苛要求下,如今的AI感知視聽(tīng)技術(shù)和AI空間智能模型“輕舟”才能超越其本身的意義,賦能千行百業(yè)。目前這樣的技術(shù)在礦山挖掘、消防檢測以及生活助手等多個(gè)領(lǐng)域具有巨大的潛力發(fā)展空間,未來(lái)任何具身智能系統都需要像人一樣看到聽(tīng)到世界,并通過(guò)這些信息來(lái)做出大腦決策,指揮機器行動(dòng)。
(來(lái)源:財商資訊)
更多精彩資訊請在應用市場(chǎng)下載“極目新聞”客戶(hù)端,未經(jīng)授權請勿轉載,歡迎提供新聞線(xiàn)索,一經(jīng)采納即付報酬。24小時(shí)報料熱線(xiàn)027-86777777。