AI又一突破!用AI理解AI,MIT推出多模態(tài)自動(dòng)可解釋智能體MAIA
撰文 | 馬雪薇
從《超體》中以藥物刺激大腦,到賽博朋克文化中用電子干涉入侵腦空間,人類(lèi)對人腦操縱的可能性有過(guò)很多幻想。想象一下,如果人類(lèi)真的可以直接操縱人腦的每一個(gè)神經(jīng)元,會(huì )怎樣呢?
到那時(shí),人類(lèi)將能夠直接理解這些神經(jīng)元在感知特定物體時(shí)的作用,有希望做出一些非?!翱苹谩钡氖虑?。
在現實(shí)生活中,這樣的實(shí)驗在人腦中幾乎是難以實(shí)施的,但在人工神經(jīng)網(wǎng)絡(luò )卻是可行的。然而,由于模型往往含有數百萬(wàn)神經(jīng),過(guò)于龐大且復雜,理解起來(lái)需要大量人力,這就使得大規模的模型理解成為一項極具挑戰性的任務(wù)。
為此,來(lái)自麻省理工學(xué)院計算機科學(xué)與人工智能實(shí)驗室(MIT CSAIL)的研究團隊推出了一個(gè)利用神經(jīng)模型自動(dòng)進(jìn)行模型理解任務(wù)的系統——MAIA,即“多模態(tài)自動(dòng)可解釋智能體”。
MAIA 使用預訓練的視覺(jué)語(yǔ)言模型來(lái)自動(dòng)化理解神經(jīng)模型的任務(wù)。模塊化的設計使 MAIA 能夠靈活地評估任意系統,并輕松地添加新的實(shí)驗工具。此外,它可以自動(dòng)執行復雜的實(shí)驗,使用迭代實(shí)驗方法來(lái)測試假設,并根據實(shí)驗結果更新假設。
加州大學(xué)伯克利分校助理教授 Jacob Steinhardt 認為,擴大這些方法可能是理解和安全監督人工智能系統最重要的途徑之一。但是,研究團隊認為, 增強的 MAIA 并不會(huì )取代人類(lèi)對人工智能系統的監督。MAIA 仍然需要人工監督來(lái)發(fā)現諸如確認偏差和圖像生成/編輯失敗之類(lèi)的錯誤。
真實(shí)效果怎么樣?
現有的自動(dòng)化可解釋性方法僅僅是一次性地對數據進(jìn)行標記或可視化,而 MAIA 則能夠生成假設,設計實(shí)驗來(lái)測試它們,并通過(guò)迭代分析來(lái)改進(jìn)其理解。通過(guò)將預訓練的視覺(jué)-語(yǔ)言模型(VLM)與可解釋性工具庫相結合,該多模態(tài)方法可以通過(guò)編寫(xiě)和運行針對特定模型的定向實(shí)驗來(lái)響應用戶(hù)查詢(xún),不斷改進(jìn)其方法,直到能夠提供全面的答案。
MAIA 框架的核心是一個(gè)由預訓練的多模態(tài)模型(如 GPT-4V)驅動(dòng)的智能體,該智能體能夠自動(dòng)執行實(shí)驗以解釋其他系統的行為。它通過(guò)將可解釋性子例程組合成 Python 程序來(lái)實(shí)現這一點(diǎn)。
圖 | MAIA 架構
研究團隊在神經(jīng)元描述范式上評估 MAIA,研究顯示,MAIA 在真實(shí)模型和合成神經(jīng)元數據集上均取得了優(yōu)異的描述效果,預測能力優(yōu)于基線(xiàn)方法,并與人類(lèi)專(zhuān)家相當。
圖 | 評估 MAIA 描述
此外,MAIA 在移除虛假特征和揭示偏見(jiàn)方面都表現出良好的應用潛力,可以幫助人類(lèi)用戶(hù)更好地理解模型行為,并改進(jìn)模型的性能和公平性。
用 MAIA 移除虛假特征
虛假特征會(huì )影響模型在真實(shí)世界場(chǎng)景中的魯棒性。MAIA 可以識別并移除模型中的虛假特征,從而提高模型的魯棒性。研究團隊使用 ResNet-18 在 Spawrious 數據集吉印通行訓練,該數據集中包含四種不同背景的狗品種。
在數據集中,每個(gè)狗品種與特定背景(例如雪,叢林,沙漠,海灘)虛假相關(guān),而在測試集中,品種-背景配對是混亂的。研究團隊使用 MAIA 來(lái)找到一個(gè)最終層神經(jīng)元的子集,該神經(jīng)元可以獨立于虛假特征魯棒地預測單個(gè)狗的品種,只需改變用戶(hù)提示中的查詢(xún)。
結果顯示,MAIA 可以有效地移除模型中的虛假特征,從而提高模型的魯棒性。
用 MAIA 揭示偏見(jiàn)
模型可能存在偏見(jiàn),導致其在某些情況下表現不佳。而 MAIA 可以自動(dòng)揭示模型中的偏見(jiàn)。研究團隊使用 ResNet-152 在 ImageNet 吉印通行訓練,并使用 MAIA 檢查模型輸出中的偏見(jiàn)。
在實(shí)驗過(guò)程中,MAIA 被提示生成與特定類(lèi)別相關(guān)的圖像,并觀(guān)察模型對這些圖像的響應。之后,MAIA 發(fā)現了一些模型對特定子類(lèi)或與特定類(lèi)別相關(guān)的圖像有偏好。
這表明 MAIA 可以幫助識別模型中的偏見(jiàn),從而改進(jìn)模型。
圖|MAIA 模型偏見(jiàn)檢測
不足與展望
雖然 MAIA 在自動(dòng)可解釋性方面展現出巨大潛力,但仍存在一些局限性。
首先,MAIA 的解釋能力受限于其使用的工具,如 Stable Diffusion 和 GPT-4。這些工具的局限性(例如圖像生成質(zhì)量、成本、訪(fǎng)問(wèn)限制)會(huì )直接影響 MAIA 的性能。未來(lái)可以考慮開(kāi)發(fā)更強大的內部工具,或尋找開(kāi)源替代方案,以提高系統的可靠性和可訪(fǎng)問(wèn)性。
其次,MAIA 的解釋并非形式化驗證,而是基于實(shí)驗結果和自然語(yǔ)言描述。這可能導致解釋存在偏差或誤導。未來(lái)可以考慮將形式化驗證方法(例如因果推理、理論分析)融入 MAIA,以提高解釋的準確性和可靠性。
此外,MAIA 無(wú)法完全避免常見(jiàn)錯誤,例如確認偏差、過(guò)度解釋、小樣本結論等。未來(lái)可以考慮引入自我反思機制,使 MAIA 能夠識別和糾正自身錯誤,并提高解釋的魯棒性。
展望未來(lái),這篇論文的共同作者 Rott Shaham 表示:“我認為我們實(shí)驗室的下一步自然是要超越人工系統,將這些類(lèi)似的實(shí)驗應用于人類(lèi)感知。傳統上,這需要手動(dòng)設計和測試刺激,這是一個(gè)勞動(dòng)密集型的過(guò)程。有了我們的智能體,我們可以擴大這個(gè)過(guò)程,同時(shí)設計和測試大量的刺激。”