MAIA 新系統亮相:洞悉 AI 模型內在機制,審查其安全性
IT之家 7 月 25 日消息,麻省理工學(xué)院計算機科學(xué)與人工智能實(shí)驗室的研究人員開(kāi)發(fā)了一種名為“MAIA”的多模式自動(dòng)化可解釋性代理系統,該系統可以使用視覺(jué)語(yǔ)言模型來(lái)自動(dòng)執行各種神經(jīng)網(wǎng)絡(luò )可解釋性任務(wù)。
麻省理工學(xué)院(MIT)計算機科學(xué)與人工智能實(shí)驗室(CSAIL)最新研發(fā)了名為 MAIA 系統,可以使用視覺(jué)語(yǔ)言模型來(lái)自動(dòng)執行各種神經(jīng)網(wǎng)絡(luò )可解釋性任務(wù)。
MAIA 的全稱(chēng)是 Multimodal Automated Interpretability Agent,直譯過(guò)來(lái)為“多模態(tài)自動(dòng)可解釋性代理”,主要利用視覺(jué)語(yǔ)言模型,自動(dòng)執行各種神經(jīng)網(wǎng)絡(luò )可解釋性任務(wù),并配備了在其他人工智能系統吉印通行實(shí)驗的工具。
研究論文的共同作者,來(lái)自 MIT CSAIL 的博士后 Tamar Rott Shaham 表示:
我們的目標是創(chuàng )建一個(gè)能夠自主進(jìn)行可解釋性實(shí)驗的人工智能研究人員。現有的自動(dòng)可解釋性方法只是在一次性過(guò)程中對數據進(jìn)行標注或可視化。
另一方面,MAIA 可以生成假設,設計實(shí)驗對其進(jìn)行測試,并通過(guò)迭代分析完善自己的理解。
通過(guò)結合預先訓練好的視覺(jué)語(yǔ)言模型與可解釋性工具庫,我們的多模態(tài)方法可以在特定模型上組成和運行有針對性地實(shí)驗,來(lái)響應用戶(hù)的詢(xún)問(wèn),不斷完善其方法,直至能夠提供全面的答案。
該自動(dòng)代理被證明能夠完成三項關(guān)鍵任務(wù):
可以為視覺(jué)模型內部的各個(gè)組件貼標簽,并描述激活這些組件的視覺(jué)概念
可以通過(guò)去除無(wú)關(guān)特征來(lái)清理圖像分類(lèi)器,使其對新情況更加穩健
還可以尋找人工智能系統中隱藏的偏差,幫助發(fā)現其輸出中潛在的公平性問(wèn)題。
MAIA 可以通過(guò)生成假設、設計實(shí)驗來(lái)測試假設,并通過(guò)迭代分析改進(jìn)其理解,從而解釋人工智能模型的內部機制,幫助我們了解人工智能模型如何運作,并探究其安全性和偏差。
IT之家附上參考地址