“超人”AI簡(jiǎn)直不堪一擊?研究發(fā)現:ChatGPT等大模型也不行
當前,關(guān)于“超人”人工智能(superhuman artificial intelligence)的討論正變得愈發(fā)熱烈。然而,或許只需要一點(diǎn)點(diǎn)“對抗性攻擊”,那些可以輕松擊敗人類(lèi)冠軍的 AI 系統(如 AlphaGo、KataGo 等),便會(huì )變得不堪一擊。
而且,這種脆弱性不僅限于圍棋 AI,也可能擴展到 ChatGPT 等聊天機器人背后的大語(yǔ)言模型。更關(guān)鍵的是,這一問(wèn)題很難消除。
日前,來(lái)自 FAR AI 和麻省理工學(xué)院(MIT)的研究團隊在一項研究中揭示了 AI 本身的這一脆弱性。他們表示,想要構建始終優(yōu)于人類(lèi)智能水平的、魯棒性很強的 AI 系統,可能比我們想象得要更加困難。
相關(guān)研究論文以 “Can Go AIs be adversarially robust?” 為題,已發(fā)表在預印本網(wǎng)站 arXiv 上,尚未經(jīng)過(guò)同行評審。
伊利諾伊大學(xué)計算機科學(xué)家 Huan Zhang 指出:“這篇論文為如何實(shí)現建立人們可以信任的、強大的真實(shí)世界 AI 智能體這一宏偉目標打了一個(gè)大大的問(wèn)號。”
MIT 計算機科學(xué)家 Stephen Casper 也表示:“這項研究提供了一些迄今為止最有力的證據,證明讓高級 AI 模型按照預期方式魯棒地運行是很困難的。”
AI “圍棋冠軍”不堪一擊
棋類(lèi)游戲一直以來(lái)都是人類(lèi)智力的重要考驗,近年來(lái)也被作為 AI 系統智能化水平的“試金石”。在圍棋中,兩名玩家輪流將黑白棋子放在網(wǎng)格上,包圍和吃掉對方的棋子。
此前,圍棋 AI 系統 KataGo 因擊敗頂級人類(lèi)棋手的能力而廣受矚目,隨著(zhù)人們對 AI 是否能真正超越人類(lèi)智能的不斷質(zhì)疑,KataGo 也成為人類(lèi)和一些 AI 系統不斷挑戰的對象。
早在 2022 年,研究團隊便通過(guò)訓練對抗性 AI 機器人,發(fā)現盡管這些機器人總體上不是優(yōu)秀的圍棋選手,但它們能夠找到并利用 KataGo 的特定弱點(diǎn),經(jīng)常性地擊敗 KataGo。此外,人類(lèi)也可以理解機器人的這些伎倆,并用來(lái)?yè)魯?KataGo。
這究竟是一次偶然,還是這項研究成果揭示了 KataGo 的根本弱點(diǎn),進(jìn)而揭示了其他看似具有超人能力的 AI 系統的根本弱點(diǎn)?
為了驗證這一猜想研究,他們使用對抗機器人測試了圍棋 AI 遭受此類(lèi)攻擊的三種防御方法——位置對抗性訓練、迭代對抗性訓練以及更改網(wǎng)絡(luò )架構,這些方法分別針對 KataGo 的已知漏洞進(jìn)行了不同層面的改進(jìn)與防御。
圖|圍棋對抗性攻擊的三種防御策略,左圖:位置對抗性訓練;中間:迭代對抗性訓練;右圖:用視覺(jué) Transformer(ViT)替代卷積神經(jīng)網(wǎng)絡(luò )的訓練(來(lái)源:論文)
第一種防御方法是 KataGo 開(kāi)發(fā)人員在 2022 年攻擊事件后已經(jīng)部署的方法,與 KataGo 自學(xué)圍棋的方法類(lèi)似,他們給 KataGo 提供攻擊所涉及的棋盤(pán)位置示例,讓它自己下棋,來(lái)學(xué)習如何應對這些位置。他們發(fā)現,即使是這種升級版的 KataGo,對抗型機器人也能學(xué)會(huì )擊敗它,勝率高達 91%。
他們嘗試的第二個(gè)防御策略是迭代對抗性訓練,該方法模擬了一個(gè)持續的 “軍備競賽”,在對抗性訓練中不斷引入新的攻擊和防御策略。針對對抗機器人訓練一個(gè)版本的 KataGo,然后對更新后的 KataGo 訓練攻擊者,如此反復九次。盡管這種方法在一定程度上提升了 KataGo 的防御能力,但仍未能完全解決適應性攻擊的問(wèn)題,對手不斷發(fā)現新的漏洞,最后一個(gè)升級的對抗性機器人在 81% 的情況下?lián)魯×睡浏?KataGo。
研究表明,這些防御方法均未能起到有效作用,對抗性機器人依然能夠找到 KataGo 的漏洞,并擊敗它們。具體來(lái)說(shuō),位置對抗性訓練的 KataGo 在面對一種 “送二收一” 的策略時(shí)表現不佳,而迭代對抗性訓練的 KataGo 則容易受到 “打吃” 攻擊。
考慮到 KataGo 是基于卷積神經(jīng)網(wǎng)絡(luò )(CNN)設計的計算模型,研究人員懷疑,卷積神經(jīng)網(wǎng)絡(luò )可能過(guò)于關(guān)注局部細節,而忽略了全局路徑。于是,在第三種防御策略中,他們使用視覺(jué) Transformer(ViT)替代卷積神經(jīng)網(wǎng)絡(luò ),從零開(kāi)始訓練了一個(gè)新的圍棋 AI,在一定程度上改變了 AI 的學(xué)習模式,但仍無(wú)法完全消除循環(huán)攻擊的脆弱性,在 78% 的情況下還是被擊敗了。
對此,最早開(kāi)發(fā)出 KataGo 的紐約計算機科學(xué)家 David Wu 指出:“強大的圍棋 AI 在平均表現上是超人類(lèi)的,但在最糟糕的情況下并非如此。”
實(shí)現“超人”人工智能?沒(méi)那么簡(jiǎn)單
這項研究揭示了頂級圍棋 AI 系統在對抗性策略下的脆弱性,對整個(gè) AI 領(lǐng)域的安全性和可靠性提出了新的挑戰。盡管 KataGo 在平均表現上優(yōu)于人類(lèi),但從它在最壞情況下表現出的缺陷可以看出,構建真正穩定的 AI 系統依然任重道遠。
研究人員通過(guò)三種針對圍棋對抗性攻擊的防御方法增加了 KataGo 的攻擊難度,然而這些措施并未完全實(shí)現防御攻擊,總能被以遠少于訓練對抗性 AI 所需的計算量成功攻擊,這些防御措施的穩定性也沒(méi)有達到人類(lèi)的水平。
盡管如此,研究人員發(fā)現應對固定攻擊的計算量較低,說(shuō)明通過(guò)對大量攻擊訓練,圍棋 AI 系統或許可以實(shí)現完全防御。
為實(shí)現這一目標,研究團隊提出了兩條互補方法:一是通過(guò)開(kāi)發(fā)新的攻擊算法來(lái)擴大攻擊語(yǔ)料庫,降低訓練攻擊方所需的計算量;二是通過(guò)提高對抗訓練的樣本效率,使被攻擊方能夠從有限的對抗策略中進(jìn)行泛化。
此外,除了對抗訓練之外,還有其他可以提高 AI 系統穩定性的方法,例如多智能體強化學(xué)習方案可能自動(dòng)發(fā)現和消除循環(huán)攻擊策略,或者通過(guò)改變威脅模型使用在線(xiàn)或有狀態(tài)防御,動(dòng)態(tài)更新模型。
研究結果表明,人類(lèi)在構建穩定的 AI 系統方面仍然存在重大障礙,如果在圍棋 AI 這一明確且封閉的領(lǐng)域無(wú)法實(shí)現魯棒性,那么在更開(kāi)放的現實(shí)世界應用中實(shí)現這一目標將更加困難。為了安全構建 AI 系統,未來(lái)的先進(jìn)系統必須在設計之初就具備內在的魯棒性。
這項研究不僅在圍棋 AI 領(lǐng)域具有重要意義,也對其他“超人”人工智能應用領(lǐng)域提出了系統性研究的建議,盡管防御措施可以在一定程度上提高 AI 系統的魯棒性,但要完全消除對抗性攻擊的威脅仍然非常困難。