當前位置:首頁(yè) > 百科 > 正文內容

“超人”AI簡(jiǎn)直不堪一擊?研究發(fā)現:ChatGPT等大模型也不行

奉賢區名片印刷3個(gè)月前 (07-12)百科14
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

當前,關(guān)于“超人”人工智能(superhuman artificial intelligence)的討論正變得愈發(fā)熱烈。然而,或許只需要一點(diǎn)點(diǎn)“對抗性攻擊”,那些可以輕松擊敗人類(lèi)冠軍的 AI 系統(如 AlphaGo、KataGo 等),便會(huì )變得不堪一擊。

而且,這種脆弱性不僅限于圍棋 AI,也可能擴展到 ChatGPT 等聊天機器人背后的大語(yǔ)言模型。更關(guān)鍵的是,這一問(wèn)題很難消除。

日前,來(lái)自 FAR AI 和麻省理工學(xué)院(MIT)的研究團隊在一項研究中揭示了 AI 本身的這一脆弱性。他們表示,想要構建始終優(yōu)于人類(lèi)智能水平的、魯棒性很強的 AI 系統,可能比我們想象得要更加困難。

相關(guān)研究論文以 “Can Go AIs be adversarially robust?” 為題,已發(fā)表在預印本網(wǎng)站 arXiv 上,尚未經(jīng)過(guò)同行評審。

伊利諾伊大學(xué)計算機科學(xué)家 Huan Zhang 指出:“這篇論文為如何實(shí)現建立人們可以信任的、強大的真實(shí)世界 AI 智能體這一宏偉目標打了一個(gè)大大的問(wèn)號。”

MIT 計算機科學(xué)家 Stephen Casper 也表示:“這項研究提供了一些迄今為止最有力的證據,證明讓高級 AI 模型按照預期方式魯棒地運行是很困難的。”

AI “圍棋冠軍”不堪一擊

棋類(lèi)游戲一直以來(lái)都是人類(lèi)智力的重要考驗,近年來(lái)也被作為 AI 系統智能化水平的“試金石”。在圍棋中,兩名玩家輪流將黑白棋子放在網(wǎng)格上,包圍和吃掉對方的棋子。

此前,圍棋 AI 系統 KataGo 因擊敗頂級人類(lèi)棋手的能力而廣受矚目,隨著(zhù)人們對 AI 是否能真正超越人類(lèi)智能的不斷質(zhì)疑,KataGo 也成為人類(lèi)和一些 AI 系統不斷挑戰的對象。

早在 2022 年,研究團隊便通過(guò)訓練對抗性 AI 機器人,發(fā)現盡管這些機器人總體上不是優(yōu)秀的圍棋選手,但它們能夠找到并利用 KataGo 的特定弱點(diǎn),經(jīng)常性地擊敗 KataGo。此外,人類(lèi)也可以理解機器人的這些伎倆,并用來(lái)?yè)魯?KataGo。

這究竟是一次偶然,還是這項研究成果揭示了 KataGo 的根本弱點(diǎn),進(jìn)而揭示了其他看似具有超人能力的 AI 系統的根本弱點(diǎn)?

為了驗證這一猜想研究,他們使用對抗機器人測試了圍棋 AI 遭受此類(lèi)攻擊的三種防御方法——位置對抗性訓練、迭代對抗性訓練以及更改網(wǎng)絡(luò )架構,這些方法分別針對 KataGo 的已知漏洞進(jìn)行了不同層面的改進(jìn)與防御。

圖|圍棋對抗性攻擊的三種防御策略,左圖:位置對抗性訓練;中間:迭代對抗性訓練;右圖:用視覺(jué) Transformer(ViT)替代卷積神經(jīng)網(wǎng)絡(luò )的訓練(來(lái)源:論文)

第一種防御方法是 KataGo 開(kāi)發(fā)人員在 2022 年攻擊事件后已經(jīng)部署的方法,與 KataGo 自學(xué)圍棋的方法類(lèi)似,他們給 KataGo 提供攻擊所涉及的棋盤(pán)位置示例,讓它自己下棋,來(lái)學(xué)習如何應對這些位置。他們發(fā)現,即使是這種升級版的 KataGo,對抗型機器人也能學(xué)會(huì )擊敗它,勝率高達 91%。

他們嘗試的第二個(gè)防御策略是迭代對抗性訓練,該方法模擬了一個(gè)持續的 “軍備競賽”,在對抗性訓練中不斷引入新的攻擊和防御策略。針對對抗機器人訓練一個(gè)版本的 KataGo,然后對更新后的 KataGo 訓練攻擊者,如此反復九次。盡管這種方法在一定程度上提升了 KataGo 的防御能力,但仍未能完全解決適應性攻擊的問(wèn)題,對手不斷發(fā)現新的漏洞,最后一個(gè)升級的對抗性機器人在 81% 的情況下?lián)魯×睡浏?KataGo。

研究表明,這些防御方法均未能起到有效作用,對抗性機器人依然能夠找到 KataGo 的漏洞,并擊敗它們。具體來(lái)說(shuō),位置對抗性訓練的 KataGo 在面對一種 “送二收一” 的策略時(shí)表現不佳,而迭代對抗性訓練的 KataGo 則容易受到 “打吃” 攻擊。

考慮到 KataGo 是基于卷積神經(jīng)網(wǎng)絡(luò )(CNN)設計的計算模型,研究人員懷疑,卷積神經(jīng)網(wǎng)絡(luò )可能過(guò)于關(guān)注局部細節,而忽略了全局路徑。于是,在第三種防御策略中,他們使用視覺(jué) Transformer(ViT)替代卷積神經(jīng)網(wǎng)絡(luò ),從零開(kāi)始訓練了一個(gè)新的圍棋 AI,在一定程度上改變了 AI 的學(xué)習模式,但仍無(wú)法完全消除循環(huán)攻擊的脆弱性,在 78% 的情況下還是被擊敗了。

對此,最早開(kāi)發(fā)出 KataGo 的紐約計算機科學(xué)家 David Wu 指出:“強大的圍棋 AI 在平均表現上是超人類(lèi)的,但在最糟糕的情況下并非如此。”

實(shí)現“超人”人工智能?沒(méi)那么簡(jiǎn)單

這項研究揭示了頂級圍棋 AI 系統在對抗性策略下的脆弱性,對整個(gè) AI 領(lǐng)域的安全性和可靠性提出了新的挑戰。盡管 KataGo 在平均表現上優(yōu)于人類(lèi),但從它在最壞情況下表現出的缺陷可以看出,構建真正穩定的 AI 系統依然任重道遠。

研究人員通過(guò)三種針對圍棋對抗性攻擊的防御方法增加了 KataGo 的攻擊難度,然而這些措施并未完全實(shí)現防御攻擊,總能被以遠少于訓練對抗性 AI 所需的計算量成功攻擊,這些防御措施的穩定性也沒(méi)有達到人類(lèi)的水平。

盡管如此,研究人員發(fā)現應對固定攻擊的計算量較低,說(shuō)明通過(guò)對大量攻擊訓練,圍棋 AI 系統或許可以實(shí)現完全防御。

為實(shí)現這一目標,研究團隊提出了兩條互補方法:一是通過(guò)開(kāi)發(fā)新的攻擊算法來(lái)擴大攻擊語(yǔ)料庫,降低訓練攻擊方所需的計算量;二是通過(guò)提高對抗訓練的樣本效率,使被攻擊方能夠從有限的對抗策略中進(jìn)行泛化。

此外,除了對抗訓練之外,還有其他可以提高 AI 系統穩定性的方法,例如多智能體強化學(xué)習方案可能自動(dòng)發(fā)現和消除循環(huán)攻擊策略,或者通過(guò)改變威脅模型使用在線(xiàn)或有狀態(tài)防御,動(dòng)態(tài)更新模型。

研究結果表明,人類(lèi)在構建穩定的 AI 系統方面仍然存在重大障礙,如果在圍棋 AI 這一明確且封閉的領(lǐng)域無(wú)法實(shí)現魯棒性,那么在更開(kāi)放的現實(shí)世界應用中實(shí)現這一目標將更加困難。為了安全構建 AI 系統,未來(lái)的先進(jìn)系統必須在設計之初就具備內在的魯棒性。

這項研究不僅在圍棋 AI 領(lǐng)域具有重要意義,也對其他“超人”人工智能應用領(lǐng)域提出了系統性研究的建議,盡管防御措施可以在一定程度上提高 AI 系統的魯棒性,但要完全消除對抗性攻擊的威脅仍然非常困難。

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全