蘭德公司發(fā)布:《強化學(xué)習人工智能系統的風(fēng)險評估》
2024年7月2日,蘭德公司發(fā)布報告《強化學(xué)習人工智能系統的風(fēng)險評估》,討論了美國國防部在實(shí)際應用強化學(xué)習技術(shù)時(shí)可能面臨的一些挑戰。在復雜的戰略游戲中,強化學(xué)習系統擊敗世界級專(zhuān)家,然而在實(shí)際應用中這種系統會(huì )帶來(lái)哪些風(fēng)險尚未可知。元戰略編譯該報告重點(diǎn)內容,為了解在作戰指揮和控制使用強化學(xué)習系統的相關(guān)風(fēng)險提供借鑒。
一、研究背景
該報告探討了將強化學(xué)習(RL)技術(shù)引入美國國防部的潛在風(fēng)險,描述了隨著(zhù)人工智能所執行任務(wù)的規模、復雜性和重要性日益增長(cháng),美國國防部所面臨的風(fēng)險。近期,人工智能在醫學(xué)、自然語(yǔ)言處理和自動(dòng)駕駛等多種應用領(lǐng)域取得了令人矚目的成就。在游戲領(lǐng)域,人工智能已經(jīng)掌握了國際象棋和圍棋等經(jīng)典棋類(lèi)游戲,此外《星際爭霸II》和《Dota2》等復雜的在線(xiàn)游戲,通常都有強化學(xué)習技術(shù)的影子,這激發(fā)了人們對將強化學(xué)習技術(shù)應用于美國國防部的極大興趣。
該報告利用一個(gè)為復雜的美國國防部任務(wù)提供決策分析的虛擬強化學(xué)習應用程序來(lái)探討其中的一些問(wèn)題。之所以選擇這么一個(gè)復雜且范圍廣泛的應用程序是為了涵蓋美國國防部的各種領(lǐng)域,以提取在初步評估技術(shù)可行性時(shí)可能會(huì )忽略的多重挑戰和后果。蘭德公司的技術(shù)專(zhuān)家和目前在蘭德公司工作的幾位美國國防部研究員參加了為期一天的指導研討會(huì ),對該應用進(jìn)行了分析。通過(guò)這次研討會(huì ),明確了一系列重要挑戰,這些挑戰可能是美國國防部在基于決策的復雜應用中使用強化學(xué)習技術(shù)時(shí)需要考慮的問(wèn)題。
二、研究問(wèn)題
1.在復雜的美國國防部應用中開(kāi)發(fā)和部署強化學(xué)習系統可能會(huì )面臨哪些主要技術(shù)挑戰?
2. 在使用這種技術(shù)時(shí),美國國防部可能會(huì )面臨哪些主要的非技術(shù)挑戰,例如因部署強化學(xué)習技術(shù)而導致的部隊重組?
3. 如果有的話(huà),有哪些解決方案可用于應對這些挑戰,如果不實(shí)施這些方案,會(huì )有哪些潛在風(fēng)險?
4. 如果解決方案包括重新訓練強化學(xué)習系統以應對意外故障,如何確定重新訓練的需求?在應用中發(fā)生故障時(shí),這種再訓練是否可行?
5. 確定的挑戰如何匹配應用范圍(狹義或廣義)和技術(shù)部署的速度?
三、研究方法
研究人員首先對強化學(xué)習技術(shù)進(jìn)行文獻綜述,以確定當前科技界在使用強化學(xué)習技術(shù)開(kāi)發(fā)應用時(shí)面臨的技術(shù)挑戰和取得的成功。回顧的內容既包括主要針對模擬環(huán)境的應用(如游戲),也包括旨在最終實(shí)現真實(shí)世界操作的商業(yè)應用(如自動(dòng)駕駛)。在主要由非技術(shù)性國防部專(zhuān)家組成的研討會(huì )上,提出并總結了八個(gè)挑戰領(lǐng)域。然后,研究人員制定了替代方案,以幫助探索在美國國防部應用中部署基于強化學(xué)習技術(shù)的系統所面臨的挑戰和影響。為了突出探索重點(diǎn),研究人員選擇了一種復雜的、基于決策的美國國防部應用——作戰級指揮與控制,它可能會(huì )對美國國防部的部隊結構、部署和當前技術(shù)水平提出各種挑戰。這種應用會(huì )因任何已確定的和未緩解的挑戰而產(chǎn)生嚴重后果。它還能讓美國國防部從應用范圍、粗略部署時(shí)限以及可能需要美國國防部部長(cháng)期投資或調整的問(wèn)題等方面考慮強化學(xué)習技術(shù)。研究人員制定了兩種方案:一種是以“爬行-行走-運行”的方式逐步開(kāi)發(fā)和部署強化學(xué)習代理或系統,另一種是以“冒進(jìn)”的方式直接進(jìn)入運行階段。
然后,研究人員探討了一種有指導的研討會(huì )形式,旨在為美國國防部參與者提供一個(gè)有用的論壇,以提出在選定場(chǎng)景中使用強化學(xué)習技術(shù)所面臨的挑戰和可能的解決方案。這個(gè)框架允許美國國防部的參與者自由討論,他們可能有操作經(jīng)驗,但在人工智能方面經(jīng)驗很少或沒(méi)有經(jīng)驗。研究人員首先考慮了一個(gè)正式的基于風(fēng)險的框架來(lái)應用于研討會(huì ),但文獻綜述發(fā)現沒(méi)有這樣的框架適合人工智能。如果構建這樣一個(gè)框架,將會(huì )因為對強化學(xué)習技術(shù)故障率的不甚了解而變得復雜,并且會(huì )給為期一天的研討會(huì )帶來(lái)不必要的復雜性。研究人員決定修改Mayer等人開(kāi)發(fā)的框架。
研討會(huì )為期一天,分三次會(huì )議進(jìn)行。第一場(chǎng)會(huì )議最初側重于在“爬行-行走-奔跑”和“冒進(jìn)”情景下部署強化學(xué)習技術(shù)對美國國防部部隊結構提出的挑戰。假定該技術(shù)已經(jīng)過(guò)充分的測試和驗證,適合部署。這種假設的目的是將重點(diǎn)從專(zhuān)用于飛行任務(wù)的技術(shù)挑戰轉移開(kāi)來(lái)。在第二場(chǎng)會(huì )議中,通過(guò)文獻綜述總結出的技術(shù)挑戰被提供給與會(huì )者審議,而不是從頭開(kāi)始提出挑戰。第三場(chǎng)會(huì )議用于討論與會(huì )者認為在前兩次會(huì )議中缺失的問(wèn)題。這一環(huán)節還被用來(lái)審議所討論的一些關(guān)鍵挑戰。
四、研究發(fā)現
1.美國國防部在使用和開(kāi)發(fā)強化學(xué)習技術(shù)方面可能受到限制,原因是缺乏該領(lǐng)域的專(zhuān)業(yè)技能人才,而且由于該領(lǐng)域競爭激烈、利潤豐厚,一旦獲得相關(guān)人員此類(lèi)技能,就很難留住人才。
2. 隨著(zhù)強化學(xué)習應用程序規模擴大,其對數據的要求也越來(lái)越高,這可能會(huì )超出美國國防部培訓范圍較窄的應用程序的能力。
3. 強化學(xué)習技術(shù)的黑箱決策性質(zhì),以及人類(lèi)不愿意相信此類(lèi)系統的非直觀(guān)判斷所帶來(lái)的問(wèn)題,可能會(huì )限制應用的規模,使其僅限于目前由人類(lèi)執行的決策流程。人類(lèi)無(wú)法合理評估的大型決策流程可能會(huì )面臨信任問(wèn)題。
4. 隨著(zhù)應用范圍的擴大,強化學(xué)習技術(shù)還面臨許多其他挑戰,包括訓練集和模擬模型的增長(cháng)。在這種情況下,測試與評估可能會(huì )變得非常棘手。用于訓練強化學(xué)習技術(shù)的現實(shí)模型無(wú)法捕捉物理世界的復雜性和變化,當強化學(xué)習技術(shù)遇到偏離其訓練的情況時(shí),可能會(huì )出現不可預知的失敗。因此,測試與評價(jià)可能會(huì )成為一個(gè)費力的過(guò)程,需要找到失效模式并進(jìn)行后續訓練,以迫使強化學(xué)習系統按預期運行。
5. 雖然文獻中的許多解決方案針對的是個(gè)別挑戰領(lǐng)域,但在美國國防部的廣泛應用中可能存在的所有挑戰都沒(méi)有找到解決方案。
五、政策建議
1. 美國國防部應探索如何吸引、培訓和留住一支具備使用強化學(xué)習技術(shù)所需技能的員工隊伍。鑒于強化學(xué)習技術(shù)的前沿性和動(dòng)態(tài)性,吸引相應的人才非常重要。從文獻中總結的一些技能組合包括:開(kāi)發(fā)新算法以解決特定問(wèn)題的能力;訓練強化學(xué)習系統的數據工程技能;訓練強化學(xué)習系統的建模環(huán)境;以及在真實(shí)測試環(huán)境中尋找失敗實(shí)例以重新訓練強化學(xué)習技術(shù)或修改其算法的分析技能。要吸引這些人才,可能需要改變部隊結構,使美國國防部在人工智能領(lǐng)域的工作與私營(yíng)部門(mén)的工作具有競爭力。
2. 美國國防部應制定方法,以獲取和生成與美國國防部問(wèn)題相關(guān)的數據,以及強化學(xué)習算法培訓所需的數據。這些數據必須包括在預期強化學(xué)習系統運行的環(huán)境和情況下收集的操作數據。如果預期強化學(xué)習系統將取代一個(gè)因其性質(zhì)而沒(méi)有許多可借鑒實(shí)例的決策過(guò)程,則收集或生成此類(lèi)數據集可能會(huì )具有挑戰性。
3. 在能夠利用強化學(xué)習技術(shù)的優(yōu)勢之前,美國國防部應更好地了解強化學(xué)習應用的局限性,以及它如何提供優(yōu)于現有技術(shù)的優(yōu)勢。這種了解將包括在作戰情況下對強化學(xué)習技術(shù)進(jìn)行充分測試和再培訓的過(guò)程,以及將預期風(fēng)險降低到可接受水平的能力。
4. 美國國防部應考慮利用應用于較小問(wèn)題的狹義人工智能可能帶來(lái)的漸進(jìn)式進(jìn)步,而不是一開(kāi)始就追求應用于更復雜問(wèn)題的廣義人工智能可能帶來(lái)的優(yōu)勢。這種方法可能會(huì )帶來(lái)較小的風(fēng)險,同時(shí)為更廣泛的人工智能提供一種引導訓練手段。
六、結語(yǔ)
強化學(xué)習技術(shù)和一般的人工智能技術(shù)為美國國防部提供了具有潛在戰略?xún)?yōu)勢的能力。但美國國防部的許多任務(wù),特別是那些可能涉及戰略決策的任務(wù),都具有廣泛性,這就給這種技術(shù)帶來(lái)了挑戰。由于強化學(xué)習技術(shù)是通過(guò)與環(huán)境的反復交互來(lái)學(xué)習的,因此這類(lèi)任務(wù)可能無(wú)法通過(guò)建模來(lái)為強化學(xué)習系統提供足夠訓練實(shí)例,以防止任務(wù)出現潛在的災難性失敗。由于強化學(xué)習技術(shù)在解決狹小問(wèn)題方面已表現出令人難以置信的能力,因此對美國國防部而言,其價(jià)值可能在于找到美國國防部任務(wù)中的“甜點(diǎn)”,在這個(gè)“甜點(diǎn)”上,可以對強化學(xué)習技術(shù)進(jìn)行充分訓練,以補充或超越人類(lèi)的決策能力,同時(shí)充分減少其失誤,將任務(wù)風(fēng)險降低到可接受的水平。與此同時(shí),還必須考慮僅由技術(shù)故障引起的風(fēng)險。對部隊結構以及培訓、操作和維護任何基于強化學(xué)習技術(shù)的系統的能力的影響也很重要。可能需要技能熟練的人員來(lái)解決潛在的強化學(xué)習技術(shù)故障,或留在原地監測和評估強化學(xué)習系統輸出。技能損失、技能退化、人員轉移以及對人工智能相關(guān)專(zhuān)業(yè)技能的需求,都是在選擇強化學(xué)習技術(shù)為美國國防部提供最大價(jià)值時(shí)需要考慮的因素。
免責聲明:本文轉自元戰略。文章內容系原作者個(gè)人觀(guān)點(diǎn),本*編譯/轉載僅為分享、傳達不同觀(guān)點(diǎn),如有任何異議,歡迎聯(lián)系我們!
轉自丨元戰略
研究所簡(jiǎn)介
國際技術(shù)經(jīng)濟研究所(IITE)成立于1985年11月,是隸屬于國務(wù)院發(fā)展研究中心的非營(yíng)利性研究機構,主要職能是研究我國經(jīng)濟、科技社會(huì )發(fā)展中的重大政策性、戰略性、前瞻性問(wèn)題,跟蹤和分析世界科技、經(jīng)濟發(fā)展態(tài)勢,為中央和有關(guān)部委提供決策咨詢(xún)服務(wù)。“全球技術(shù)地圖”為國際技術(shù)經(jīng)濟研究所官方*賬號,致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng )新洞見(jiàn)。
地址:北京市海淀區小南莊20號樓A座
電話(huà):010-82635522
*:iite_er