人工智能洞察 | 監管新趨勢:“紅隊”如何塑造生成式人工智能格局
近年來(lái),紅隊已經(jīng)成為大型語(yǔ)言模型開(kāi)發(fā)人員主動(dòng)測試系統漏洞和有問(wèn)題的輸出的主要方法。
然而,隨著(zhù)世界各國政府和監管機構越來(lái)越多地將紅隊概念作為管理與生成人工智能相關(guān)的諸多風(fēng)險的重要工具,紅隊行動(dòng)應該很快會(huì )超越“倡議性”的指導原則,而成為必要的監管標準。
一、什么是紅隊?
紅隊演習起源于網(wǎng)絡(luò )安全領(lǐng)域,傳統上是指一支專(zhuān)業(yè)團隊扮演對抗角色,以識別系統的缺陷或漏洞。在生成式人工智能領(lǐng)域,該過(guò)程通常需要聘請專(zhuān)門(mén)的“紅隊”來(lái)測試模型的邊界,以及在各個(gè)領(lǐng)域產(chǎn)生不良輸出的可能性。
紅隊演習的重點(diǎn),是測試模型產(chǎn)生有害、非法或其他不適當內容的傾向——從生成錯誤信息和圖像到復制受版權保護的材料或參與歧視。
紅隊演習的過(guò)程經(jīng)常涉及精心設計旨在操縱系統行為的提示,例如用復雜內容壓倒系統、假裝對有問(wèn)題的內容有良性需求、注入惡意代碼或以其他方式利用其邏輯產(chǎn)生非預期的輸出。
如果紅隊發(fā)現有問(wèn)題的模型行為,開(kāi)發(fā)人員就可以實(shí)施技術(shù)或政策保障措施,以防止或減輕系統在類(lèi)似的現實(shí)場(chǎng)景中做出不當響應的風(fēng)險。
二、監管機構為何青睞紅隊
最近,由于生成式人工智能模型面臨的技術(shù)挑戰,全球監管機構已將紅隊測試作為監管生成式人工智能系統的重要工具。雖然傳統或預測性機器學(xué)習系統可以進(jìn)行定量評估,但生成式人工智能系統具有創(chuàng )建新內容的獨特能力,而這些內容并不容易進(jìn)行直接評估。
模型的輸出也高度依賴(lài)于上下文,并受到輸入提示的細微變化的影響,因此很難通過(guò)傳統的風(fēng)險評估方法預測所有潛在的故障模式。更復雜的是,不同的系統可能會(huì )將模型納入截然不同的應用程序或行業(yè),每個(gè)應用程序或行業(yè)都有自己獨特的復雜性和相關(guān)風(fēng)險。綜合起來(lái),這使得提出一個(gè)普遍適用的監管框架相當困難。
盡管傳統的定量評估可能不適用,但這些模型仍然可以進(jìn)行系統測試。上面描述的紅隊方法提供了一種替代流程,通過(guò)該流程,可以以結構化和有意義的方式根據已確定的績(jì)效指標評估這些系統。
認識到這一點(diǎn)后,政府機構越來(lái)越多地轉向依賴(lài)獨立紅隊評估模型相關(guān)風(fēng)險的監管框架。政府不必提出量化標準,而是提供高風(fēng)險結果或有問(wèn)題的模型行為的優(yōu)先列表,并要求獨立測試人員根據這些參數評估系統。
這種趨勢并非新穎的做法,而是其他行業(yè)長(cháng)期以來(lái)的監管做法的縮影。這些行業(yè)采用復雜的技術(shù),無(wú)法通過(guò)統計測試完全捕捉績(jì)效指標,例如醫療保健或自動(dòng)駕駛汽車(chē)。在這些行業(yè)中,監管機構通常會(huì )使用獨立測試或審計來(lái)識別需要判斷和情境差異的領(lǐng)域中的潛在風(fēng)險。
三、人工智能紅隊全球監管趨勢
世界各國政府和監管機構正在積極考慮、起草法律和指導,在某些情況下已經(jīng)實(shí)施了這些法律和指導意見(jiàn),要求對生成式人工智能系統進(jìn)行外部紅隊測試,特別是對于可能帶來(lái)更廣泛社會(huì )風(fēng)險的大型語(yǔ)言模型。
監管部門(mén)對紅隊的日益關(guān)注,從最近的幾份聲明、指導方針和擬議法規中可見(jiàn)一斑。
在國際層面,七國集團呼吁生成式人工智能開(kāi)發(fā)者采用“獨立的外部測試措施,通過(guò)……方法……例如紅隊測試”。同樣,參加2023 年人工智能安全峰會(huì )的29 個(gè)國家簽署的《布萊切利宣言》也強調,開(kāi)發(fā)者負有通過(guò)嚴格的測試和評估措施確保其系統安全的重大責任。
1、美國
在美國,白宮關(guān)于人工智能的行政命令大力強調人工智能紅隊。該命令將“人工智能紅隊”定義為“一種結構化的測試工作,旨在發(fā)現人工智能系統中的缺陷和漏洞”,通常由專(zhuān)門(mén)的“紅隊”使用對抗方法進(jìn)行。
該行政令還要求美國國家標準與技術(shù)研究所(NIST)制定指導方針和程序,使開(kāi)發(fā)人員能夠有效地進(jìn)行這些人工智能紅隊測試。“雙重用途基礎模型”的商業(yè)開(kāi)發(fā)者(經(jīng)過(guò)廣泛訓練的通用模型,可能帶來(lái)安全、經(jīng)濟或健康風(fēng)險)必須根據即將出臺的標準對其系統進(jìn)行紅隊測試,并將結果提交給監管機構。
美國白宮發(fā)布的其他材料,包括《人工智能權利法案藍圖》和美國科學(xué)技術(shù)政策辦公室最近的一份聲明《紅隊大型語(yǔ)言模型以識別新的人工智能風(fēng)險》,也強調了外部紅隊測試對偏見(jiàn)、歧視、安全和隱私等關(guān)鍵人工智能風(fēng)險的重要性。
除了白宮,紅隊演習也正在得到美國立法者和行政機構的關(guān)注。美國參議院提出的《可信人工智能驗證與評估法案》旨在為人工智能評估和審計制定指導方針,包括開(kāi)展紅隊演習的外部審計員的標準。
在行政方面,美國國家電信和信息管理局強調了外部紅隊測試對于確保人工智能問(wèn)責的價(jià)值,并提出對高風(fēng)險人工智能系統進(jìn)行強制性獨立審計。
美國國家標準與技術(shù)研究院(NIST)最近發(fā)布的生成式AI 風(fēng)險管理概況也大力鼓勵紅隊測試,建議開(kāi)發(fā)人員使用這種測試形式來(lái)識別“不可預見(jiàn)的故障模式”。該指南特別建議公司使用紅隊測試來(lái)抵御各種攻擊,包括惡意代碼生成、即時(shí)注入、數據中毒和模型提取。紅隊測試還建議針對有問(wèn)題的輸出進(jìn)行測試,包括版權侵權、人口統計推斷和敏感信息泄露。
在州一級,科羅拉多州最近頒布了《人工智能法案》,該法案對高風(fēng)險人工智能系統的開(kāi)發(fā)者提出了各種要求,允許公司通過(guò)證明他們參與了“對抗性測試或紅隊”來(lái)遵守其要求。與此同時(shí),,將要求生成人工智能系統提供商定期進(jìn)行“紅隊練習”,以測試嵌入在人工智能生成內容中的水印的穩健性。
2、歐盟
歐盟也將紅隊測試作為其人工智能監管方法的關(guān)鍵組成部分。2024年初通過(guò)的要求,在產(chǎn)品整個(gè)生命周期內,對存在系統性風(fēng)險的“通用人工智能模型”進(jìn)行嚴格的紅隊測試,即“對抗性測試”。
開(kāi)發(fā)人員還必須披露此類(lèi)測試所采取措施的詳細說(shuō)明。鑒于歐盟在監管新興技術(shù)方面的領(lǐng)導作用,這些要求可能會(huì )影響全球范圍內監管人工智能的其他努力。
3、中國
在中國,雖然人工智能法律沒(méi)有明確提及紅隊,但有幾部法律法規暗示了這一點(diǎn),要求對人工智能系統進(jìn)行廣泛的評估和測試。
2022年國家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部吉印通發(fā)布的《深度合成互聯(lián)網(wǎng)信息服務(wù)管理規定》規定,對具有生成能力的深度學(xué)習系統的算法邏輯應當定期進(jìn)行檢查、驗證、評估和測試。
2024年3月1日,全國網(wǎng)絡(luò )安全標準化技術(shù)委員會(huì )發(fā)布的《生成式人工智能服務(wù)安全基本要求》禁止人工智能系統從事各種有害行為,并要求開(kāi)發(fā)人員實(shí)施安全測試和評估以監控合規性。
雖然沒(méi)有明確說(shuō)明,但根據這些規定,全面測試生成式人工智能系統可能需要某種形式的對抗性測試或紅隊測試。
4、來(lái)自其他國家
英國國家網(wǎng)絡(luò )安全中心強調了紅隊作為更廣泛的人工智能安全戰略一部分的重要性。2024年8月2日,英國科學(xué)、創(chuàng )新和技術(shù)部制定了一項自愿行為準則,建議開(kāi)發(fā)人員參與紅隊測試,最好使用獨立的外部測試人員來(lái)評估他們的人工智能模型。
加拿大目前正在制定一套全面的人工智能監管框架,并提出了一項自愿行為準則,建議通用生成人工智能的開(kāi)發(fā)者“在出臺具有約束力的監管措施之前”遵守該準則。除其他事項外,該框架建議采用“對抗性測試(即紅隊測試)來(lái)識別人工智能系統中的漏洞”。
雖然英國和加拿大的指導方針都不具有法律約束力,但它們提供了有關(guān)這些國家立法者如何處理人工智能治理的見(jiàn)解,并暗示了未來(lái)幾年可能實(shí)施的紅隊要求。
四、生成式人工智能監管的未來(lái)
越來(lái)越明顯的是,紅隊將在未來(lái)的監管工作中發(fā)揮關(guān)鍵作用。
全球各國政府和監管機構都清楚地認識到對抗性測試作為降低人工智能風(fēng)險的監管工具的價(jià)值,未來(lái)幾年應該會(huì )有更多國家強制實(shí)施此類(lèi)測試。隨著(zhù)這些要求逐漸成型,監管機構應當建立最佳實(shí)踐和認證流程,以確保紅隊測試與其他外部評估和審計流程一樣具有可信度和深度。
目前,圍繞此類(lèi)測試的流程和結構已經(jīng)形成了一些共識。考慮到這一發(fā)展,開(kāi)發(fā)和部署人工智能的公司應積極建立全面的流程來(lái)對其系統進(jìn)行紅隊測試。為了確保最有效和公正的評估,開(kāi)發(fā)人員應該聘請獨立的第三方測試人員來(lái)進(jìn)行這些紅隊演習,特別是因為監管框架很可能在不久的將來(lái)要求這樣做。
隨著(zhù)監管環(huán)境的不斷發(fā)展,那些已經(jīng)建立強大的紅隊實(shí)踐的人將能夠很好地應對這些即將到來(lái)的要求。
相關(guān)閱讀
作者:安德魯·艾肯(Andrew Eichen),Luminos.Law 律師,該律所專(zhuān)注于人工智法律政策及其風(fēng)險管理,是世界上第一家也是唯一一家由律師和數據科學(xué)家共同經(jīng)營(yíng)的律師事務(wù)所。
編譯:《互聯(lián)網(wǎng)法律評論》
【免責聲明】本文撰寫(xiě)所需的信息采集自合法公開(kāi)的渠道,我們無(wú)法對信息的真實(shí)性、完整性和準確性提供任何形式的保證。本文僅為分享、交流信息之目的,不構成對任何企業(yè)、組織和個(gè)人的決策依據。
《互聯(lián)網(wǎng)法律評論》提供業(yè)界解決方案
互聯(lián)網(wǎng)法律國際監管動(dòng)態(tài)研究
互聯(lián)網(wǎng)產(chǎn)業(yè)投資和政策監管研究
互聯(lián)網(wǎng)企業(yè):極端地緣政治沖突中的戰略研究
合作聯(lián)系
021yin.com
互聯(lián)網(wǎng)法律評論
《互聯(lián)網(wǎng)法律評論》是一個(gè)全新的法律自媒體平臺,持續關(guān)注中國及全球互聯(lián)網(wǎng)科技發(fā)展、產(chǎn)業(yè)發(fā)展和法律監管合規問(wèn)題,尤其是數據安全與個(gè)人隱私保護、知識產(chǎn)權、反壟斷等政策監管主題。
該公號運營(yíng)團隊包括:國際國內互聯(lián)網(wǎng)政策和法律研究、財經(jīng)媒體資深主編、互聯(lián)網(wǎng)企業(yè)公關(guān)戰略和品牌運營(yíng)等不同的專(zhuān)業(yè)人士,致力于打造一個(gè)持續輸出政策法律前瞻信息研究、且具有傳播優(yōu)勢的精品平臺。