利用AI犯罪只是時(shí)間問(wèn)題 一場(chǎng)AI治理的“大考”
WAIC2024前沿人工智能安全和治理論壇
作者/ IT時(shí)報記者潘少穎
編輯/ 孫妍
向善還是向惡?在A(yíng)I的世界里,貌似是個(gè)無(wú)法回答的問(wèn)題。融合了尖端科技和無(wú)限想象的AI,如同一面鏡子,映照出設計它、使用它的人類(lèi)社會(huì )的價(jià)值觀(guān)與道德取向。
當AI被賦予正面價(jià)值觀(guān)引導,并置于嚴格的倫理框架和監管之下,它能展現出驚人的向善力量;若AI缺乏有效監管和道德約束,其潛在的向惡風(fēng)險也不容忽視,網(wǎng)絡(luò )攻擊、侵犯個(gè)人隱私、加劇社會(huì )不平等甚至成為戰爭工具,這些場(chǎng)景都可能成為是AI的“深淵”。
在2024年世界人工智能大會(huì )(WAIC)前沿人工智能安全和治理論壇上,不少與會(huì )專(zhuān)家表示,希望AI能成為人類(lèi)理解世界、解決問(wèn)題的伙伴,而非僅僅是工具或威脅。比如AI能夠展現出更強的倫理意識和道德判斷能力,在面對復雜情境時(shí)做出符合人類(lèi)期望的選擇,避免成為破壞社會(huì )和諧、侵犯個(gè)人權益的元兇。
人類(lèi)對于A(yíng)I的期待是多元且深遠的,最終目的是實(shí)現與人類(lèi)社會(huì )的和諧共生。因此,在推動(dòng)AI技術(shù)創(chuàng )新和應用的同時(shí),必須通過(guò)政策法規、監管機制、行業(yè)自律和社會(huì )監督等手段,確保AI技術(shù)的發(fā)展符合人類(lèi)社會(huì )的整體利益和長(cháng)遠目標。
利用AI犯罪只是時(shí)間問(wèn)題
有一天,你接到了一個(gè)陌生電話(huà),聽(tīng)起來(lái)是女兒打來(lái)的,聲音顯得很恐慌而且語(yǔ)無(wú)倫次。正在旅行的她丟失了手機和錢(qián)包,需要你給她寄些錢(qián),但這個(gè)需要幫助的人真的是自己的女兒?jiǎn)幔?/p>
答案當然是“未必”,甚至大概率是假的?!袄肁I來(lái)犯罪只是時(shí)間問(wèn)題?!敝袊こ淘涸菏?、北京大學(xué)博雅講席教授高文表示,現在全球范圍內已經(jīng)有1000多位家長(cháng)收到了他們的個(gè)性化郵件和語(yǔ)音郵件,合成視頻、照片和聲音,這些都是利用最新的AI技術(shù)以最低的人力成本完成的。
現有的安全威脅在A(yíng)I手段下被擴大,特征被改變,“我們并不完全理解當前的AI模型,即神經(jīng)網(wǎng)絡(luò )是如何做出決策、如何得出特定輸出的。因此,當AI行為失常時(shí),我們可能無(wú)法預見(jiàn)它何時(shí)到來(lái),也不知道原因以及如何修復它?!眻D靈獎得主約書(shū)亞·本吉奧說(shuō),另一個(gè)問(wèn)題是現有的安全防護方法容易被移除,尤其是系統權重是可獲取的,那么移除所有的安全保護措施就非常容易。
在對AI的評估方面,約書(shū)亞·本吉奧表示目前的運作方式也不夠理想,“基本上就是問(wèn)AI一堆問(wèn)題,看看它會(huì )不會(huì )答錯。就像是在考試里抽查幾道題,但沒(méi)法把每道題都檢查到。如果抽查的那幾道題它答錯了,那我們就知道有問(wèn)題。但要是抽查的都對了,也不能保證它沒(méi)問(wèn)題。就像碰運氣,有問(wèn)題就看得到,沒(méi)問(wèn)題也可能藏著(zhù)?!?/p>
AI正在由“弱”向“強”持續演進(jìn),多模態(tài)智能、自主智能、邊緣智能等都是AI大模型發(fā)展的方向,中國工程院外籍院士、清華大學(xué)智能產(chǎn)業(yè)研究院院長(cháng)張亞勤預測通用人工智能可能在20年內實(shí)現。然而,這一飛躍并非沒(méi)有代價(jià)。他強調,這些風(fēng)險涵蓋了信息世界、物理世界和生物世界三個(gè)層面,這三種風(fēng)險的融合尤其值得警惕,當AI技術(shù)能夠無(wú)縫穿梭于信息、物理與生物世界之間,其失控或被惡意利用的后果將難以估量,可能會(huì )造成人類(lèi)的生存危機。
AI的未知
“AI模型最重要的功能,可能會(huì )有意無(wú)意地造成嚴重甚至災難性的傷害,鑒于A(yíng)I快速且不確定的變化速度,我們確信加深對這些潛在風(fēng)險的理解以及應對風(fēng)險的行為尤為緊迫?!?023年11月,全球第一份針對AI的國際性聲明《布萊切利宣言》這樣表示。
約書(shū)亞·本吉奧在論壇上表示,AI目前主要有三大風(fēng)險,惡意風(fēng)險主要包括違法、不道德的事件、偽造虛假信息等。故障風(fēng)險是指AI系統在運行過(guò)程中可能發(fā)生的各種故障和錯誤,可能導致系統性能下降、服務(wù)中斷甚至產(chǎn)生嚴重的后果。系統性風(fēng)險涉及AI對勞動(dòng)力市場(chǎng)的影響、全球AI發(fā)展不平衡帶來(lái)的“AI鴻溝”、市場(chǎng)集中度過(guò)高等問(wèn)題,可能對社會(huì )系統、經(jīng)濟體系乃至全球格局產(chǎn)生廣泛而深遠的影響。
“我們對AI系統的理解仍然不夠深入,用于評估和降低風(fēng)險的方法存在局限性,目前還沒(méi)有很好的方法去阻止風(fēng)險的發(fā)生?!奔s書(shū)亞·本吉奧說(shuō),通用人工智能非常有用,可以應用于許多偉大的應用中,但前提是必須妥善管理。
“AI for good”,從技術(shù)角度看,AI必須足夠好,從倫理角度看,AI必須為社會(huì )做好事。在高文看來(lái),目前的AI技術(shù)還處于低水平智能,“AI主要是對顯式知識的記憶和使用,要達到中水平智能,AI要有類(lèi)比人類(lèi)的舉一反三、觸類(lèi)旁通的能力,而高水平智能要求AI利用極少的線(xiàn)索,創(chuàng )造新知識體系?!?/p>
不可否認,即使目前AI依然處于低水平階段,還是進(jìn)入了2.0時(shí)代,因為AI在智能水平上,感知智能日益成熟,認知智能持續突破;在技術(shù)路線(xiàn)上,數據智能成為主流,類(lèi)腦智能蓄勢待發(fā);而在社會(huì )屬性上,AI的社會(huì )屬性日益增強,意味著(zhù)人類(lèi)面臨安全風(fēng)險和社會(huì )治理新挑戰?!叭绻麖娙斯ぶ悄軙r(shí)代到來(lái),可能存在三大安全風(fēng)險,即模型的不可解釋性、算法和硬件的不可靠性、自主意識的不可控性?!备呶恼f(shuō)。
把AI“帶上正路”
哪些新技術(shù)可以更好地抵御攻擊,同時(shí)最大限度降低安全風(fēng)險?
在A(yíng)I領(lǐng)域,安全有“四大抓手”:對齊、魯棒性、監測、系統安全性。張亞勤表示,大模型安全是一個(gè)系統工程,從輸入、輸出到安全評估、治理,特別是系統的安全對齊,涉及到數學(xué)、算法、工程、技術(shù)等各領(lǐng)域的問(wèn)題,最近大模型在安全對齊方面有許多進(jìn)展,比如提出了輕量級大模型微調方法,可用于混合質(zhì)量或安全/不安全數據下的大模型性能調優(yōu),還使用安全離線(xiàn)強化學(xué)習的方法來(lái)改進(jìn)安全策略。
如果把大模型比作一個(gè)聰明的孩子,擁有海量的知識和強大的學(xué)習能力,但有時(shí)候不太懂如何做出對人類(lèi)最有益、最安全的決策。為了確保這個(gè)孩子能“健康成長(cháng)”,并遵循“家長(cháng)”的期望和價(jià)值觀(guān),科學(xué)家們進(jìn)行了許多研究,這就是大模型安全對齊的進(jìn)展。
在大模型安全對齊的過(guò)程中,主要有兩種策略,一種是直接監督微調,收集大量高質(zhì)量、正面、安全的信息引導大模型,讓它在學(xué)習過(guò)程中逐漸形成正確的判斷和安全的行為模式;另一種是基于人類(lèi)偏好和價(jià)值觀(guān)的調整,更側重于理解和模擬人類(lèi)的思考方式,不僅告訴大模型哪些行為是安全的,還嘗試讓它理解為什么是安全的,讓大模型更好地理解和遵循人類(lèi)的偏好和價(jià)值觀(guān)。
2024年初,中國信通院吉印通企業(yè)、高校進(jìn)行大模型安全的基準測試,構建數據集和評測方法,對模型安全進(jìn)行評測,并按季度發(fā)布結果。以2024年中國信通院發(fā)布的AI Safety Benchmark Q1結果為例,對8家大模型進(jìn)行了安全測試發(fā)現,安全水平相對較高,但拒答率也偏高?!鞍踩捷^高,主要得益于大模型廠(chǎng)商在數據隱私保護、內容合規性、算法偏見(jiàn)識別及防御惡意輸入等方面的持續優(yōu)化與加強。但是,高拒答率也說(shuō)明大模型為避免輸出潛在有害或誤導性?xún)热荻扇〉囊环N保守策略,會(huì )降低用戶(hù)的體驗?!敝袊磐ㄔ喝斯ぶ悄苎芯克L(cháng)魏凱透露,因此,在Q2測試中,加入了多種攻擊方法,既重點(diǎn)測試模型的安全防護能力,又兼顧輸出內容的可信性、服務(wù)穩定性等因素。
全球共謀AI善治之道
此次世界人工智能大會(huì )的主題為以“以共商促共享,以善治促善智”,“善治”意味著(zhù)要堅持“以人為本,智能向善”的原則,建立健全的人工智能治理體系,通過(guò)科學(xué)、合理、有效的治理機制,保障AI健康發(fā)展,而這需要全球共同的努力。
吉印通國秘書(shū)長(cháng)古特雷斯曾表示,應積極應對AI可能帶來(lái)的災難性、生存性風(fēng)險。
不少?lài)艺谕菩羞m應本土發(fā)展的治理方案,比如中國針對生成式AI開(kāi)展精細化管理;美國用行政令促進(jìn)創(chuàng )新,通過(guò)行業(yè)自律推動(dòng)監管;歐盟采用分層治理、監管沙箱等措施保護產(chǎn)業(yè)發(fā)展。在標準方面,ISO(國際標準化組織)發(fā)布了AI管理框架,ITU-T(國際電信聯(lián)盟電信標準分局)啟動(dòng)了內容真實(shí)性標準;在技術(shù)方面,多國推動(dòng)數字水印、生成內容真實(shí)性檢測、深度偽造檢測等。
不少與會(huì )專(zhuān)家表示,需要建立一個(gè)國際溝通、合作和協(xié)調機制,包括標準制定、評估體系以及合作方式,這個(gè)機制需要專(zhuān)家、政策制定者、政府以及不同領(lǐng)域的共同參與。
怎樣的制度可以幫助人類(lèi)最大限度利用AI的好處?
在張亞勤看來(lái),首先要像無(wú)人駕駛一樣建立分級體系,對最前沿的模型進(jìn)行約束,讓一般的模型和算法自由發(fā)展;其次,在使用場(chǎng)景方面需要更多的約束,比如醫療機器人,必須有醫學(xué)領(lǐng)域的約束;此外,設立清晰的紅線(xiàn)和邊界,但這并不容易,每個(gè)國家有不同的情況,在制定國際性AI治理規則時(shí),既要考慮普遍適用的原則,又要兼顧各國的特殊情況,尋求共識與平衡。
治理之路任重而道遠,這不是束縛創(chuàng )新的“枷鎖”,而是推動(dòng)社會(huì )進(jìn)步、增進(jìn)人類(lèi)福祉的強大動(dòng)力。
排版/ 季嘉穎
圖片/ WAIC
來(lái)源/《IT時(shí)報》*vittimes
E N D