AI訓練數據之困:垃圾進(jìn),垃圾出
所有模型都是通過(guò)在來(lái)自互聯(lián)網(wǎng)的海量數據吉印通行訓練來(lái)工作的,然而,隨著(zhù)人工智能越來(lái)越多地被用來(lái)生成充滿(mǎn)垃圾信息的網(wǎng)頁(yè),這一過(guò)程可能會(huì )受到威脅。
近日,發(fā)表在 Nature 雜志上的一項新研究表明,當人工智能在人工智能生成的數據吉印通行訓練時(shí),模型輸出的質(zhì)量會(huì )逐漸下降,隨著(zhù)后續模型輸出的數據被用作未來(lái)模型的訓練數據,影響會(huì )進(jìn)一步惡化。
(來(lái)源:Nature)
領(lǐng)導這項研究的牛津大學(xué)計算機科學(xué)家 Ilia Shumailov 將這一過(guò)程比作拍照。“如果你拍了一張照片,掃描、打印出來(lái)并再對其拍照,然后不斷重復這個(gè)過(guò)程,隨著(zhù)時(shí)間的推移,基本上整個(gè)過(guò)程都會(huì )被‘噪聲’淹沒(méi)。最后,你會(huì )得到一個(gè)黑暗的方塊。”他說(shuō)道。在人工智能領(lǐng)域,黑暗方塊相當于“模型崩潰”,這意味著(zhù)模型只會(huì )生成不連貫的垃圾。
這項研究可能會(huì )對當今最大的人工智能模型產(chǎn)生重大影響,因為它們使用互聯(lián)網(wǎng)作為數據庫。例如,GPT-3 的部分訓練數據來(lái)自 Common Crawl,這是一個(gè)包含超過(guò) 30 億個(gè)網(wǎng)頁(yè)的在線(xiàn)存儲庫。隨著(zhù)越來(lái)越多的人工智能生成的垃圾網(wǎng)頁(yè)開(kāi)始充斥互聯(lián)網(wǎng),這個(gè)問(wèn)題可能會(huì )變得更糟。
Ilia Shumailov 表示,當前的人工智能模型不僅會(huì )崩潰,而且可能會(huì )帶來(lái)實(shí)質(zhì)性影響:迭代速度減緩,性能越來(lái)越弱。
為了衡量和確定對性能的潛在影響,Ilia Shumailov 和他的同事根據維基百科的一組數據對大型語(yǔ)言模型(LLM)進(jìn)行訓練,然后根據 9 代的輸出數據對新模型進(jìn)行微調。他們使用一個(gè)名為“困惑度分數”的評價(jià)標準來(lái)衡量輸出的荒謬程度,“困惑度分數”反映人工智能模型對未來(lái)序列部分預測能力,分數越高,模型的準確度就越低。
最終,在其他模型的輸出數據吉印通行訓練的模型具有更高的“困惑度分數”。例如,對于每一代,團隊在輸入以下內容后向模型詢(xún)問(wèn)下一個(gè)句子:
“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”
“根據 Poyntz Wright 的說(shuō)法,一些教堂始建于 1360 年之前,通常由一位熟練的石匠和一小群流動(dòng)的石匠完成,并輔以當地教區工人。但其他作者拒絕這個(gè)觀(guān)點(diǎn),而認為主要是由知名的建筑師根據早期的垂直式建筑風(fēng)格設計教區教堂塔樓。”
在第 9 代(也是最后一代)中,模型返回以下內容:
“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”
“建筑。除了擁有世界上數量最多的黑 @-@ 尾兔、白 @-@ 尾兔、藍 @-@ 尾兔、紅 @-@ 尾兔、黃 @-。”
Ilia Shumailov 用這個(gè)類(lèi)比解釋了他認為正在發(fā)生的事情:想象一下,你要找一個(gè)學(xué)校里最不可能出現的學(xué)生名字,你可以檢查每個(gè)學(xué)生的名字,但這會(huì )花很長(cháng)時(shí)間。相反,你會(huì )查看 1000 個(gè)學(xué)生姓名中的 100 個(gè)。你得到了一個(gè)相當準確的預估,但這可能不是正確的答案;現在想象一下,另一個(gè)人過(guò)來(lái)根據你的 100 個(gè)名字進(jìn)行預估,但只選擇了 50 個(gè),那么這個(gè)人的預估將會(huì )更加偏離正確答案。
“機器學(xué)習模型也會(huì )出現同樣的情況。因此,如果第一個(gè)模型已經(jīng)瀏覽了一半的互聯(lián)網(wǎng)內容,那么第二個(gè)模型可能不會(huì )要求一半的互聯(lián)網(wǎng)內容,實(shí)際上只是抓取最新的 10 萬(wàn)條推文,并在上面訓練模型。”他說(shuō)。
此外,互聯(lián)網(wǎng)上的數據是有限的,為了滿(mǎn)足對更多數據的需求,未來(lái)的人工智能模型可能需要在合成數據或人工智能生成的數據吉印通行訓練。
麻省理工學(xué)院媒體實(shí)驗室的研究人員、研究如何訓練 LLM 的 Shayne Longpre(他沒(méi)有參與這項研究)說(shuō):“基礎模型依賴(lài)于數據規模才能獲得更好的表現。他們希望在經(jīng)過(guò)精心策劃和控制的環(huán)境中使用合成數據來(lái)解決這個(gè)問(wèn)題,因為如果繼續在網(wǎng)上抓取更多數據,收益將會(huì )遞減。”
斯坦福大學(xué)人工智能研究員 Matthias Gerstgrasser 在另一篇論文中研究了模型崩潰的問(wèn)題。在他看來(lái),將合成數據添加到現實(shí)世界數據中而不是替換它并不會(huì )引起任何重大問(wèn)題。但他補充道:“所有關(guān)于模型崩潰的研究都得出一個(gè)結論,那就是高質(zhì)量且多樣化的訓練數據至關(guān)重要。”
隨著(zhù)時(shí)間的推移,這種“退化”導致模型中的信息失真,少數樣本的信息在模型中嚴重扭曲,因為它往往更加關(guān)注訓練數據中普遍的樣本。
麻省理工學(xué)院媒體實(shí)驗室研究算法的 Robert Mahari(他也沒(méi)有參與這項研究)表示,在當前的模型中,這可能會(huì )影響代表性不足的語(yǔ)言,因為它們需要更多的合成(或人工智能生成)數據集。
一個(gè)有助于避免退化的想法是,確保模型給予原始的人類(lèi)生成數據更多權重。Ilia Shumailov 研究的另一個(gè)項目允許后代對原始數據集的 10% 進(jìn)行采樣,而這減輕了一些負面影響。
這需要從人類(lèi)生成的原始數據到后代數據進(jìn)行追蹤,即數據來(lái)源。但這需要一種方法來(lái)過(guò)濾互聯(lián)網(wǎng)上的人類(lèi)生成數據和人工智能生成數據,但這一點(diǎn)目前尚未完全解決。盡管現在存在許多工具能夠確定文本是否由人工智能生成,但它們往往不夠準確。
“不幸的是,我們的問(wèn)題比答案多。”Ilia Shumailov 說(shuō), “但很明顯,了解數據來(lái)自哪里以及在多大程度上可以相信它能夠捕獲正在處理數據的代表性樣本,這一點(diǎn)很重要。”
原文鏈接:
021yin.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense/