當前位置:首頁(yè) > 百科 > 正文內容

AI訓AI慘遭投毒9次大崩潰,牛津劍橋等驚天發(fā)現登Nature封面!

歐迎夢(mèng)4個(gè)月前 (07-25)百科29
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

新智元報道

編輯:編輯部

【新智元導讀】9次迭代后,模型開(kāi)始出現詭異亂碼,直接原地崩潰!就在今天,牛津、劍橋等機構的一篇論文登上了Nature封面,稱(chēng)合成數據就像近親繁殖,效果無(wú)異于投毒。有無(wú)破解之法?那就是——更多使用人類(lèi)數據!

用AI生成的數據訓練AI,模型會(huì )崩潰?

牛津、劍橋、帝國理工、多倫多大學(xué)等機構的這篇論文,今天登上了Naure封面。

如今,LLM已經(jīng)強勢入侵了人類(lèi)的互聯(lián)網(wǎng),極大地改變了在線(xiàn)文本和圖像的生態(tài)系統。

如果網(wǎng)絡(luò )上的大部分文本都是AI生成的,我們用網(wǎng)絡(luò )數據訓練出的GPT-n,會(huì )發(fā)生什么?

021yin.com/articles/s41586-024-07566-y

研究者發(fā)現,如果在訓練中不加區別地使用AI產(chǎn)生的內容,模型就會(huì )出現不可逆轉的缺陷——原始內容分布的尾部(低概率事件)會(huì )消失!

這種效應,被稱(chēng)為「模型崩潰」。

換句話(huà)說(shuō),合成數據就像是近親繁殖,會(huì )產(chǎn)生質(zhì)量低劣的后代。

模型崩潰在LLM、變分自編碼器VAEs和高斯混合模型GMM中,都可能會(huì )發(fā)生。

有網(wǎng)友認為,是時(shí)候敲響警鐘了!

「如果大模型真的在A(yíng)I生內容的重壓下崩潰,這對它們的可信度來(lái)說(shuō)是一個(gè)末日場(chǎng)景。如果它們吃的是機器人的反芻的內容,我們真的能相信LLM的輸出嗎」?

真實(shí)數據,價(jià)值連城

我們都知道,如今全球已陷入高質(zhì)量數據荒。

EpochAI預測,全球在今年就會(huì )陷入高質(zhì)量數據荒

當前的大模型(包括GPT-3)還是主要基于人類(lèi)生成的文本進(jìn)行訓練的,但是未來(lái)可就不一定了!

Meta研究員Thomas Scialom表示,Llama 3在后訓練階段沒(méi)有使用任何人類(lèi)編寫(xiě)的答案,全是Llama 2合成的數據

如果未來(lái),大多數模型的訓練數據也是從網(wǎng)上抓取的,那它們不可避免地會(huì )用上前輩模型生成的數據。

如果當某個(gè)版本的GPT生成的大部分文本,成為了后續模型的訓練數據集,隨著(zhù)版本號的增加,GPT-{n}會(huì )發(fā)生什么變化?

LLM迭代至第9代,完全胡言亂語(yǔ)

簡(jiǎn)單講,LLM生成的數據最終污染了下一代模型的訓練集,就會(huì )出現「模型崩潰」(model collapse)的現象。

由于在被污染的數據吉印通行訓練,LLM隨后會(huì )錯誤地感知現實(shí)。

這樣一來(lái),會(huì )導致多代AI生成模型的退化。

也就是那句經(jīng)典名言——垃圾進(jìn),垃圾出。

合成數據,無(wú)異于給數據集「投毒」。

研究中,作者們使用維基百科文章先訓練了模型OPT-125m,并在前一代模型生成的文本上,訓練了多代模型。

模型們被要求續寫(xiě)一段來(lái)自wiki的關(guān)于「薩默塞特(Somerset)一級登錄建筑」條目的文本。

輸入的提示如下所示,這是關(guān)于設計14世紀教堂塔樓主題的文本:

輸入:據Poyntz Wright所說(shuō),一些教堂塔樓在1360年之前就開(kāi)始建造了,通常是由一位大師石匠和一小隊流動(dòng)石匠完成,輔以當地教區的工人。但其他作者不同意這種觀(guān)點(diǎn),他們認為主要是由著(zhù)名建筑師根據早期的垂直風(fēng)格設計了這些教區教堂的塔樓。

在第0代模型中,輸入同樣的提示,得到的輸出是:

可以看到,Gen0的續寫(xiě)已經(jīng)開(kāi)始有點(diǎn)前言不搭后語(yǔ)了,而且還出現了詭異的符號「@-@」。

奇怪的事實(shí)錯誤是,圣約翰大教堂位于紐約,不在倫敦。

第0代:復興建筑的典型例子包括倫敦的圣約翰大教堂。最早的垂直復興建筑實(shí)例可以在18@-@世紀的根西島圣母教堂中找到,該教堂實(shí)際建于19世紀晚期。垂直教堂有兩種類(lèi)型:那些。

在Gen1中,雖沒(méi)有奇怪符號的輸出,但同樣出現了事實(shí)錯誤——

圣彼得大教堂(St. Peter's Basilica)真正位于梵蒂岡,而不是什么羅馬、布宜諾斯艾利斯。

而且建造于公元1506和1626年之間,由教皇朱利奧二世開(kāi)始建造,直至教皇奧本八世。

第1代:像羅馬的圣彼得大教堂或布宜諾斯艾利斯的圣彼得大教堂這樣的建筑。雖然沒(méi)有證據表明這些建筑是在教皇英諾森三世統治期間建造的,但它們有可能是在他的繼任者教皇英諾森統治期間建造的。

接下來(lái),到了第五代模型,輸出的結果完全是胡言亂語(yǔ)了。

以ism起句,講了一大堆語(yǔ)種,根本不是續寫(xiě)的相關(guān)素材。

第5代:ism,已被翻譯成100多種語(yǔ)言,包括英語(yǔ)、法語(yǔ)、德語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、葡萄牙語(yǔ)、荷蘭語(yǔ)、瑞典語(yǔ)、挪威語(yǔ)、波蘭語(yǔ)、匈牙利語(yǔ)、斯洛伐克語(yǔ)、立陶宛語(yǔ)、愛(ài)沙尼亞語(yǔ)、芬蘭語(yǔ)、羅馬尼亞語(yǔ)、保加利亞語(yǔ)、土耳其語(yǔ)、克羅地亞語(yǔ)、塞爾維亞語(yǔ)、烏克蘭語(yǔ)、俄語(yǔ)、哈薩克語(yǔ)、吉爾吉斯語(yǔ)。

再到第9代,奇怪的@-@符號又出現了,而且還輸出了更加無(wú)關(guān)的內容——tailed jackrabbits。

第9代:建筑。除了擁有世界上最大數量的黑@-@尾兔、白@-@尾兔、藍@-@尾兔、紅@-@尾兔、黃@-。

以下是所有迭代模型,完整輸出的過(guò)程。每一代新的模型都是在前一代生成的數據吉印通行訓練的。

看得出,模型在每一代次迭代中退化。研究人員發(fā)現,所有遞歸訓練后的模型,皆會(huì )輸出重復的短語(yǔ)。

另一個(gè)案例是,今天杜克大學(xué)助理教授Emily Wenger,發(fā)表在Nature上一篇社論文章中指出:

AI基于自身數據訓練,生成的圖像扭曲了狗的品種。

數據集中,不僅有金毛、柯基,還有法國斗牛犬、小體巴塞特雪橇犬等。

基于真實(shí)數據訓練后的模型,輸出的圖像中,常見(jiàn)品種如金毛尋回犬占大多數,而不太常見(jiàn)的品種斑點(diǎn)狗會(huì )消失。

然后,基于A(yíng)I生成的數據訓練模型,生成的品種全是金毛了。

最終,經(jīng)過(guò)多次迭代,金毛的圖像就完全出現混亂,臉不是臉鼻子不是鼻子,LLM就此完全崩潰了。

此外,2023年來(lái)自斯坦福和UC伯克利的一項研究中,作者同樣發(fā)現了,LLM在少量自己生成數據內容重新訓練時(shí),就會(huì )輸出高度扭曲的圖像。

論文地址:

他們還在實(shí)驗中展示了,一旦數據集受到污染,即便LLM僅在真實(shí)圖像上重新訓練,模型崩潰現象無(wú)法逆轉。

作者警示道,為了模型不再被自己「降級」,AI需要能夠區分真實(shí)和虛假內容。

這一觀(guān)點(diǎn),與杜克Wenger不謀而合。

她認為,緩減LLM崩潰并不簡(jiǎn)單,不過(guò)領(lǐng)先科技公司已經(jīng)部署了嵌入「水印」的技術(shù),進(jìn)而可以把標記AI生成內容,從數據集中剔除。

此外,模型崩潰的另一個(gè)關(guān)鍵寓意是,那些早已構建的AI模型,有著(zhù)先發(fā)優(yōu)勢。

因為,從AI時(shí)代互聯(lián)網(wǎng)獲取訓練數據的公司,可能擁有更能代表真實(shí)世界的模型。

什么是模型崩潰?

最新研究中,作者表示,模型崩潰包含了兩種特殊的情況:早期模型崩潰、晚期模型崩潰。

在早期模型崩潰中,模型開(kāi)始丟失關(guān)于數據分布尾部的信息;在晚期模型崩潰中,模型收斂到一個(gè)與原始分布幾乎沒(méi)有相似性的分布,通常方差顯著(zhù)降低。

這一過(guò)程的發(fā)生,是由于三種特定誤差源,在多代模型中逐漸累積,最終導致模型偏離原始模型:

- 統計近似誤差

這是主要的誤差類(lèi)型,由于樣本數量有限而產(chǎn)生,并且在樣本數量趨向無(wú)限時(shí)會(huì )消失。這是因為在每一步重采樣過(guò)程中,信息丟失的概率總是存在。

- 函數表達誤差

這是次要誤差類(lèi)型,由于函數近似器(function approximator)的表達能力有限而產(chǎn)生。

特別是,神經(jīng)網(wǎng)絡(luò )只有在其規模無(wú)限大時(shí),才能成為通用近似器。

因此,神經(jīng)網(wǎng)絡(luò )可能會(huì )在原始分布的支撐集(support)之外,引入「非零概率」,或在原始分布的支撐集內引入「零概率」。

一個(gè)簡(jiǎn)單的例子是,如果我們用單個(gè)高斯分布,來(lái)擬合兩個(gè)高斯分布的混合。即使有完美的數據分布信息(即無(wú)限數量的樣本),模型產(chǎn)生誤差也是不可避免的。

然而,在沒(méi)有其他兩種類(lèi)型誤差的情況下,這種誤差只會(huì )在第一代發(fā)生。

- 函數近似誤差

這也是次要的誤差類(lèi)型,主要由于學(xué)習過(guò)程的限制而產(chǎn)生,例如隨機梯度下降的結構偏差或目標函數選擇的影響。

這種誤差可以看作,即便在理想條件下,即擁有無(wú)限數據且完美表達能力,仍在每一代模型中產(chǎn)生。

綜上所述,每種誤差都可能會(huì )導致模型崩潰變得愈加嚴重,或得到一些改善。

更強的近似能力甚至可能是一把「雙刃劍」。

因為更好的表達能力可能抵消統計噪聲,從而更好地逼近真實(shí)分布,但同樣也可能放大噪聲。

更常見(jiàn)的情況下,我們會(huì )得到一種級聯(lián)效應(cascading effect),其中個(gè)別的不準確性會(huì )結合起來(lái),導致整體誤差的增長(cháng)。

例如,過(guò)擬合密度模型會(huì )導致模型錯誤地外推,并將高密度區域分配給訓練集中未覆蓋的低密度區域。

這些錯誤分配的區域,隨后會(huì )被頻繁采樣。

值得注意的是,除上述內容之外,還存在其他類(lèi)型的誤差。比如,在實(shí)際操作中,計算機精度是有限的。

接下來(lái),研究人員將通過(guò)「數學(xué)直覺(jué)」來(lái)解釋上述誤差是如何產(chǎn)生的,不同誤差來(lái)源如何復合(compound),以及我們如何量化平均模型偏差。

理論直覺(jué)

在所有基于前幾代生成數據進(jìn)行遞歸訓練的生成模型,這種現象都是普遍存在的。

所以,到底是什么原因,導致了模型崩潰?

研究者提供了幾種理論解釋。

通過(guò)研究?jì)蓚€(gè)數學(xué)模型,研究者量化了前一部分討論的誤差來(lái)源。

這兩個(gè)模型分別是一個(gè)在沒(méi)有函數表達能力和近似誤差情況下的離散分布模型,以及一個(gè)描繪吉印通函數表達能力和統計誤差的多維高斯近似模型。

它們既足夠簡(jiǎn)單,可以提供感興趣量的解析表達式,同時(shí)也能描繪模型崩潰的現象——

考慮的總體隨機過(guò)程,作者稱(chēng)之為「代際數據學(xué)習」。

第i代的數據集D_i由具有分布p_i的獨立同分布隨機變量組成。

其中,數據集的大小j∈{1,…,?M_i}。

從第i代到第i+1代,我們需要估計樣本在新數據集D_i中的分布,近似為。

這一步稱(chēng)之為函數近似,。

然后通過(guò)從中采樣,生成數據集

其中,非負參數α_i,?β_i,?γ_i的和為1,即它們表示來(lái)自不同代的數據的比例。

它們對應的混合數據,分別來(lái)自原始分布(γ_i)、上一代使用的數據(β_i)和新模型生成的數據(α_i)。

這一步,稱(chēng)為采樣步驟。

對于即將討論的數學(xué)模型,我們考慮α_i=γ_i=0,即僅使用單步的數據,而數值實(shí)驗則在更現實(shí)的參數選擇吉印通行。

離散分布的精確近似

在本小節中,我們討論一種沒(méi)有函數近似和表達誤差的離散概率分布,即

在這種情況下,模型崩潰的原因僅僅是采樣步驟中的統計誤差。

首先,由于低概率事件被采樣到的概率很低,它們的尾部(低概率事件)會(huì )逐漸消失,隨著(zhù)時(shí)間的推移,分布的支持范圍也會(huì )縮小。

假設樣本量為M,如果我們考慮一個(gè)概率為q≤1/M的狀態(tài)i,那么來(lái)自這些事件的i值樣本的期望數量將小于1。

也就是說(shuō),我們會(huì )失去關(guān)于這些事件的信息。

如果更一般地考慮一個(gè)概率為q的狀態(tài)i,使用標準條件概率,我們可以證明失去信息的概率(即在某些代中沒(méi)有采樣到數據)等于1?q。

這也就意味著(zhù),分布最終會(huì )收斂到某個(gè)狀態(tài)處的δ函數,最終落在某個(gè)狀態(tài)的概率等于從原始分布中采樣該狀態(tài)的概率。

將這個(gè)過(guò)程看作一個(gè)馬爾可夫鏈,我們就可以直接證明上述結論,因為X^(i+1)僅依賴(lài)于X^i。

此外,如果所有的值都相同,那么在下一代,近似分布將完全是一個(gè)δ函數。因此所有

的值也將相同。

這就意味著(zhù),馬爾可夫鏈至少包含一個(gè)吸收態(tài),因此它會(huì )以概率1收斂到其中一個(gè)吸收態(tài)。

對于這個(gè)鏈,唯一的吸收態(tài)是那些對應于δ函數的狀態(tài)。

因此,隨著(zhù)我們跟蹤的模型逐漸崩潰,我們必然會(huì )陷入一個(gè)常數狀態(tài);當這條鏈被完全吸收時(shí),原始分布的所有信息就都喪失了。

在一般情況下,這個(gè)論點(diǎn)也是成立的,因為浮點(diǎn)表征是離散的,因此使得模型參數的馬爾可夫鏈也是離散的。

因此,只要模型參數化允許使用δ函數,我們一定會(huì )到達這個(gè)結論,因為由于采樣誤差的原因,唯一可能的吸收態(tài)就是δ函數。

基于上述討論,我們可以看到,無(wú)論是早期模型崩潰(僅低概率事件被切斷)還是后期模型崩潰(過(guò)程開(kāi)始收斂到單一模式)的現象,只要是在具有完美函數近似的離散分布下,都必然會(huì )出現。

多維高斯分布

在討論了離散分布之后,我們就可以提出一個(gè)更通用的結果,它可以在高斯近似的背景下得到證明。

在這種情況下,每一代的數據都是通過(guò)上一代的均值和方差的無(wú)偏估計來(lái)近似的。

高斯模型崩潰

假設原始數據是從分布D_0(不一定是高斯分布)中采樣的,且樣本方差不為零。假設X^n是遞歸地使用上一代的無(wú)偏樣本均值和方差估計來(lái)擬合的,其中且樣本量是固定的。

此時(shí)就可以得到。

其中,W_2表示第n代的真實(shí)分布和其近似之間的Wasserstein-2距離。

換句話(huà)說(shuō),這意味著(zhù)不僅第n代的近似值會(huì )任意遠地偏離原始分布,而且隨著(zhù)代數的增加,它也會(huì )以概率1收斂到零方差,從而發(fā)生崩潰。

這個(gè)定理展示了后期模型崩潰的效果,即過(guò)程開(kāi)始收斂到零方差。這個(gè)過(guò)程,與離散情況非常相似。

語(yǔ)言模型中的模型崩潰

當模型發(fā)生崩潰,會(huì )對語(yǔ)言模型產(chǎn)生哪些影響?

模型崩潰在各種機器學(xué)習模型中都是普遍現象,然而像變分自編碼器(VAE)和高斯混合模型(GMM)這樣的小模型通常是從頭開(kāi)始訓練的,而LLM則有所不同。

從頭訓練的成本非常高,因此通常使用預訓練模型(如BERT、RoBERTa或GPT-2)進(jìn)行初始化,然后再對預訓練模型進(jìn)行微調以適應各種下游任務(wù)。

那么,當LLM使用其他模型生成的數據進(jìn)行微調會(huì )發(fā)生什么呢?

實(shí)驗評估了訓練大語(yǔ)言模型最常見(jiàn)的微調設置,其中每個(gè)訓練周期(epoch)都從一個(gè)預訓練模型開(kāi)始,并使用最新數據。

這里的數據來(lái)自另一個(gè)已經(jīng)微調過(guò)的預訓練模型。

由于訓練范圍限制在生成接近原始預訓練模型的模型,由于這些模型生成的數據點(diǎn)通常只會(huì )產(chǎn)生非常小的梯度,因此實(shí)驗的預期是模型在微調后只會(huì )發(fā)生適度的變化。

實(shí)驗微調了Meta通過(guò)Hugging Face提供的OPT-125m因果語(yǔ)言模型,在wikitext2數據集上對模型進(jìn)行微調。

為了生成訓練模型所需的數據,實(shí)驗使用五向集束搜索(beam search)。

將訓練序列限制為64個(gè)token,然后對于訓練集中的每個(gè)token序列,讓模型預測接下來(lái)的64個(gè)token。

用上面的方法調整所有原始訓練數據集,并生成一個(gè)大小相同的人工數據集。

由于范圍涉及所有原始數據集并預測了所有塊(Block),如果模型的誤差為0,它將生成原始的wikitext2數據集。

每一代的訓練都從原始訓練數據的生成開(kāi)始,每個(gè)實(shí)驗運行五次,結果顯示為五次獨立運行,使用不同的隨機種子。

用wikitext2數據微調的原始模型,平均困惑度(perplexity)從零樣本基線(xiàn)的115下降到34,說(shuō)明它成功地學(xué)習了任務(wù)。

最后,為了盡可能接近現實(shí)情況,實(shí)驗使用了在原始任務(wù)上表現最好的模型,使用原始wikitext2驗證集進(jìn)行評估,作為后續幾代的基礎模型。

這意味著(zhù),實(shí)際上觀(guān)察到的模型崩潰可能更加明顯。

實(shí)驗還考慮了考慮兩種不同的設置:

- 5個(gè)epoch,不保留原始訓練數據。

在這種情況下,模型在原始數據集上訓練五個(gè)周期,但在后續的訓練中不再使用原始數據。

整體的原始任務(wù)表現如圖所示。

實(shí)驗發(fā)現,使用生成的數據進(jìn)行訓練雖然能適應基本任務(wù),但性能有所下降,困惑度從20增加到28。

- 10個(gè)epoch,保留10%的原始訓練數據。

在這種情況下,模型在原始數據集上訓練十個(gè)周期,并且每次新的訓練時(shí),隨機保留10%的原始數據點(diǎn)。

整體的原始任務(wù)表現如圖所示。

實(shí)驗發(fā)現,保留部分原始數據可以更好地進(jìn)行模型微調,并且僅導致性能的輕微下降。

雖然兩種訓練方式都導致了模型性能下降,但實(shí)驗發(fā)現使用生成數據進(jìn)行學(xué)習是可行的,模型也能成功地學(xué)習一些基礎任務(wù)。

特別是,從圖下及其3D版本中可以看到,模型崩潰現象確實(shí)發(fā)生了,因為低困惑度樣本的密度隨著(zhù)訓練代次的增加而開(kāi)始累積。

這意味著(zhù),在多個(gè)訓練代次中,采樣數據可能會(huì )逐漸趨向于一個(gè)δ函數。

到這里,結論就和「理論直覺(jué)」中的一般直覺(jué)一致了。

可以看到,生成的數據有更長(cháng)的尾部,這就表明某些數據是原始模型永遠不會(huì )生成的。而這些錯誤,就是來(lái)自代際數據學(xué)習的積累。

這也給我們敲響了警鐘——

如果沒(méi)有大規模采用AI泛濫之前從網(wǎng)上抓取的數據,或者直接使用人類(lèi)生成的大規模數據,訓練新版本的LLM,恐怕會(huì )變得越來(lái)越困難!

有什么辦法嗎?

研究團隊認為,AI生成數據并非完全不可取,但一定要對數據進(jìn)行嚴格過(guò)濾。

比如,在每一代模型的訓練數據中,保持10%或20%的原始數據;使用多樣化數據,如人類(lèi)產(chǎn)生的數據;或者研究更魯棒的訓練算法。

沒(méi)想到吧,人類(lèi)創(chuàng )造的數據,居然有一天會(huì )如此價(jià)值連城。

參考資料:

021yin.com/articles/d41586-024-02420-7

021yin.com/articles/s41586-024-07566-y

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全