當前位置:首頁(yè) > 百科 > 正文內容

Nature最新封面:AI 訓練 AI?也許越來(lái)越笨

風(fēng)吹楊柳4個(gè)月前 (07-25)百科21
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

撰文|馬雪薇

編審|佩奇

前言

當前,在愈發(fā)火熱的大模型行業(yè),Scaling Law 被證明依然奏效。

問(wèn)題是,一旦由人類(lèi)生成的高質(zhì)量數據(如書(shū)籍、文章、照片、視頻等)用盡,大模型訓練又該如何進(jìn)行?

目前,一個(gè)被寄予厚望的方法是“用大模型自己生成的數據來(lái)訓練自己”。事實(shí)上,如果后代模型的訓練數據也從網(wǎng)絡(luò )中獲取,就會(huì )不可避免地使用前代模型生成的數據。

然而,來(lái)自牛津大學(xué)和劍橋大學(xué)的研究團隊及其合作者,卻給這一設想“潑了一盆冷水”。

他們給出了這樣一個(gè)結論:模型在訓練中使用自身生成的內容,會(huì )出現不可逆轉的缺陷,逐漸忘記真實(shí)數據分布,從而導致模型性能下降。

即“模型崩潰”(Model Collapse)。

相關(guān)研究論文以“AI models collapse when trained on recursively generated data”為題,已發(fā)表在權威科學(xué)期刊 Nature 上。

但他們也表示,用一個(gè)舊模型生成的數據去訓練一個(gè)新模型,并非不可行,但必須對數據進(jìn)行嚴格的過(guò)濾。

在一篇同期發(fā)表的新聞與觀(guān)點(diǎn)文章中,來(lái)自杜克大學(xué)的 Emily Wenger 認為,“論文作者沒(méi)有考慮模型在由其他模型生成的數據上訓練時(shí)會(huì )發(fā)生什么,他們專(zhuān)注于模型在自身輸出上訓練的結果。一個(gè)模型在訓練其他模型的輸出時(shí)是否會(huì )崩潰還有待觀(guān)察。因此,下一個(gè)挑戰將是要搞清楚模型崩潰發(fā)生的機制。”

什么是模型崩潰?

本質(zhì)上,當大模型生成的數據最終污染了后續模型的訓練集時(shí),就會(huì )發(fā)生“模型崩潰”。

像 GMM 和 VAE 這樣的小型模型通常是從頭開(kāi)始訓練的,而LLM 重新訓練的成本非常高,因此通常使用如 BERT4、RoBERTa5 或 GPT-2 這樣在大型文本語(yǔ)料庫上預訓練的模型進(jìn)行初始化,然后針對各種下游任務(wù)進(jìn)行微調。

那么當語(yǔ)言模型依次使用其他模型生成的數據進(jìn)行微調時(shí)會(huì )發(fā)生什么?

為此,研究團隊使用 OPT-125m 語(yǔ)言模型進(jìn)行實(shí)驗,并使用 wikitext2 數據集進(jìn)行微調。實(shí)驗結果表明,無(wú)論是否保留原始數據,模型崩潰現象都發(fā)生了。隨著(zhù)迭代次數的增加,模型生成的樣本中低困惑度樣本的數量開(kāi)始積累,表明模型開(kāi)始忘記真實(shí)數據分布中的尾部事件。并且,與原始模型相比,后續迭代模型的性能有所下降,表現為困惑度增加。此外,模型生成的數據中包含大量重復的短語(yǔ)。

圖 | 受模型崩潰影響的 OPT-125m 模型的文本輸出示例-模型在幾代之間退化。

想象一下一個(gè)生成 AI 模型負責生成狗的圖像。AI 模型會(huì )傾向于重現訓練數據中最常見(jiàn)的狗的品種,因此可能會(huì )過(guò)多地呈現金毛,而非法斗。如果隨后的模型在一個(gè) AI 生成的數據集中進(jìn)行訓練,而這個(gè)數據集中過(guò)多地呈現了金毛,這個(gè)問(wèn)題就會(huì )加劇。經(jīng)過(guò)足夠多輪次的過(guò)多呈現金毛后,模型將忘記諸如法斗這樣的冷門(mén)品種的存在,只生成金毛的圖像。最終,模型將崩潰,無(wú)法生成有意義的內容。

圖 | 模型會(huì )逐漸忽視訓練數據中不常見(jiàn)的元素。

總而言之,模型會(huì )逐漸忘記真實(shí)語(yǔ)言中出現的低概率事件,例如罕見(jiàn)詞匯或短語(yǔ)。這會(huì )導致模型生成的內容缺乏多樣性,并無(wú)法正確地模擬真實(shí)世界的復雜性。并且,模型會(huì )逐漸生成與真實(shí)世界不符的內容,例如錯誤的日期、地點(diǎn)或事件。這會(huì )導致模型生成的內容失去可信度,并無(wú)法用于可靠的信息檢索或知識問(wèn)答等任務(wù)。此外,模型會(huì )逐漸學(xué)習到訓練數據中的偏見(jiàn)和歧視,并將其反映在生成的內容中。

為何會(huì )發(fā)生?

模型崩潰是一個(gè)退化過(guò)程,模型生成的內容會(huì )污染下一代的訓練數據,導致模型逐漸失去對真實(shí)數據分布的記憶。模型崩潰分為早期和晚期兩種情況:在早期階段,模型開(kāi)始失去對低概率事件的信息;到了晚期階段,模型收斂到一個(gè)與原始分布差異很大的分布,通常方差顯著(zhù)減小。

圖 | 對學(xué)習過(guò)程中反饋機制的高層次描述。

隨著(zhù)代數的增加,模型傾向于生成由最初模型更可能生成的樣本。同時(shí),后代模型的樣本分布尾部變得更長(cháng)。后代模型開(kāi)始生成原始模型絕不會(huì )生成的樣本,即它們開(kāi)始基于先前模型引入的錯誤誤解現實(shí)。盡管在生成數據上訓練的模型能夠學(xué)習部分原始任務(wù),但也會(huì )出現錯誤,如困惑度增加所示。

模型崩潰主要由三種誤差累積導致:

1. 統計近似誤差:

由于樣本數量有限,模型無(wú)法完全捕捉到真實(shí)數據分布的所有細節。隨著(zhù)時(shí)間的推移,低概率事件(即分布的尾部)會(huì )逐漸消失,因為它們被采樣的概率很低。

隨著(zhù)模型訓練代數的增加,這種誤差會(huì )不斷累積,導致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

2. 函數表達能力誤差:

神經(jīng)網(wǎng)絡(luò )等函數近似器的表達能力是有限的,無(wú)法完美地逼近任何分布。

這種誤差會(huì )導致模型在逼近真實(shí)分布時(shí)產(chǎn)生偏差,例如,將高密度區域分配到低密度區域,或者將低密度區域分配到高密度區域。

隨著(zhù)模型訓練代數的增加,這種誤差會(huì )不斷累積,導致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

3. 函數近似誤差:

學(xué)習過(guò)程的局限性,例如隨機梯度下降的結構偏差或目標函數的選擇,也會(huì )導致模型產(chǎn)生誤差。

這種誤差會(huì )導致模型在逼近真實(shí)分布時(shí)產(chǎn)生偏差,例如,過(guò)擬合密度模型導致模型錯誤地外推數據,并將高密度區域分配到訓練集支持范圍之外的低密度區域。

隨著(zhù)模型訓練代數的增加,這種誤差會(huì )不斷累積,導致模型最終收斂到一個(gè)與原始分布完全不同的分布,其尾部幾乎為零,方差也大大減小。

可以避免嗎?

研究團隊認為,用 AI 生成數據訓練一個(gè)模型并非不可能,但必須對數據進(jìn)行嚴格過(guò)濾。

首先,在每一代模型的訓練數據中,保留一定比例的原始數據,例如 10% 或 20%。這樣可以確保模型始終接觸到真實(shí)世界的樣本,避免完全依賴(lài)于模型生成的內容。定期對原始數據進(jìn)行重采樣,并將其添加到訓練數據中。這樣可以保證訓練數據始終保持新鮮,并且能夠反映真實(shí)世界的最新變化。

其次,可以使用多樣化的數據。例如,除了模型生成的內容,還應該使用人類(lèi)產(chǎn)生的數據作為訓練數據。人類(lèi)數據更加真實(shí)可靠,可以幫助模型更好地理解真實(shí)世界的復雜性和多樣性。此外,可以使用其他類(lèi)型的機器學(xué)習模型生成的數據作為訓練數據,例如強化學(xué)習模型或模擬器。這樣可以保證訓練數據來(lái)源的多樣性,并避免過(guò)度依賴(lài)于單一類(lèi)型的模型。

最后,可以嘗試改進(jìn)學(xué)習算法。研究更魯棒的語(yǔ)言模型訓練算法,例如對抗訓練、知識蒸餾或終身學(xué)習。這些算法可以幫助模型更好地處理訓練數據中的噪聲和偏差,并提高模型的泛化能力。

盡管這一警示似乎對當前的生成式 AI 技術(shù)以及尋求通過(guò)它獲利的公司來(lái)說(shuō)都是令人擔憂(yōu)的,但是從中長(cháng)期來(lái)看,或許能讓人類(lèi)內容創(chuàng )作者看到更多希望。

研究人員表示,在充滿(mǎn) AI 工具及其生成內容的未來(lái)世界,如果只是作為 AI 原始訓練數據的來(lái)源,人類(lèi)創(chuàng )造的內容將比今天更有價(jià)值。

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全