Nature封面:AI訓練AI,越訓越離譜
機器之心報道
機器之心編輯部
訓練數據是用 GPT-4o 生成的?那質(zhì)量不好說(shuō)了。
我們知道,大模型面臨的三大挑戰是算法、算力和數據。前兩者靠?jì)?yōu)化升級,后者靠積累。隨著(zhù)技術(shù)的不斷發(fā)展,高質(zhì)量數據已經(jīng)逐漸成為最大的瓶頸。
在很多新模型上,人們?yōu)榱睡涮嵘P湍芰?,都采用了使?AI 生成數據來(lái)訓練的方式。人們普遍認為,使用合成數據可以顯著(zhù)提升模型質(zhì)量。
不過(guò),最新的研究認為,使用 AI 生成的數據并不是什么好辦法,反而可能會(huì )讓模型陷入崩潰。
今天發(fā)表在學(xué)術(shù)頂刊《自然》雜志的封面研究認為,如果放任大模型用自動(dòng)生成的數據訓練自己,AI 可能會(huì )自我退化,在短短幾代內將原始內容迭代成無(wú)法挽回的胡言亂語(yǔ)。
這篇由牛津大學(xué)等機構提交的研究,強調了由于自我訓練導致人工智能模型崩潰(Model Collapse)的風(fēng)險,論證了原始數據源和仔細數據過(guò)濾的必要性。
021yin.com/articles/s41586-024-07566-y
哪種模型容易崩潰?
研究認為,當人工智能模型在生成的數據吉印通行過(guò)度訓練時(shí),就會(huì )發(fā)生不可逆轉的模型崩潰。
「模型崩潰是指由于對合成數據進(jìn)行不加區分的訓練而導致模型崩潰的現象」,牛津大學(xué)研究員、該論文的主要作者 Ilia Shumailov 表示。
根據論文所述,大型語(yǔ)言模型等生成式 AI 工具可能會(huì )忽略訓練數據集的某些部分,導致模型只對部分數據進(jìn)行訓練。
眾所周知,大語(yǔ)言模型(LLM)需要巨量數據進(jìn)行訓練,從而使自身獲得解釋其中信息并應用于各種用例的能力。LLM 通常是為了理解和生成文本而構建的,但研究小組發(fā)現,如果忽略它據稱(chēng)正在閱讀并納入其知識庫的大量文本,可能會(huì )很快地使 LLM 淪為空殼。
「在模型崩潰的早期階段,模型首先會(huì )失去方差,在少數數據上的表現下降,在模型崩潰的后期階段,模型則會(huì )完全崩潰」,Shumailov 說(shuō)道。因此,隨著(zhù)模型繼續在模型本身生成的越來(lái)越不準確和相關(guān)的文本吉印通行訓練,這種遞歸循環(huán)會(huì )導致模型退化。
模型崩潰,到底是什么
在該論文中,作者發(fā)現的模型崩潰效應是一種退化過(guò)程,模型生成的數據會(huì )污染下一代模型的訓練集。模型接受受污染數據的訓練,會(huì )錯誤地感知現實(shí),如下圖 (a) 所示。
模型崩潰可以分為早期和后期階段,早期模型會(huì )在少數數據上表現下降,后期模型會(huì )收斂到一種與原始分布幾乎沒(méi)有相似之處的分布,并且方差通常大大減少。
模型崩潰發(fā)生主要是因為下述三個(gè)特定誤差源在幾代模型中復合,并導致與原始模型出現較大偏差:
統計近似誤差。這是由于樣本數量有限而產(chǎn)生的主要誤差,并且隨著(zhù)樣本數量趨于無(wú)窮大而消失。發(fā)生這種情況是因為重采樣的每一步都可能丟失信息。
函數表達誤差。這是第二種類(lèi)型的誤差,是由于函數逼近器表達能力有限而產(chǎn)生的。特別是,神經(jīng)網(wǎng)絡(luò )只是通用逼近器,無(wú)法完美地逼近任何分布。神經(jīng)網(wǎng)絡(luò )可以在原始分布之外引入非零似然,或者在原始分布內引入零似然。函數表達誤差的一個(gè)簡(jiǎn)單例子是,如果我們嘗試用單個(gè)高斯擬合兩個(gè)高斯的混合。即使我們有關(guān)于數據分布的完美信息(即無(wú)限數量的樣本),模型誤差也將是不可避免的。然而,在沒(méi)有其他兩種類(lèi)型的誤差的情況下,這種情況只能發(fā)生在第一代模型。
函數逼近誤差。這是次要類(lèi)型的誤差,主要源于學(xué)習過(guò)程的局限性,例如隨機梯度下降的結構偏差。
上述每一項都可能導致模型崩潰變得更糟或更好。更高的逼近能力甚至可以是一把雙刃劍,更好的表達能力可以抵消統計噪聲,從而很好地逼近真實(shí)分布,但它同樣會(huì )加劇噪聲。這通常會(huì )產(chǎn)生級聯(lián)效應,其中個(gè)體的不準確性結合起來(lái)會(huì )導致整體誤差增加。
例如,過(guò)度擬合密度模型會(huì )導致模型錯誤推斷,將高密度區域分配給訓練集未覆蓋的低密度區域。
值得注意的是,還存在其他類(lèi)型的誤差。例如,計算機在實(shí)踐中的精度有限。
語(yǔ)言模型中的模型崩潰
作者在文中還評估了模型崩潰對語(yǔ)言模型的影響。模型崩潰在各種機器學(xué)習模型中普遍存在。然而,與通常從零開(kāi)始訓練的小模型(如 GMMs 和 VAEs)不同,LLM 需要巨大的成本從頭開(kāi)始訓練,因此通常使用預訓練模型(如 BERT、RoBERTa 或 GPT-2)初始化,這些模型是在大型文本語(yǔ)料庫上訓練的。隨后,這些模型被微調以適應各種下游任務(wù)。
在這篇論文中,作者探討了當語(yǔ)言模型使用由其他模型生成的數據進(jìn)行連續微調時(shí)會(huì )發(fā)生什么。本文中涉及的所有實(shí)驗可以在非微調設置下用更大的語(yǔ)言模型輕松復制。鑒于訓練一個(gè)中等規模的模型需要的算力也非??捎^(guān),作者選擇不進(jìn)行這樣的實(shí)驗,而是專(zhuān)注于更現實(shí)的概念驗證設置。
需要注意的是,本文描述的語(yǔ)言實(shí)驗即使在這種情況下也需要幾周時(shí)間才能完成。作者評估了訓練語(yǔ)言模型的最常見(jiàn)設置 —— 微調設置,其中每個(gè)訓練周期都從一個(gè)具有最新數據的預訓練模型開(kāi)始。這里的數據來(lái)自另一個(gè)經(jīng)過(guò)微調的預訓練模型。由于訓練被限制在生成與原始預訓練模型非常相似的模型,并且這些模型生成的數據點(diǎn)通常只會(huì )產(chǎn)生非常小的梯度,因此預期在微調后,模型只會(huì )發(fā)生適度的變化。作者使用 Meta 通過(guò) Hugging Face 提供的 OPT-125m 因果語(yǔ)言模型進(jìn)行了微調。
案例研究:教堂和長(cháng)耳大野兔
研究人員在論文中提供了一個(gè)使用文本生成模型 OPT-125m 的示例(使用 wikitext2 數據集微調),該模型的性能與 ChatGPT 的 GPT-3 類(lèi)似,但需要的算力較少。
研究人員將有關(guān)設計 14 世紀教堂塔樓的文本輸入到模型中。在第一代文本輸出中,該模型主要討論了在不同教皇統治下建造的建筑物。但到了第九代文本輸出,該模型主要討論了大量的黑尾、白尾、藍尾、紅尾和黃尾長(cháng)耳大野兔。我們應該注意到的是,其中大多數并不是真正存在的長(cháng)耳大野兔物種。
大模型輸出的內容:從教堂到 100 多種語(yǔ)言,再到野兔。
實(shí)驗結果表明,即使原數據一直保留,但模型崩潰的現象仍然會(huì )發(fā)生。隨著(zhù)不斷迭代,模型開(kāi)始忘記真實(shí)數據中的信息,并且生成的內容中包含越來(lái)越多重復的短語(yǔ)。
網(wǎng)絡(luò )充斥 AI 內容,「數據源」早已被污染
看到這里你可能會(huì )問(wèn)了:那還不簡(jiǎn)單,不使用合成數據訓練 AI 不就完事了?但實(shí)際上,現在能從互聯(lián)網(wǎng)上獲取的「數據」,里面已經(jīng)不知道有多少是 AI 生成的了,而且我們經(jīng)常無(wú)法把它們和正常內容區分開(kāi)來(lái)。
互聯(lián)網(wǎng)上充斥著(zhù)各種內容,這并不是新鮮事。正如研究人員在論文中指出的那樣,早在大規模語(yǔ)言模型(LLM)成為公眾熟知的話(huà)題之前,惡意網(wǎng)站就已經(jīng)在制造內容,以欺騙搜索算法優(yōu)先顯示他們的網(wǎng)站以獲取點(diǎn)擊量。隨著(zhù) OpenAI 的 GPT 系列大模型問(wèn)世,生成式 AI 已經(jīng)并將會(huì )極大地改變文本和圖像內容的生態(tài)。
AI 生成文本可比人類(lèi)說(shuō)廢話(huà)快得多,這引發(fā)了更大規模的擔憂(yōu)。杜克大學(xué)專(zhuān)門(mén)研究隱私與安全的計算機科學(xué)家艾米麗 - 溫格 Emily Wenger 曾在文章中寫(xiě)到相關(guān)內容:「盡管 AI 生成的互聯(lián)網(wǎng)對人類(lèi)的影響還有待觀(guān)察,但 Shumailov 等人報告稱(chēng),在線(xiàn)上大量涌現的 AI 生成內容可能對這些模型本身造成毀滅性的影響。」
「模型崩潰帶來(lái)的問(wèn)題之一是對生成式 AI 的公平性構成挑戰。崩潰的模型會(huì )忽略訓練數據中的一些不常見(jiàn)元素,從而無(wú)法反映世界的復雜性和細微差別,」Wenger 補充道,「這可能導致少數群體或觀(guān)點(diǎn)的代表性減少,甚至可能被抹去。」
大型科技公司正在采取一些措施,以減少普通網(wǎng)絡(luò )用戶(hù)看到的 AI 生成內容的數量。3 月份,谷歌宣布將調整其算法,把那些看起來(lái)是為搜索引擎而非人類(lèi)搜索者設計的頁(yè)面的優(yōu)先級進(jìn)行降低。然而,這一聲明是在 404 Media 關(guān)于谷歌新聞推廣 AI 生成文章的報道之后發(fā)布的。
《自然》雜志封面的這項研究強調,訪(fǎng)問(wèn)原始數據源并在遞歸訓練的模型中仔細過(guò)濾數據,有助于保持模型的準確性。
該研究還建議,創(chuàng )建大型語(yǔ)言模型(LLM)的 AI 社區可以協(xié)調合作,追蹤輸入到模型中的信息來(lái)源。「否則,隨著(zhù)這種技術(shù)的廣泛應用,如果無(wú)法獲得在技術(shù)普及之前從互聯(lián)網(wǎng)上爬取的數據或大量人類(lèi)生成的數據,訓練新的 LLM 版本可能會(huì )變得越來(lái)越困難」,研究團隊總結道。
參考內容:
021yin.com/articles/d41586-024-02355-z
021yin.com/ai-learning-from-its-own-nonsense-might-just-self-destruct-experts-warn-2000478095