<form id="wjkzw"><sup id="wjkzw"></sup></form>

<rt id="wjkzw"></rt>

<rt id="wjkzw"><dfn id="wjkzw"><thead id="wjkzw"></thead></dfn></rt>

當前位置：首頁(yè) > 百科 > 正文內容

Nature封面：AI訓AI，越訓越傻

鐵嶺門(mén)頭制作3個(gè)月前 (08-04)百科6

印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà)：138-1621-1622（微信同號）

白交發(fā)自凹非寺

量子位 | * QbitAI

AI訓練AI，可能會(huì )讓AI變傻？！

來(lái)自牛津、劍橋等學(xué)校機構的研究人員最新發(fā)現，使用合成數據訓練，大模型可能會(huì )崩潰。其研究成果被選為最新的Nature封面。

直接一個(gè)：GARBAGE OUT！

要知道，現在絕大部分科技公司的大模型都在用合成數據來(lái)緩解“數據荒”。這下無(wú)疑是整個(gè)行業(yè)澆了一波冷水。

研究團隊給了這樣一個(gè)例子。

他們測試了Meta的OPT-125m模型，詢(xún)問(wèn)了關(guān)于中世紀建筑的相關(guān)信息。

每一次微調都是由上一次生成的數據來(lái)訓練。結果前面幾輪回答還好。結果就在第九次，就開(kāi)始胡說(shuō)八道……

扯到兔子是什么鬼？！

該論文主要作者表示，他們曾考慮過(guò)合成數據可能對大模型造成誤差，但未曾預料到模型的惡化速度會(huì )如此迅速。

三個(gè)誤差導致模型崩潰

首先，團隊定義了什么是模型崩潰。

模型崩潰是一個(gè)退化過(guò)程，模型生成的內容會(huì )污染下一代的訓練數據集。而在被污染的數據上訓練之后，新一代模型就容易誤解現實(shí)。

以此循環(huán)往復，一代更比一代差。

按照時(shí)間推移，主要分為兩種情況：早期模型崩潰和晚期模型崩潰。

早期模型崩潰中，模型開(kāi)始丟失一些尾部信息。（類(lèi)似概率分布中一些低概率事件）而在晚期模型崩潰，模型將收斂到同原始分布幾乎沒(méi)有任何相似之處。

這一過(guò)程的發(fā)生，同模型設計、學(xué)習過(guò)程和所用數據質(zhì)量有關(guān)。

具體到理論中，主要包括了這三個(gè)誤差導致大模型同原始模型的偏離。

統計近似誤差。這是主要類(lèi)型的誤差，由于樣本數量有限而產(chǎn)生，并隨著(zhù)樣本數量趨于無(wú)窮大而消失。這是因為在重新采樣的每一步中信息都有可能丟失，這種概率不為零。

函數表達性誤差。這種誤差是由于函數近似表達能力有限而產(chǎn)生的。特別是，神經(jīng)網(wǎng)絡(luò )只有在其規模達到無(wú)窮大時(shí)才是通用近似值。不過(guò)，在沒(méi)有其他兩種誤差的情況下，這種誤差只會(huì )發(fā)生在第一代。

函數近似誤差。主要由學(xué)習過(guò)程局限性引起，例如隨機梯度下降的結構偏差或目標的選擇。這種誤差可以看作是在無(wú)限數據和每一代都具有完美表達能力的情況下產(chǎn)生的誤差。

對語(yǔ)言模型的影響

隨后研究人員評估了模型崩潰對語(yǔ)言模型的影響。由于從頭開(kāi)始訓練大模型成本非常高，他們選擇評估語(yǔ)言模型最常見(jiàn)的設置：微調設置。

每個(gè)訓練周期都從具有最新數據的預訓練模型開(kāi)始。訓練數據來(lái)自另一個(gè)經(jīng)過(guò)微調的預訓練模型。

他們用Meta因果語(yǔ)言模型OPT-125m，在wikitext2吉印通行了微調。

為了從訓練好的模型中生成數據，團隊使用了five-way波束搜索。他們將訓練序列設為 64 個(gè)token長(cháng)度；然后對于訓練集中的每個(gè)token序列，要求模型預測下一個(gè)64個(gè)token。

他們會(huì )瀏覽所有原始訓練數據集，并生成一個(gè)相同大小的人工數據集。如果模型的誤差為0，它就會(huì )生成原始的wikitext2數據集。

為了進(jìn)一步感受區別，他們采用兩種不同的設置：一組是除了最開(kāi)始訓練，后續過(guò)程沒(méi)有任何原始訓練數據；另一組則是保留10%的原始數據。

結果顯示，隨著(zhù)時(shí)間推移，模型產(chǎn)生的錯誤會(huì )增加。在模型完全崩潰之前，它還會(huì )導致模型遺忘數據集中低概率事件，他們的輸出也變得更加同質(zhì)化。最終也就出現了開(kāi)頭這一現象。

另外在VAE、GMM模型中看到了類(lèi)似模型崩潰的現象。

來(lái)自杜克大學(xué)的Emily Wenger教授表示，到目前為止，要緩解這一問(wèn)題并非易事。

有領(lǐng)先的科技公司已經(jīng)部署了一項技術(shù)，即嵌入“水印”——

標記AI生成的內容，讓其在訓練數據中排除。但困難在于，這需要科技公司之間的協(xié)調，因此不太具有商業(yè)可行性。

這樣一來(lái)，那從之前互聯(lián)網(wǎng)獲取數據的公司，他們訓練的模型更能代表現實(shí)世界。所以，最開(kāi)始那一波大模型算是有了先發(fā)優(yōu)勢。

對于這一觀(guān)點(diǎn)，你怎么看呢？

參考鏈接：

021yin.com/articles/d41586-024-02420-7

021yin.com/articles/d41586-024-02355-z

021yin.com/articles/s41586-024-07566-y

— 完—

量子位年度AI主題策劃正在征集中！

歡迎投稿專(zhuān)題一千零一個(gè)AI應用，365行AI落地方案

或與我們分享你在尋找的AI產(chǎn)品，或發(fā)現的AI新動(dòng)向

點(diǎn)這里??關(guān)注我，記得標星哦～

一鍵三連「分享」、「點(diǎn)贊」和「在看」

科技前沿進(jìn)展日日相見(jiàn) ~

☆收藏0

標簽: 練數據

返回列表

上一篇：AI賦能制造體系 1.2秒產(chǎn)出一個(gè)斷路器

下一篇：國資委加快推動(dòng)人工智能產(chǎn)業(yè)發(fā)展，人工智能ETF(159819)投資機遇備受關(guān)注

發(fā)表評論

中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全

<style id="4yoqm"></style>

<center id="4yoqm"><dl id="4yoqm"></dl></center>

<center id="4yoqm"></center>

<center id="4yoqm"></center>

<rp id="4yoqm"><sup id="4yoqm"><nobr id="4yoqm"></nobr></sup></rp>