<option id="esjfg"></option>

<form id="esjfg"><track id="esjfg"></track></form>

<progress id="esjfg"><pre id="esjfg"></pre></progress>

當前位置：首頁(yè) > 百科 > 正文內容

用AI訓練AI，可能越練越“傻”

九江拼版印刷3個(gè)月前 (07-25)百科13

印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà)：138-1621-1622（微信同號）

吉印通社北京7月25日電　對于人工智能（AI）大語(yǔ)言模型來(lái)說(shuō)，通常給予的訓練數據越多，模型就會(huì )越“聰明”。但英國《自然》雜志新發(fā)表的一項關(guān)于大模型的研究顯示，如果只用AI生成的數據來(lái)訓練大模型，會(huì )使模型性能下降、越練越“傻”。

英國牛津大學(xué)、劍橋大學(xué)等機構研究人員發(fā)現，如果在訓練大模型時(shí)，只用AI生成的內容，會(huì )導致大模型出現不可逆的缺陷，逐漸忘記真實(shí)數據的分布，這被稱(chēng)為“模型崩潰”。

2024年4月23日，在德國漢諾威工博會(huì )上，參觀(guān)者與一款智能機器人進(jìn)行“石頭剪子布”游戲。吉印通社記者任鵬飛攝

研究人員首先使用大語(yǔ)言模型創(chuàng )建類(lèi)似維基百科詞條的文本，然后利用這個(gè)內容來(lái)訓練該模型的新版本，并反復使用前代模型生成的文本訓練更新的版本。隨著(zhù)AI生成的信息“污染”訓練集，模型的輸出逐漸失去意義。在模型的第九次迭代中，它完成了一篇關(guān)于英國教堂塔樓的文章，其中一段文字卻在講述野兔尾巴的多種顏色。

研究發(fā)現，導致“模型崩潰”的重要原因是，由于模型只能從其訓練數據中采樣，一些在第一代數據中本就低頻出現的詞匯，在每次迭代后出現的頻率變得更低，而一些常見(jiàn)詞匯出現的頻率則逐漸增加。

這種變化的結果就是，模型逐漸無(wú)法正確模擬真實(shí)世界的復雜性。隨著(zhù)時(shí)間推移，這種錯誤會(huì )在迭代中被層層累積、逐漸放大，最終導致“模型崩潰”。這有點(diǎn)像生物學(xué)中“近親繁殖”會(huì )導致后代缺陷，如果不能保證基因庫的多樣性，最終會(huì )導致一個(gè)物種的崩潰。

研究人員還發(fā)現，由于訓練數據被“污染”而導致“模型崩潰”的情況不止發(fā)生在大語(yǔ)言模型中，高斯混合模型、圖片生成器等也可能出現類(lèi)似情況。

不過(guò)，應對“模型崩潰”并非束手無(wú)策。研究人員發(fā)現，如果能在模型微調過(guò)程中保留10%左右的真實(shí)數據，崩潰就會(huì )發(fā)生得更緩慢。還可使用水印技術(shù)，將AI生成的數據與真實(shí)數據區分開(kāi)來(lái)，這需要大型科技公司的協(xié)作。此外，在A(yíng)I生成的文本重新進(jìn)入數據池之前，可由人類(lèi)先篩選過(guò)濾。

☆收藏0

返回列表

上一篇：62%的游戲從業(yè)者已在使用AI！網(wǎng)易副總裁龐大智：應該把AI開(kāi)源給玩家

下一篇：AI夢(mèng)，硅谷在堅持，華爾街猶豫了

發(fā)表評論

中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全

<delect id="hb8e7"></delect>

<menuitem id="hb8e7"><pre id="hb8e7"></pre></menuitem>