探尋AI可持續發(fā)展的“燃料” “語(yǔ)料筑基,智生時(shí)代”語(yǔ)料主題論壇邀您參與
在電影《黑客帝國》中,人類(lèi)被想象為“生物電池”,機器從人類(lèi)身體所產(chǎn)生的熱量和電力中獲取能量。這種設定雖然夸張,但引發(fā)了人們對于虛擬現實(shí)與現實(shí)世界之間的界限,以及自由意志等問(wèn)題的思考。
電影中的“生物電池”概念也引出了一個(gè)有趣的現代對比:隨著(zhù)人工智能的發(fā)展,人們在某種程度上開(kāi)始“為AI打工”。在大型文本生成項目中,如OpenAI的GPT系列,高性能的AI模型對高質(zhì)量語(yǔ)料的需求巨大。因此,為了訓練這些AI,人們需要創(chuàng )造和整理大量的高質(zhì)量文本數據。這個(gè)過(guò)程看似為減少人類(lèi)的勞動(dòng)而設計,實(shí)際上卻讓人類(lèi)在某種程度上成了AI的“做題家”,即持續提供用于訓練AI的數據。雖然這種情況和電影中的設定不同,但也呈現了一種新的依賴(lài)關(guān)系:人類(lèi)的智力產(chǎn)物直接支持著(zhù)人工智能的發(fā)展和優(yōu)化。
WAIC 2024密切關(guān)注語(yǔ)料數據的發(fā)展。為深入探討語(yǔ)料數據的策略、實(shí)踐與挑戰,大模型語(yǔ)料數據聯(lián)盟、上海庫帕思科技吉印通、上海市數商協(xié)會(huì )、上海市人工智能行業(yè)協(xié)會(huì )將吉印通舉辦“語(yǔ)料筑基,智生時(shí)代”數據主題論壇,為與會(huì )者提供深入洞察。
論壇時(shí)間:7月6日 9:30-12:30
論壇地點(diǎn):上海世博中心金廳A
語(yǔ)料枯竭成為發(fā)展人工智能的障礙
語(yǔ)料庫是訓練AI模型的“食糧”,其質(zhì)量直接決定了模型的性能和應用的廣泛性。在全球范圍內,從學(xué)術(shù)研究到商業(yè)應用,人工智能的發(fā)展都嚴重依賴(lài)于大量高質(zhì)量、多樣化且公正的數據,這些數據是訓練精確、可靠和公正的AI系統的基礎。
然而,由于采集限制、成本、維護等多種原因,高質(zhì)量語(yǔ)料短缺正在成為全球人工智能研發(fā)中普遍存在的一個(gè)國際性難題,且短期內無(wú)法通過(guò)單純加大資金投入解決。
導致高質(zhì)量語(yǔ)料短缺的原因有以下幾種:首先,數據的采集往往受限于版權、隱私保護法規以及數據來(lái)源的限制,導致無(wú)法廣泛地收集到多樣的數據樣本。此外,數據的標注工作不僅成本高昂,而且需要大量的人工參與,這在很大程度上限制了數據集的規模和多樣性。標注數據的準確性和一致性的維護也是一個(gè)挑戰,因為不同的標注者可能會(huì )有不同的理解和判斷標準。
早在2022年,就有學(xué)者指出高質(zhì)量語(yǔ)料將會(huì )成為AI發(fā)展的制約,例如Nostalgebraist曾說(shuō)過(guò)高質(zhì)量的語(yǔ)料數據的缺失將會(huì )成為機器學(xué)習的瓶頸。近年來(lái),不斷有研究發(fā)現,由于互聯(lián)網(wǎng)語(yǔ)料內容的持續下降,互聯(lián)網(wǎng)語(yǔ)料數據增速已經(jīng)從90年代將近100%的年增速率下降至2010年的兩位數增長(cháng)率,預計本世紀末,增長(cháng)率將會(huì )下降至1%。
2024年6月4日,Pablo Villalobos等人在一項研究中進(jìn)一步預測了高質(zhì)量語(yǔ)料枯竭的具體時(shí)間。該研究表明,高質(zhì)量數據預計將于2028年枯竭,高質(zhì)量數據的缺位將會(huì )嚴重限制未來(lái)大模型大表現(如下圖所示)。