當前位置:首頁(yè) > 百科 > 正文內容

開(kāi)源模型超過(guò)最強閉源模型,Llama 3.1能否顛覆AI生態(tài)?|甲子光年

牧亦寒2個(gè)月前 (07-23)百科9
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

扎克伯格誓要把開(kāi)源進(jìn)行到底。

作者|蘇霍伊

編輯|趙健

Llama 3.1終于來(lái)了。

美國當地時(shí)間7月23日,Meta正式發(fā)布Llama 3.1。其包含8B、70B 和405B三個(gè)規模,最大上下文提升到了128k。Llama目前開(kāi)源領(lǐng)域中用戶(hù)最多、性能最強的大型模型系列之一。

本次Llama 3.1的要點(diǎn)有:

1.共有8B、70B及405B三種版本,其中405B版本是目前最大的開(kāi)源模型之一;

2.該模型擁有4050億參數,在性能上超越了現有的頂級AI模型;

3.模型引入了更長(cháng)的上下文窗口(最長(cháng)可達128K tokens),能夠處理更復雜的任務(wù)和對話(huà);

4.支持多語(yǔ)言輸入和輸出,增強了模型的通用性和適用范圍;

5.提高了推理能力,特別是在解決復雜數學(xué)問(wèn)題和即時(shí)生成內容方面表現突出。

Meta在官方博客中寫(xiě)道:“時(shí)至今日,開(kāi)源大語(yǔ)言模型性能落后于閉源模型仍是常態(tài)。但現在,我們正在迎來(lái)一個(gè)開(kāi)源引領(lǐng)的新時(shí)代。我們公開(kāi)發(fā)布Meta Llama 3.1 405B是世界上最大、功能最強大的開(kāi)源基礎模型。迄今為止,所有Llama版本的累計下載次數已超過(guò)3億,而這只是一個(gè)開(kāi)始。”

開(kāi)源與閉源的爭論一直是技術(shù)領(lǐng)域的熱點(diǎn)話(huà)題。

開(kāi)源軟件更為透明性和靈活性,允許全球開(kāi)發(fā)者共同審查、修改和改進(jìn)代碼,從而推動(dòng)了技術(shù)的快速創(chuàng )新和進(jìn)步。而閉源模型通常由單一公司或組織開(kāi)發(fā)和維護,它們能提供專(zhuān)業(yè)的支持和服務(wù),確保軟件的安全性和穩定性。但這種模式也限制了用戶(hù)的控制權和自定義能力。

此前,一直是閉源模型略勝一籌。直到Llama 3.1的發(fā)布,在持續激烈的開(kāi)源與閉源之爭寫(xiě)下濃墨重彩的一筆:開(kāi)源模型終于可與閉源模型巔峰一戰了。

根據Meta提供的基準測試數據,最受關(guān)注的405B版本,從性能上已經(jīng)可與GPT-4和Claude 3相媲美。其中Human Evaluation主要用于評估模型在理解和生成代碼、解決抽象邏輯問(wèn)題方面的能力。在與其他大型模型的競爭中,Llama 3.1 405B顯得略勝一籌。

Llama 3.1與GPT-4、Claude 3.5旗鼓相當,來(lái)源:Meta

斯坦福大學(xué)計算機科學(xué)系和電子工程系副教授、人工智能實(shí)驗室主任吳恩達(Andrew Ng)在社交媒體上稱(chēng)贊“Meta和Llama團隊對開(kāi)源的巨大貢獻”。他表示:“Llama 3.1增加了上下文長(cháng)度和改進(jìn)了功能,是送給每個(gè)人的奇妙禮物。”并希望“像加州提議的SB1047這樣愚蠢的法規不會(huì )阻止這樣的創(chuàng )新”。

吳恩達的社交媒體,來(lái)源:X

圖靈獎得主、Meta首席人工智能科學(xué)家楊立昆(Yann LeCun)引用了《The Verge》對Llama 3.1的性能描述——Meta發(fā)布了迄今為止最大、最優(yōu)秀的開(kāi)源人工智能模型:Llama 3.1在某些基準測試上超越了OpenAI及其他競爭對手。

楊立昆的社交媒體,來(lái)源:X

有趣的是,昨天405B版的Llama 3.1疑似在HugginFace、GitHub上被“偷跑”,爆料人發(fā)出的評測數據與今日正式發(fā)布的版本信息基本相符合。

Meta的創(chuàng )始人兼CEO馬克·扎克伯格親筆撰寫(xiě)了一篇題為《開(kāi)源人工智能是未來(lái)之路(Open Source AI Is the Path Forward)》的長(cháng)文章,詳細闡述了開(kāi)源對開(kāi)發(fā)者、對Meta以及對全球來(lái)說(shuō)為何具有重要意義。

他預測到今年年底,Meta AI將超過(guò)ChatGPT,成為使用最廣泛的助手。

他還表示:誓將開(kāi)源進(jìn)行到底。

《Open Source AI Is the Path Forward》的文章切片,來(lái)源Meta

1.Llama 3.1的煉成

在模型架構方面,作為Meta迄今為止最大的模型,Llama 3.1 在超過(guò) 15 萬(wàn)億個(gè)token的數據吉印通行訓練,預訓練數據日期截止到2023年12月。

為了在合理的時(shí)間內在如此大規模上實(shí)現訓練并取得期望的成果,Meta優(yōu)化了整個(gè)訓練堆棧,用了超過(guò)16000塊H100,405B是第一個(gè)在此規模上訓練的Llama模型。

Llama 3.1文本生成過(guò)程中的Transformer模型架構,來(lái)源:Meta

為了最大限度確保訓練的穩定性和便捷性,Meta選擇了標準的僅解碼器Transformer模型架構進(jìn)行微調,而沒(méi)有采用當前流行的混合專(zhuān)家模型(MoE)架構。

這一決策使得Llama 3.1在支持長(cháng)達128K的上下文長(cháng)度時(shí),依然能夠保證短文本的高質(zhì)量輸出,實(shí)現了對長(cháng)短文本的靈活處理,而非僅專(zhuān)注于長(cháng)文本。

同時(shí),研究團隊在實(shí)施了一種迭代的后訓練方法,通過(guò)每一輪的監督式微調和直接偏好優(yōu)化,生成高質(zhì)量的合成數據并提升模型的各項功能。與先前版本相比,Llama 3.1增加了預訓練和后訓練數據的數量和質(zhì)量,引入了更細致的預處理和管理流程,以及更嚴格的質(zhì)量保證和過(guò)濾技術(shù)。

根據語(yǔ)言模型的擴展規律,Llama 3.1在性能上超越了之前使用相同訓練程序的小型模型。

為了應對大規模的405B模型的運行需求,Meta把模型數據從16位(BF16)量化減少到8位(FP8),這大幅降低了計算資源的需求,令模型能夠在單一服務(wù)器節點(diǎn)上運行。

在Llama 3.1 405B模型的指令和聊天微調方面,開(kāi)發(fā)團隊致力于提升模型對用戶(hù)指令的響應性、實(shí)用性和質(zhì)量,同時(shí)確保高度的安全性。

在后訓練階段,團隊在預訓練的基礎吉印通行了幾輪調整。每輪包括監督式微調(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO)。此外,團隊使用合成數據生成來(lái)產(chǎn)生絕大多數 SFT 示例,這表示他們并不全然依賴(lài)真實(shí)世界的數據,而是通過(guò)算法生成的數據來(lái)訓練模型。

同時(shí),團隊還使用多種數據處理方法來(lái)過(guò)濾這些數據,確保質(zhì)量最高,并擴大微調數據的應用范圍。

Meta也在探索一種新策略,即使用405B模型作為70B和8B模型的“教師模型”,從而從大型模型中提煉出適合各行各業(yè)需求的小型定制模型。這種做法與GPT-4o mini的策略不謀而合,即“先做大,再做小”。

前OpenAI創(chuàng )始成員之一Andrej Karpathy曾對GPT-4o Mini做出評價(jià):“模型必須先變大,然后才能變小。因為我們需要它們(自動(dòng))幫助重構訓練數據,使其成為理想的、合成的格式。”他指出,這種方法能有效地將大模型的深度和廣度知識遷移到更實(shí)用、成本更低的小型模型中。

作為開(kāi)源模型路線(xiàn)的領(lǐng)頭羊,Meta在Llama模型的配套設施上也給足了誠意。

Llama系統設計為一個(gè)綜合的框架,能夠整合多個(gè)組件,包括調用外部工具。Meta的目標是提供一個(gè)更廣闊的系統,讓開(kāi)發(fā)者能夠靈活地設計并創(chuàng )建符合自己需求的定制產(chǎn)品。

為了在模型層之外負責任地發(fā)展AI,研究團隊發(fā)布了一個(gè)包含多個(gè)示例應用和新組件的完整參考系統,例如多語(yǔ)言安全模型Llama Guard 3和提示注入過(guò)濾器Prompt Guard。這些應用是開(kāi)源的,可供社區進(jìn)一步開(kāi)發(fā)。

為了更好地定義組件接口并促進(jìn)其在行業(yè)中的標準化,研究人員與行業(yè)、初創(chuàng )公司和廣泛社區合作,并在GitHub上發(fā)布了“Llama Stack”提議。這是一套標準化接口,能夠簡(jiǎn)化工具鏈組件(如微調、合成數據生成)和代理應用程序的構建。

根據Meta提供的基準測試數據顯示,Llama 3.1 405B 在NIH/Multi-needle 基準測試的得分為 98.1,在性能評分上與GPT-4和Claude 3.5等不相上下。405B版本以出色的整合海量文本信息能力在ZeroSCROLLS/QuALITY基準測試的得分為95.2,對于關(guān)注RAG性能的AI應用開(kāi)發(fā)者而言十分友好。

Llama 3.1與GPT4等閉源模型相比較,來(lái)源:Meta

Llama 3.1與Mistral 7B Instruct等開(kāi)源模型相比較,來(lái)源:Meta

Llama 3.1 8B 版本顯著(zhù)優(yōu)于 Gemma 2 9B 1T 和 Mistral 7B Instruct,且相較于前代Llama 3 8B的表現有了明顯的提升。同時(shí),Llama 3.1 70B 版本甚至超過(guò)了GPT-3.5 Turbo。

根據Llama團隊的官方報道,他們在150多個(gè)多語(yǔ)言基準數據集上對這些模型進(jìn)行了深入的性能評測和大量的人工測試。結果顯示,Llama的頂級模型在各種任務(wù)上能夠與市場(chǎng)上的頂尖基礎模型如GPT-4、GPT-4o和Claude 3.5 Sonnet等相媲美。同時(shí),相較于具有類(lèi)似參數規模的封閉和開(kāi)源模型,Llama的小型版本同樣表現出了強勁的競爭力。

2.開(kāi)源、閉源模型之爭

開(kāi)源模型到底能否超越閉源模型?

這個(gè)問(wèn)題從去年開(kāi)始就備受爭議。兩種模型的發(fā)展道路代表著(zhù)不同技術(shù)哲學(xué),它們在促進(jìn)技術(shù)進(jìn)步和滿(mǎn)足商業(yè)需求方面各有千秋。

比如Llama 3.1是一個(gè)開(kāi)源的大模型,它允許研究人員和開(kāi)發(fā)者訪(fǎng)問(wèn)其源代碼,人們可以自由地研究、修改甚至改進(jìn)模型。這種開(kāi)放性鼓勵了廣泛的合作和創(chuàng )新,讓來(lái)自不同背景的開(kāi)發(fā)者能夠共同解決問(wèn)題。

相對地,ChatGPT是由OpenAI開(kāi)發(fā)的閉源模型,雖然它提供了API訪(fǎng)問(wèn),但其核心算法和訓練數據未完全公開(kāi)。GPT-3的閉源特性使得其能夠在商業(yè)化路徑上更加穩健,同時(shí)控制性確保了產(chǎn)品的穩定性和安全性,在處理敏感信息時(shí)更受企業(yè)信賴(lài)。但這種封閉性也限制了外部研究者對模型的完全理解和創(chuàng )新能力。

去年5月,外媒曾報道谷歌流出一份文件,主題是“我們沒(méi)有護城河,OpenAI也沒(méi)有。當我們還在爭吵時(shí),開(kāi)源已經(jīng)悄悄地搶了我們的飯碗”。同年Meta發(fā)布開(kāi)源大模型Llama 2后,楊立昆表示,Llama 2將改變大語(yǔ)言模型的市場(chǎng)格局。

人們對于Llama系列模型所引領(lǐng)的開(kāi)源社區備受期待。此前,最先進(jìn)的閉源模型GPT-4始終略勝一籌,雖然當時(shí)的Llama 3 與之相比差距已經(jīng)很小了。

大模型領(lǐng)域最權威的榜單是大模型競技場(chǎng)(LLM Arena),采用了國際象棋一直采用了ELO積分體系。它的基本規則是,讓用戶(hù)向兩個(gè)匿名模型(例如 ChatGPT、Claude、Llama)提出任何問(wèn)題,并投票給回答更好的一個(gè)。回答更好的模型將獲得積分,最終的排名由累計積分的高低來(lái)確定。Arean ELO收集了50萬(wàn)人的投票數據。

大模型排行榜一覽,來(lái)源:LLM Arena

在LLM Arena排行榜上,OpenAI的GPT-4o目前占據榜首。排名前十的模型全部為閉源。雖然閉源模型在排名上仍遙遙領(lǐng)先,但開(kāi)源與閉源模型之間的差距并非李彥宏在2024年吉印通AI開(kāi)發(fā)者大會(huì )上所言越來(lái)越大,實(shí)際上正在逐漸縮小。

WAIC期間,李彥宏表示:“開(kāi)源其實(shí)是一種智商稅”。來(lái)源:吉印通

直到今天Llama 3.1的發(fā)布,開(kāi)源模型終于可與閉源模型巔峰一戰了。

對于開(kāi)源、閉源模型哪個(gè)更優(yōu),,「甲子光年」曾與多位AI行業(yè)從業(yè)者討論過(guò)。業(yè)內普遍認為:往往取決于個(gè)人立場(chǎng),并不是簡(jiǎn)單的黑白二分問(wèn)題。

開(kāi)源和閉源問(wèn)題并非純粹技術(shù)上的區別,更多關(guān)乎于商業(yè)模式的選擇。目前無(wú)論是開(kāi)源還是閉源大模型,都尚未找到一個(gè)完全成功的商業(yè)模式。

那是什么因素影響了開(kāi)源和閉源模型之間的能力差異呢?

微博新技術(shù)研發(fā)負責人張俊林指出,模型能力的增長(cháng)速度是一個(gè)關(guān)鍵因素。如果模型能力的增長(cháng)速度很快,意味著(zhù)短時(shí)間內需要大量計算資源,這種情況下閉源模型因為資源優(yōu)勢而更有優(yōu)勢。相反,如果模型能力增長(cháng)較慢,則開(kāi)源與閉源之間的差距會(huì )減小,追趕速度也會(huì )加快。

他認為,未來(lái)幾年內,開(kāi)源和閉源模型的能力差異將取決于“合成數據”技術(shù)的發(fā)展。如果未來(lái)兩年內“合成數據”技術(shù)取得顯著(zhù)進(jìn)展,兩者的差距可能會(huì )增大;如果沒(méi)有突破,則兩者的能力將趨于相近。

總體而言,“合成數據”將成為未來(lái)大語(yǔ)言模型發(fā)展的關(guān)鍵技術(shù)。

開(kāi)源還是閉源,本身并不決定模型性能的高低。閉源模型并非因為閉源而領(lǐng)先,開(kāi)源模型也并非因為開(kāi)源而落后。甚至恰恰相反,模型是因為領(lǐng)先才選擇閉源,因為不夠領(lǐng)先不得不選擇開(kāi)源。

如果一家公司做出了性能很強的模型,它就有可能不再開(kāi)源了。

比如法國的明星創(chuàng )業(yè)公司Mistral,其開(kāi)源的最強7B模型Mistral-7B和首個(gè)開(kāi)源MoE模型8x7B(MMLU 70)是開(kāi)源社區聲量最大的模型之一。但是,Mistral后續訓練的Mistral-Medium(MMLU-75)、Mistral-Large(MMLU-81) 均是閉源模型。

目前性能最好的閉源模型與性能最好的開(kāi)源模型都是由大公司所主導,而大公司里又屬Meta的開(kāi)源決心最大。如果OpenAI不開(kāi)源是從商業(yè)回報的角度來(lái)考慮,那么Meta選擇開(kāi)源讓用戶(hù)免費試用的目的又是什么呢?

在上一季度的財報會(huì )上,扎克伯格對這件事的回應是,Meta開(kāi)源其AI技術(shù)是出于推動(dòng)技術(shù)創(chuàng )新、提升模型質(zhì)量、建立行業(yè)標準、吸引人才、增加透明度和支持長(cháng)期戰略的考慮。

而這次扎克伯格在《開(kāi)源人工智能是未來(lái)之路(Open Source AI Is the Path Forward)》中詳細地解釋了“為什么開(kāi)源AI對開(kāi)發(fā)者有利”:

在與來(lái)自世界各地的開(kāi)發(fā)者、CEO和政府官員的對話(huà)中,我經(jīng)常聽(tīng)到他們強調需要培訓、微調和優(yōu)化他們自己的模型。

每個(gè)組織都有其獨特需求,不同規模的模型可針對這些需求進(jìn)行優(yōu)化,使用特定數據進(jìn)行訓練或微調。簡(jiǎn)單的設備上任務(wù)和分類(lèi)任務(wù)可能需要較小的模型,而更復雜的任務(wù)則需使用更大的模型。

現在,你可以使用最先進(jìn)的Llama模型,并繼續用你自己的數據來(lái)訓練它們,之后將它們優(yōu)化到理想的規?!姚倐兓蚱渌?任何人都不會(huì )接觸到你的數據。

我們需要控制自己的命運,而不是受制于某個(gè)閉源供應商。

許多組織不想依賴(lài)于他們無(wú)法自行運行和控制的模型。他們擔心閉源模型的提供者可能會(huì )更改模型、使用條款,甚至完全停止服務(wù)。他們也不希望被限制在一個(gè)對某個(gè)模型擁有獨占權的單一云平臺中。開(kāi)源為眾多公司提供了一套兼容的工具鏈,使得在不同系統之間切換變得容易。

我們需要保護我們的數據。

許多組織處理敏感數據,需要保護這些數據不被通過(guò)云API發(fā)送到閉源模型中。其他組織則簡(jiǎn)單地不信任閉源模型提供者的數據處理方式。開(kāi)源通過(guò)讓你在任何想要的地方運行模型來(lái)解決這些問(wèn)題,并且因為開(kāi)發(fā)過(guò)程的透明性而被廣泛認為更安全。

我們需要一種高效且經(jīng)濟的運行方式。

開(kāi)發(fā)人員可以在自己的基礎設施上運行Llama 3.1 405B模型進(jìn)行推理,其成本大約是使用GPT-4o等閉源模型的一半,適用于面向用戶(hù)的和離線(xiàn)推理任務(wù)。

我們押注了一個(gè)有望成為長(cháng)期標準的生態(tài)系統。

很多人看到開(kāi)源模型比閉源模型發(fā)展得更快,他們希望自己構建的系統架構能帶來(lái)最大的長(cháng)期優(yōu)勢。

(封面圖來(lái)自Meta X賬號)

END.

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全