當前位置:首頁(yè) > 百科 > 正文內容

精準狙擊Llama 3.1?Mistral AI開(kāi)源Large 2,123B媲美Llama 405B

桂林數碼打印4個(gè)月前 (07-25)百科18
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

機器之心報道

機器之心編輯部

AI 競賽正以前所未有的速度加速,繼 Meta 昨天推出其新的開(kāi)源 Llama 3.1 模型之后,法國 AI 初創(chuàng )公司 Mistral AI 也加入了競爭。

剛剛,Mistral AI 宣布其旗艦開(kāi)源模型的下一代產(chǎn)品:Mistral Large 2,該模型擁有 1230 億個(gè)參數,在代碼生成、數學(xué)、推理等方面與 OpenAI 和 Meta 的最新尖端模型不相上下。

緊隨 Llama 3.1 405B 之后,Mistral Large 2 的發(fā)布讓開(kāi)源大模型的賽道一下子熱鬧起來(lái),而這一模型的特點(diǎn)是 ——「足夠大」。

具體來(lái)說(shuō),雖然 Mistral Large 2 參數量低于 Llama 3.1 的 4050 億,但兩者性能接近。并且在多個(gè)基準測試中與 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 媲美。

今年 2 月,Mistral AI 推出了最初的 Large 模型,其上下文窗口包含 32,000 個(gè) token,新版模型在此基礎上構建,具有更大的 128,000 個(gè)上下文窗口(大約相當于一本 300 頁(yè)的書(shū))—— 與 OpenAI 的 GPT-4o 和 GPT-4o mini 以及 Meta 的 Llama 3.1 相匹配。

目前,Mistral Large 2 支持數十種語(yǔ)言,包括法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、阿拉伯語(yǔ)、印地語(yǔ)、俄語(yǔ)、中文、日語(yǔ)和韓語(yǔ),以及 80 多種編程語(yǔ)言,包括 Python、Java、C、C++、JavaScript 和 Bash。

Mistral AI 指出,新模型將繼續突破成本效率、速度和性能的界限,同時(shí)為用戶(hù)提供新功能,包括高級函數調用和檢索,以構建高性能的 AI 應用。

不過(guò),值得注意的是,Mistral Large 2 雖然是開(kāi)放的,但只限于研究和非商業(yè)用途。它提供了開(kāi)放的權重,允許第三方根據自己的需求對模型進(jìn)行微調。這一協(xié)議是對用戶(hù)使用條件的一個(gè)重要限制。對于需要自行部署 Mistral Large 2 的商業(yè)用途,必須提前獲取 Mistral AI 商業(yè)許可證。

性能表現

在多項評估指標上,Mistral Large 2 刷新了性能和服務(wù)成本的新標準。特別是在 MMLU 上,預訓練版本實(shí)現了 84.0% 的準確率。

代碼與推理

Mistral AI 基于此前 Codestral 22B 和 Codestral Mamba 的經(jīng)驗,在很大一部分代碼上訓練了 Mistral Large 2。

Mistral Large 2 的表現遠遠優(yōu)于上一代的 Mistral Large,并且與 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等頂尖模型相當。

Mistral AI 還投入了大量精力來(lái)增強模型的推理能力,重點(diǎn)之一就是盡量減少模型產(chǎn)生「幻覺(jué)」或產(chǎn)生看似合理但實(shí)際上不正確或不相關(guān)信息的傾向。這是通過(guò)微調模型來(lái)實(shí)現的,使其在回復時(shí)更加謹慎和敏銳,確保其提供可靠和準確的輸出。

此外,在找不到解決方案或沒(méi)有足夠的信息來(lái)提供一個(gè)自信的答案時(shí),Mistral Large 2 會(huì )承認(自己答不出來(lái))。這種對準確性的追求體現在了數學(xué)基準測試中模型性能的提高,下圖展示了其增強的推理和解決問(wèn)題的能力:

代碼生成基準上的性能準確性(所有模型都通過(guò)相同的評估流程進(jìn)行基準測試)。

MultiPL-E 上的性能準確性(除 paper 外,所有模型都通過(guò)相同的評估流程進(jìn)行基準測試)。

GSM8K(8-shot)和 MATH(0-shot,無(wú) CoT)生成基準上的性能準確性(所有模型都通過(guò)相同的評估流程進(jìn)行基準測試)。

指令遵循與對齊

Mistral AI 大幅提升了 Mistral Large 2 的指令遵循和對話(huà)能力。新的 Mistral Large 2 尤其擅長(cháng)遵循精確指令和處理長(cháng)時(shí)間的多輪對話(huà)。

以下是其在 MT-Bench、Wild Bench 和 Arena Hard 基準測試中的表現:

模型在通用對齊基準測試中的性能(所有模型均通過(guò)相同的評估 pipeline 進(jìn)行測試)

在某些基準測試中,生成較長(cháng)的回答往往會(huì )提高評分。然而,在許多商業(yè)應用中,簡(jiǎn)潔至關(guān)重要,這是因為簡(jiǎn)潔的模型生成能夠加快交互速度,并降低推理成本。

所以 Mistral AI 花費了大量精力,確保生成的內容盡可能簡(jiǎn)明扼要。

下圖展示了在 MT Bench 基準測試的問(wèn)題上,不同模型生成的回答的平均長(cháng)度:

語(yǔ)言多樣性

當今大量的商業(yè)化應用場(chǎng)景涉及處理多語(yǔ)言文檔。Mistral Large 2 在大量多語(yǔ)言數據吉印通行了訓練,特別是在英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)、荷蘭語(yǔ)、俄語(yǔ)、中文、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)吉印通地語(yǔ)方面都表現優(yōu)異。

以下是 Mistral Large 2 在多語(yǔ)言 MMLU 基準測試中的性能結果,主要是與之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 的對比:

多語(yǔ)言 MMLU 性能(以基礎預訓練模型測量)

工具使用與函數調用

Mistral Large 2 配備了增強的函數調用和檢索技能,經(jīng)過(guò)訓練能夠熟練地執行并行和順序函數調用,使其能夠成為復雜業(yè)務(wù)應用程序的強大引擎。

下圖為 Mistral Large 2 在函數調用上與其他主流模型的準確性對比:

試用 Mistral Large 2

用戶(hù)可以通過(guò) la Plateforme 上使用 Mistral Large 2,名稱(chēng)為 mistral-large-2407 ,并在 le Chat 上測試。它的版本是 24.07(Mistral 對所有模型采用的都是 YY.MM 版本編號系統),API 名稱(chēng)為 mistral-large-2407。

指令模型的權重已提供,托管在 HuggingFace 上。

權重鏈接:

Mistral AI 正在將 la Plateforme 上的產(chǎn)品整合為兩個(gè)通用模型:Mistral Nemo 和 Mistral Large,以及兩個(gè)專(zhuān)業(yè)模型:Codestral 和 Embed。隨著(zhù)他們逐步淘汰 la Plateforme 上的舊模型,所有的 Apache 模型(包括 Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral)仍然可以使用 Mistral AI 的 SDK——mistral-inference 和 mistral-finetune 進(jìn)行部署和微調。

從今天開(kāi)始,他們擴展了 la Plateforme 上的微調功能:現在,這些功能適用于 Mistral Large、Mistral Nemo 和 Codestral。

此外,Mistral AI 與云服務(wù)提供商都有合作,Mistral Large 2 將很快登陸這些平臺。Mistral AI 擴大了與 Google Cloud Platform 的合作,通過(guò) Managed API 將 Mistral AI 的模型引入 Vertex AI。與此同時(shí),還可以在 Amazon Bedrock、Azure AI Studio 和 IBM watsonx.ai 上找到。

參考鏈接:

/

021yin.com/ai/mistral-shocks-with-new-open-model-mistral-large-2-taking-on-llama-3-1/

021yin.com/2024/07/24/mistral-releases-large-2-meta-openai-ai-models/

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全