通義千問(wèn)系列AI開(kāi)源模型升至Qwen2:5個(gè)尺寸,最高 128K tokens
IT之家 6 月 7 日消息,通義千問(wèn)(Qwen)今天宣布經(jīng)過(guò)數月的努力,Qwen 系列模型從 Qwen1.5 到 Qwen2 的重大升級,并已在 Hugging Face 和 ModelScope 上同步開(kāi)源。
IT之家附上 Qwen 2.0 主要內容如下:
5 個(gè)尺寸的預訓練和指令微調模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B
在中文英語(yǔ)的基礎上,訓練數據中增加了 27 種語(yǔ)言相關(guān)的高質(zhì)量數據;
多個(gè)評測基準上的領(lǐng)先表現;
代碼和數學(xué)能力顯著(zhù)提升;
增大了上下文長(cháng)度支持,最高達到 128K tokens(Qwen2-72B-Instruct)。
模型基礎信息
Qwen2 系列包含 5 個(gè)尺寸的預訓練和指令微調模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。
模型 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B參數量 0.49B1.54B7.07B57.41B72.71B 非 Embedding 參數量 0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTieEmbeddingTrueTrueFalseFalseFalse上下文長(cháng)度 32K32K128K64K128K
在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA。這一次,所有尺寸的模型都使用了 GQA,以便讓大家體驗到 GQA 帶來(lái)的推理加速和顯存占用降低的優(yōu)勢。
模型評測
相比 Qwen1.5,Qwen2 在大規模模型實(shí)現了非常大幅度的效果提升。我們對 Qwen2-72B 進(jìn)行了全方位的評測。
在針對預訓練語(yǔ)言模型的評估中,對比當前最優(yōu)的開(kāi)源模型,Qwen2-72B 在包括自然語(yǔ)言理解、知識、代碼、數學(xué)及多語(yǔ)言等多項能力上均顯著(zhù)超越當前領(lǐng)先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。
IT之家附上參考地址