當前位置:首頁(yè) > 百科 > 正文內容

通義千問(wèn)系列AI開(kāi)源模型升至Qwen2:5個(gè)尺寸,最高 128K tokens

南寧名片加急5個(gè)月前 (06-07)百科15
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

IT之家 6 月 7 日消息,通義千問(wèn)(Qwen)今天宣布經(jīng)過(guò)數月的努力,Qwen 系列模型從 Qwen1.5 到 Qwen2 的重大升級,并已在 Hugging Face 和 ModelScope 上同步開(kāi)源。

IT之家附上 Qwen 2.0 主要內容如下:

5 個(gè)尺寸的預訓練和指令微調模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B

在中文英語(yǔ)的基礎上,訓練數據中增加了 27 種語(yǔ)言相關(guān)的高質(zhì)量數據;

多個(gè)評測基準上的領(lǐng)先表現;

代碼和數學(xué)能力顯著(zhù)提升;

增大了上下文長(cháng)度支持,最高達到 128K tokens(Qwen2-72B-Instruct)。

模型基礎信息

Qwen2 系列包含 5 個(gè)尺寸的預訓練和指令微調模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

模型 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B參數量 0.49B1.54B7.07B57.41B72.71B 非 Embedding 參數量 0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTieEmbeddingTrueTrueFalseFalseFalse上下文長(cháng)度 32K32K128K64K128K

在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA。這一次,所有尺寸的模型都使用了 GQA,以便讓大家體驗到 GQA 帶來(lái)的推理加速和顯存占用降低的優(yōu)勢。

模型評測

相比 Qwen1.5,Qwen2 在大規模模型實(shí)現了非常大幅度的效果提升。我們對 Qwen2-72B 進(jìn)行了全方位的評測。

在針對預訓練語(yǔ)言模型的評估中,對比當前最優(yōu)的開(kāi)源模型,Qwen2-72B 在包括自然語(yǔ)言理解、知識、代碼、數學(xué)及多語(yǔ)言等多項能力上均顯著(zhù)超越當前領(lǐng)先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。

IT之家附上參考地址

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全