AI大模型測評報告:“長(cháng)文本”和“撈針”成大模型痛點(diǎn)
新京報貝殼財經(jīng)訊(記者白金蕾 韋英姿 羅亦丹)7月3日下午,在新京報貝殼財經(jīng)夏季年會(huì )“‘通’往未來(lái) 向新有AI”主題論壇上,新京報貝殼財經(jīng)吉印通北京智源研究院、中國經(jīng)濟傳媒協(xié)會(huì )發(fā)布行業(yè)首份《中國AI大模型測評報告——公眾及傳媒行業(yè)大模型使用與滿(mǎn)足研究》(下稱(chēng):報告)。本次報告特色內容為新京報人工智能研究院自行研發(fā)的針對大模型傳媒能力的測評體系。
測評選取了較為知名的9款大模型應用程序(或其網(wǎng)頁(yè)版),分別考察了其文本生成能力、事實(shí)核查與價(jià)值觀(guān)判斷能力、媒體信息檢索能力、翻譯能力以及長(cháng)文本總結能力,旨在評估不同大模型助手針對媒體行業(yè)實(shí)際工作場(chǎng)景的能力表現,并形成最終排名。
在總體得分上,通義千問(wèn)、騰訊元寶、訊飛星火奪得前三名,主要是這三個(gè)模型在此次評測的五大維度上均沒(méi)有明顯短板。其中,通義千問(wèn)在事實(shí)核查與價(jià)值觀(guān)判斷能力、長(cháng)文本能力上均排名榜首,訊飛星火則在翻譯能力上排名第一,且綜合能力最強。
橫向對比大模型五個(gè)維度的平均得分水平,翻譯能力得分6.42,排名第一。事實(shí)核查與價(jià)值觀(guān)判斷能力以及媒體信息檢索能力得分6.3,并列第二。第四是文本生成能力,得分6.08,最后是長(cháng)文本能力,得分4.65。
由此可見(jiàn),媒體從業(yè)者對于使用大模型進(jìn)行翻譯工作較為滿(mǎn)意,而通過(guò)大模型聯(lián)網(wǎng)總結熱點(diǎn)事件也較為準確,大模型的價(jià)值觀(guān)未見(jiàn)明顯問(wèn)題。與新聞寫(xiě)作相關(guān)的文本生成則處于“可用”狀態(tài)??傮w來(lái)看,上述四項維度的功能均處于“及格線(xiàn)”以上,根據測評人員的反饋,大模型生成的新聞稿雖然可用但相比人類(lèi)仍稍遜一籌,相比之下,大模型的翻譯能力、檢索總結新聞能力以及其價(jià)值觀(guān)判斷能力已經(jīng)得到了部分測評人員的認可。
此外,對于大模型從長(cháng)文本中“大海撈針”找關(guān)鍵點(diǎn)的能力,大部分大模型仍然無(wú)法勝任。特別是給出1-999個(gè)順序排列的數字,尋找其中兩個(gè)順序顛倒的數字這一測試,9款大模型除了通義千問(wèn)給出了2個(gè)答案(一對一錯)外,其余8款大模型“全軍覆沒(méi)”,說(shuō)明大模型仍有缺陷之處。
編輯 王進(jìn)雨
校對 楊利