當前位置:首頁(yè) > 百科 > 正文內容

o1醫學(xué)領(lǐng)域大勝GPT-4,性能暴漲!頂尖華人團隊激動(dòng)發(fā)文:離AI醫生越來(lái)越近了

慎念芹1個(gè)月前 (09-11)百科7
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

新智元報道

編輯:LRS

【新智元導讀】OpenAI的o1模型在通用語(yǔ)言任務(wù)上展現了顯著(zhù)的性能,最新測評展現了o1模型在醫學(xué)領(lǐng)域的表現,主要關(guān)注理解、推理和多語(yǔ)言能力,結果大幅超越以往的模型!

大語(yǔ)言模型在剛發(fā)布的時(shí)候,以其任務(wù)、領(lǐng)域通用性和流暢的文本生成能力成功破圈,不過(guò)當時(shí)的技術(shù)還只能應用在一些比較簡(jiǎn)單的任務(wù)上。

而隨著(zhù)思維鏈等提示技術(shù)出現,尤其OpenAI最新發(fā)布的o1模型更是第一個(gè)采用強化學(xué)習策略的內化思維鏈技術(shù)的,把大模型解決復雜問(wèn)題和推理能力提高了全新的高度。

雖然o1模型在各種通用語(yǔ)言任務(wù)上表現出了驚人的強大能力,但其在醫學(xué)等專(zhuān)業(yè)領(lǐng)域的表現仍然未知。

來(lái)自加州大學(xué)圣克魯茲分校、愛(ài)丁堡大學(xué)和美國國立衛生研究院的華人團隊共同發(fā)布了一篇報告,對o1在不同醫療場(chǎng)景下進(jìn)行了全面的探索,考察了模型在理解(understanding)、推理(reasoning)和多語(yǔ)言(multilinguality)方面的能力。

論文鏈接:

數據鏈接:/

該評估涵蓋 6 個(gè)任務(wù),使用來(lái)自 37 個(gè)醫學(xué)數據集的數據,其中包括兩個(gè)基于《新英格蘭醫學(xué)雜志》(NEJM) 和《柳葉刀》專(zhuān)業(yè)醫學(xué)測驗的高難度問(wèn)答任務(wù)。

與MedQA 等標準醫學(xué)問(wèn)答基準相比,這些數據集與臨床聯(lián)系得更緊密,可以更有效地應用于真實(shí)世界的臨床場(chǎng)景中。

對o1模型的分析表明, LLMs推理能力的增強更有利于模型理解各種醫療指令,也能夠提升模型在復雜的臨床場(chǎng)景進(jìn)行推理的能力。

值得注意的是,o1模型在19個(gè)數據集和兩個(gè)復雜問(wèn)答場(chǎng)景中的準確率平均超過(guò)了之前GPT-4 6.2% 和 6.6%

與此同時(shí),研究人員發(fā)現模型能力和現有評估協(xié)議中存在一些缺陷,包括幻覺(jué)、多語(yǔ)言能力不一致以及評估指標不一致。

全面評估大模型的醫學(xué)能力

在提升模型推理能力上,思維鏈(CoT)提示是一種常用的提示策略,利用模型內部的推理模式來(lái)增強解決復雜任務(wù)的能力。

o1模型更進(jìn)一步,將CoT過(guò)程嵌入到模型訓練中,整合了強化學(xué)習,展現了強大的推理性能;不過(guò)o1模型尚未經(jīng)過(guò)專(zhuān)業(yè)領(lǐng)域數據的評估,其在特定任務(wù)上的性能仍然未可知。

現有的醫學(xué)領(lǐng)域LLM基準測試通常只會(huì )評估模型的特定能力,比如知識和推理、安全性和多語(yǔ)言,彼此之間的測驗比較孤立,無(wú)法對o1這樣的高級模型進(jìn)行全面評估。

為了確保全面評估,研究人員收集了涵蓋上述方面的各種醫學(xué)任務(wù)和數據集,并在流程中探索了三種提示策略,包括:

1. 直接提示,指導大型語(yǔ)言模型直接解決問(wèn)題

2. 思維鏈,要求模型在生成最終答案之前逐步思考

3. 少樣本提示,為模型提供了幾個(gè)示例,以便在運行中學(xué)習輸入輸出映射。

最后,使用適當的度量標準來(lái)衡量生成的回復與真實(shí)答案之間的差異。

側重點(diǎn)和任務(wù)

研究人員利用35個(gè)現有的數據集,并為評估創(chuàng )建了2個(gè)額外的具有更高難度的數據集,然后將所有37個(gè)數據集分類(lèi)為3個(gè)方面6個(gè)任務(wù),以便更清晰地進(jìn)行評估和分析,能夠了解模型在特定領(lǐng)域的表現如何。

理解(understanding),指的是模型利用其內部醫學(xué)知識來(lái)理解醫學(xué)概念的能力。

推理(reasoning),測試模型進(jìn)行多步驟邏輯思考以得出結論的能力。

在問(wèn)答任務(wù)中,模型需要遵循提示指令根據問(wèn)題中提供的醫學(xué)信息進(jìn)行推理,從多個(gè)選項中選擇正確的答案。

除了常見(jiàn)的問(wèn)答數據集,研究人員還收集了來(lái)自《柳葉刀》、《新英格蘭醫學(xué)雜志》(NEJM)和Medbullets的真實(shí)世界臨床問(wèn)題,以更好地評估LLMs的臨床效用。

在臨床建議任務(wù)中,模型需要根據患者的信息提供治療建議或診斷決策。在A(yíng)I Hospital和AgentClinic數據集中,模型需要充當醫療智能體;在MedCalc-Bench數據集中,模型需要進(jìn)行數學(xué)推理并計算答案。

多語(yǔ)言(Multilinguality),輸入指令和輸出答案的語(yǔ)言不同。

XMedBench數據集要求LLMs用六種語(yǔ)言回答醫學(xué)問(wèn)題,包括中文、阿拉伯語(yǔ)、印地語(yǔ)、西班牙語(yǔ)、中文和英語(yǔ);在A(yíng)I Hospital數據集,模型需要使用中文進(jìn)行問(wèn)答。

評估指標

準確率(Accuracy),用于直接衡量模型生成的答案與真實(shí)答案完全匹配的百分比。

F1分數,精確度和召回率的調和平均值,用于模型需要選擇多個(gè)正確答案的數據集。

BLEU和ROUGE,衡量生成回復與真實(shí)答案之間相似性的自然語(yǔ)言處理度量標準,對評估中所有自由形式生成任務(wù)使用BLEU-1和ROUGE-1

AlignScore,衡量生成文本事實(shí)一致性的度量標準,對所有無(wú)指定格式生成任務(wù)使用AlignScore來(lái)評估模型幻覺(jué)的程度。

Mauve,衡量生成文本和人類(lèi)編寫(xiě)文本分布之間差異的度量標準,用于所有無(wú)指定格式生成任務(wù),指標的數值范圍為0到100,數值越高表示模型輸出的質(zhì)量越高。

實(shí)驗結果

提示策略

對于知識問(wèn)答任務(wù)、智能體任務(wù)、醫學(xué)計算任務(wù)和多語(yǔ)言相關(guān)任務(wù),使用直接提示評估方法;

對于其他來(lái)自MedS-Bench的任務(wù),遵循基準設置中的三樣本提示策略。

根據OpenAI的聲明,常見(jiàn)的提示技術(shù),如思維鏈(CoT)和上下文中的示例,對于提升o1性能來(lái)說(shuō)幫助并不大,因為模型已經(jīng)內置了隱式的CoT。

為了進(jìn)一步驗證這一說(shuō)法,研究人員在評估中增加了幾種高級提示的效果,包括CoT、自我一致(Self Consistency)和Reflex

除了選擇GPT-3.5、GPT-4、o1模型進(jìn)行評估外,研究人員還選擇了兩個(gè)開(kāi)源模型:一個(gè)是用醫學(xué)中心數據訓練的大型語(yǔ)言模型MEDITRON-70B,以及目前最新和最強大的開(kāi)源大型語(yǔ)言模型Llama3-8B

主要結果

o1在臨床理解方面的能力得到了增強

o1模型在發(fā)布時(shí),OpenAI主要強調了其在知識和推理能力方面的顯著(zhù)提升,如數學(xué)問(wèn)題求解和代碼生成,從實(shí)驗結果中也可以觀(guān)察到,這種能力也能夠遷移到特定的臨床知識理解上。

在摘要任務(wù)上,o1在ROUGE-1得分上比GPT-4和GPT-3.5分別提高了2.4%和3.7%,證明了其在現實(shí)世界臨床理解方面的增強能力,結果也證實(shí)了大型語(yǔ)言模型在通用自然語(yǔ)言處理能力方面的進(jìn)展可以有效地轉化為醫學(xué)領(lǐng)域的增強模型理解。

o1模型在臨床診斷場(chǎng)景中強大的推理能力

在推理相關(guān)的任務(wù)上,o1模型也展現出了其在現實(shí)世界診斷情境中的優(yōu)勢。

在新構建的、具有挑戰性的問(wèn)答任務(wù)NEJMQA和LancetQA中,o1在各自的數據集上平均準確率比GPT-4(79.6%)和GPT-3.5(61.5%)分別提高了8.9%和27.1%

o1在數學(xué)推理能力上的另一個(gè)值得注意的改進(jìn)是,將MedCalc-Bench的基線(xiàn)提升到了34.9%,比GPT-4高出顯著(zhù)的9.4%

在涉及多輪對話(huà)和環(huán)境模擬的更復雜的推理場(chǎng)景中,o1在A(yíng)gentClinic基準測試中的表現超過(guò)了GPT-4和GPT-3.5,在MedQA和NEJM子集上分別獲得了至少15.5%和10%的準確率提升,得分分別為45.5%和20.0%

除了更高的準確率外,o1的答案也更簡(jiǎn)潔、直接,而GPT-4則會(huì )于在錯誤的答案旁邊生成幻覺(jué)性的解釋。

研究人員認為o1在知識和推理方面的改進(jìn)主要歸因于訓練過(guò)程中使用增強的數據和基礎技術(shù)(如CoT數據和強化學(xué)習技術(shù))。

基于上述樂(lè )觀(guān)結果,研究人員在論文中激動(dòng)地表示:有了o1模型,我們距離一個(gè)全自動(dòng)AI醫生已經(jīng)越來(lái)越近了。

參考資料:

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全