當前位置:首頁(yè) > 百科 > 正文內容

今年參加高考的AI,分數出來(lái)了

長(cháng)治禮品公司3個(gè)月前 (07-17)百科6
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

ChatGPT喜提AI高考狀元!

作者:Jimmy

來(lái)源:三聯(lián)電子廠(chǎng)Pro(ID:cyberlife2024)

這幾天你還在等錄取通知書(shū)嗎?每次高考完,總有一些人特別招人煩。要么是高考博主分享人生感悟,也有復讀班??蛶悝?估分,最討厭的就屬一群中年人,在那里看著(zhù)作文題高談闊論找存在感。

但他們敢做數學(xué)題嗎?今年之后,AI大概就會(huì )直接斷送了這些人吹牛的機會(huì ),甚至連張雪峰這樣的高考報志愿的投機倒把分子,都再也賣(mài)不出去自己兩萬(wàn)一套的一對一報志愿指導。

01

AI沖上河南一本線(xiàn)

2024年的河南高考分數線(xiàn)已經(jīng)出爐,文科本科一批錄取分數線(xiàn)為521分,理科511分。

眾所周知,河南是人口大省,根據2023年的數據,河南以9605萬(wàn)排名全國第三。相應地,河南也是高考大省,2023年河南高考考生高達131萬(wàn)人。

經(jīng)歷過(guò)高考的人,都會(huì )記得班主任常常會(huì )說(shuō)這樣一句話(huà):“高考是你們人生中唯一一次公平的競爭”。在全國的大多數省份,考生要想考上心儀的學(xué)校,除了過(guò)線(xiàn),必須高出分數線(xiàn)不少分才能被錄取,像是清北這樣的名校,甚至要超過(guò)百分。

數據也支持這樣的判斷,以河南省為例,在全國歷年985和211學(xué)校的錄取比例中,河南一直處于倒數5名左右,這意味著(zhù)考生們不僅要和同學(xué)內卷,更要和“名額數量”“錄取比例”斗爭。

如今,高考的賽道上又多了一名新“同學(xué)”。當AI也參與其中之后,所取得的成績(jì)也同樣令人目瞪口呆,并且以我們意想不到的速度進(jìn)步著(zhù)。

在2024年河南省高考新課標Ⅰ卷大模型評測報告中,OpenAI的Chat GPT - 4o以562分在眾多AI中排名文科總分第一。Chat GPT - 4o不愧是全能(4o的o就是“Omini”,全能之意)。國內產(chǎn)品中,字節跳動(dòng)旗下的豆包拔得頭籌,成績(jì)是542.5分,其后依次是吉印通文心一言4.0的537.5分、百川智能“百小應”的521分。

與文科相比,大模型的理科成績(jì)要差很多,最高分還不到480分,大多數大模型的理科總分在400分以下。相比河南理科511分的一本線(xiàn),大模型尚有較大差距。

各大模型高考評測取得的分數

本次大模型高考評測與河南省高考考卷完全相同,按照錄取分數線(xiàn),豆包等三款國產(chǎn)AI成功沖上一本線(xiàn)。但如果豆包同學(xué)在河南,恐怕依然上不了一本大學(xué)。

在大模型的各個(gè)科目得分中我們不難發(fā)現,無(wú)論是Chat GPT - 4o還是眾多的國產(chǎn)大模型,都有明顯的劣勢,尤其是數學(xué)和語(yǔ)文的寫(xiě)作,都沒(méi)有獲得太高的分數。

大模型也和人類(lèi)一樣“偏科”

為什么寫(xiě)作無(wú)法獲得高分?原因是Chat GPT實(shí)際上是無(wú)法真正理解問(wèn)題的。Chat GPT所做的是模式匹配,它可以通過(guò)算法找到和輸入問(wèn)題相關(guān)的信息,然后提取出信息中的答案。

這種答案其條理性、邏輯性拉滿(mǎn),但是在閱卷過(guò)程中,還要考慮人類(lèi)寫(xiě)作的特點(diǎn),比如遞進(jìn)關(guān)系、思維過(guò)程、層次、修辭等等。在這些方面,人工智能的表現更像是信息的堆砌。

試著(zhù)把大模型的寫(xiě)作給專(zhuān)業(yè)的閱卷老師看,得到了如下回復。老師也是一眼辨識出了大模型寫(xiě)作的結果,現場(chǎng)戳穿,大寫(xiě)的尷尬。

AI寫(xiě)作被一眼認出

02

大模型是數學(xué)學(xué)渣嗎?

既然寫(xiě)作不靈,那以推理與邏輯為主的數學(xué),為什么大模型反而也得不到高分呢?

還以2024年高考數學(xué)卷中的兩道題為例,從結果中可以看到,國產(chǎn)大模型幾乎全軍覆沒(méi),只有Chat GPT給出了正確答案,其中一題是這樣的:

甲、乙兩人各有四張卡片,每張卡片上標有一個(gè)數字,甲的卡片分別標有數字 1,3,5,7,乙的卡片上分別標有數字2,4,6,8,兩人進(jìn)行四輪比賽,在每輪比賽中,兩個(gè)各自從自己持有的卡片中隨機選一張,并比較所選卡片的數字的大小,數字大的人得1分,數字小的人得0分,然后各自棄置此輪所選的卡片(棄置的卡片在此后的輪次中不能使用)。則四輪比賽后,甲的總得分小于2的概率為多少?

這道題,我是肯定算不出來(lái)的(你們可以試試),正確答案為1/2。再來(lái)看看大模型的作答結果。

原本以為算概率這種事情,應該是計算機最擅長(cháng)的。結果,國內的8款大模型全部翻車(chē)。

究其原因還要從大模型自身講起,大模型是基于人類(lèi)語(yǔ)言研發(fā)和訓練的,要想準確回答問(wèn)題,首先是要理解人類(lèi)語(yǔ)言,明白題目本身的含義。

來(lái)看一個(gè)非常典型的例子,“3個(gè)蘋(píng)果加2個(gè)梨總共有幾個(gè)水果”,這道小學(xué)生都會(huì )做的題,在大模型誕生之初,給出的回答往往是錯誤或者不知所云的答案,原因就是人類(lèi)可以很容易地把蘋(píng)果和梨抽象為水果,大模型無(wú)法做到。

而隨著(zhù)技術(shù)的進(jìn)步,大模型的進(jìn)步已經(jīng)能夠給出這類(lèi)抽象問(wèn)題的答案,但如果你問(wèn)點(diǎn)復雜的,大模型還是會(huì )胡扯。以足球運動(dòng)員為例:

而正確答案是:

這種抽象的概念,到了高中階段就會(huì )變得更加復雜,無(wú)法將語(yǔ)言題目轉化為數學(xué)公式是大模型是個(gè)數學(xué)學(xué)渣的原因之一。

其次是大模型回答問(wèn)題的方式,前文提到過(guò),大模型是通過(guò)匹配的方式找尋與之最相關(guān)的內容再通過(guò)縝密的邏輯組合成答案。

比如我們讓模型畫(huà)一幅人類(lèi)肖像,在模型的訓練數據中海量的關(guān)系證明,眼睛下方是鼻子,鼻子下方是嘴,所以模型很容易通過(guò)找尋匹配的方式畫(huà)出與要求相近的答案。因為結果單一,但文字不然。比如我們提到一款手機,那與之相關(guān)的內容可能是電路板,可能是價(jià)格,可能是品牌,大模型需要不斷地推理,找到最近似的結果。這就是所謂的擴散模型。

所以當給到模型的信息不全,或者存在很多隱含寓意的時(shí)候,模型就開(kāi)始了一本正經(jīng)地胡說(shuō)八道,這就是我們常說(shuō)的“模型幻覺(jué)”。

問(wèn)題其實(shí)是在問(wèn)我有多少個(gè)水果,Chat GPT回答為16,它沒(méi)有正確理解“banana weighs 0.5 lbs and I have 7 lbs”這句話(huà)的含義,正確答案應該是7/0.5+9=23個(gè)。

03

看不見(jiàn)的“試卷”

看多了大模型不著(zhù)邊際的答案以及一本正經(jīng)的胡說(shuō)八道之后,我們甚至會(huì )懷疑號稱(chēng)顛覆性的大模型技術(shù),連小學(xué)數學(xué)都做不利索,到底行不行?

答案是肯定的,大模型在很多專(zhuān)業(yè)領(lǐng)域,尤其是尖端科學(xué)領(lǐng)域,依然是人類(lèi)社會(huì )的希望。

海量數據的處理能力

雖然在大模型之前也有類(lèi)似的數據中心、超級計算機,但是其本質(zhì)區別還是方法。傳統的方法是查找與匹配,找到近似的結果給用戶(hù)展示,大模型的工作機制除了查找與匹配之外還有推理,簡(jiǎn)單說(shuō)就是能夠像人一樣思考。這樣給出的結果更加精確。

泛化能力

我們都遇到過(guò)使用吉印通的時(shí)候搜不到結果的情況,是因為對于未知數據確實(shí)是找不到結果的,機器也給了正確的返回。但其實(shí)機器并沒(méi)有思考輸入問(wèn)題的本質(zhì),大模型可以通過(guò)不斷地理解和泛化,適應新的未曾見(jiàn)過(guò)的數據。

自我學(xué)習進(jìn)化能力

目前人類(lèi)自誕生以來(lái)有文字記載的各種知識、數據、資料都可以作為訓練的數據,以Chat GPT - 4o為例,據OpenAI表示大概已經(jīng)把目前人類(lèi)的知識都看過(guò)一遍了。模型本身會(huì )不斷進(jìn)化,這個(gè)過(guò)程時(shí)刻都在發(fā)生。

基于這些強大基因,大模型已經(jīng)被應用于很多專(zhuān)業(yè)領(lǐng)域,并取得了前人無(wú)法企及的成果。

一群來(lái)自上海財經(jīng)大學(xué)、哈爾濱工業(yè)大學(xué)(深圳)、北京語(yǔ)言大學(xué)、西安電子科技大學(xué)、加拿大皇后大學(xué)以及萬(wàn)得信息技術(shù)吉印通的博士生和工程師收集了超過(guò)三萬(wàn)七千個(gè)問(wèn)題,以及對應的超過(guò)8萬(wàn)條人類(lèi)專(zhuān)家回答和超過(guò)4萬(wàn)條Chat GPT回答。覆蓋了開(kāi)放域、計算機、金融、醫療、法律、心理學(xué)等多個(gè)領(lǐng)域。對比大模型和專(zhuān)家的作答。評判標準是在雙盲的情況下看誰(shuí)的答案更加有用?結果如下:

大模型的答案略勝于人類(lèi)專(zhuān)家,但是如果被評測者被告知哪個(gè)是大模型的話(huà),結果是專(zhuān)家答案反超20%。可見(jiàn)大模型在專(zhuān)業(yè)知識方面接近人類(lèi)專(zhuān)家水平,專(zhuān)家的優(yōu)勢在于能夠簡(jiǎn)明扼要,直指核心,而大模型的回答略顯拖沓和格式化。

心理學(xué)領(lǐng)域,大模型在情感上比人類(lèi)更中立,甚至偏積極,能夠更好地提供情緒支持和疏導。

在表述的方式上,人類(lèi)比大模型擁有更大的詞匯量且回答更加簡(jiǎn)短。

除了普遍的語(yǔ)言問(wèn)答,大模型在推理上也是大放光彩。

Google DEEP MIND 公司的Alphafold3發(fā)布,生物領(lǐng)域Al即將參與人類(lèi)的生老病死

一款藥物從開(kāi)始研發(fā)到上市銷(xiāo)售要經(jīng)歷漫長(cháng)的時(shí)間,極端情況下,有些科學(xué)家甚至都看不到“孩子”上市就已經(jīng)離世。更別說(shuō)研發(fā)期間巨大的資金消耗。所以像《我不是藥神》中提到的“格列衛”,也經(jīng)歷了漫長(cháng)的歲月。而作為壟斷企業(yè)的藥企,顯然不會(huì )輕易地交出專(zhuān)利。

但大模型的出現讓這個(gè)過(guò)程至少提高了36%的速度,其重要的功能就是在推測先導藥物分子式這一過(guò)程中,通過(guò)模型極強的學(xué)習和推理能力,極大地加快了發(fā)現新的分子式(新藥物基礎)的過(guò)程。

也許幾年后就會(huì )有無(wú)數種新藥問(wèn)世,它們可以治療多種目前束手無(wú)策的病癥,并大幅降低研發(fā)成本,而最終受益的依然是患者和家屬。整個(gè)人類(lèi)群體的壽命和生活質(zhì)量也將同步提升。

04

關(guān)閉對中國的接口,更大的機會(huì )?

前幾天openAI宣布禁止中國地區用戶(hù)使用API(應用編程接口)方式訪(fǎng)問(wèn)其服務(wù),技術(shù)壟斷的背后,中國也在不遺余力地研發(fā)自己的技術(shù)。在同樣的技術(shù)背景下,其商業(yè)模式以及對用戶(hù)的影響,中美可能會(huì )走上兩條不同的路線(xiàn)。

如果回顧一下AI的上一波浪潮,即移動(dòng)互聯(lián)網(wǎng),不難發(fā)現,同樣的技術(shù)和終端,在商業(yè)模式上走上了兩條不同的道路。

細數移動(dòng)互聯(lián)網(wǎng)誕生的十余年里,以原創(chuàng )產(chǎn)品為標準。中國涌現出了支付寶,字節跳動(dòng),美團網(wǎng),共享自行車(chē),短視頻,直播帶貨,手機游戲等。反觀(guān)美國企業(yè)則主要集中在生態(tài)和更上游,比如硬件制造的蘋(píng)果,操作系統安卓和iOS,云服務(wù)器等,元宇宙等。

再看當下的AI生態(tài),中國的公司更聚焦在終端用戶(hù)的身上,比如AI虛擬人、AI繪圖作畫(huà)、AI寫(xiě)ppt、AI做吉印通模特圖、AI試衣等等。并把上一波浪潮中的經(jīng)驗完美融合其中,比如會(huì )員制訂閱收費、營(yíng)銷(xiāo)手段等等。移動(dòng)互聯(lián)網(wǎng)“先圈用戶(hù)再賺錢(qián)”這個(gè)邏輯一直被默默地繼承了下來(lái)。

AI作圖的生硬“直譯”

誠然,美國也有多如牛毛的類(lèi)似公司,比如C.AI(虛擬人)、Notion(寫(xiě)作)、Replica(元宇宙)、Cavana(創(chuàng )意),但是目前在硅谷投資行業(yè)中更為投資人看好的,并已經(jīng)實(shí)現盈利的卻是一些“to B”(面向企業(yè))的生意。有個(gè)很生動(dòng)的例子,闡釋了AI的巨大作用。

美國有一種工傷保險,當員工因公受傷在家休養期間,保險公司會(huì )支付50%的薪水給員工,該保險由企業(yè)投保,員工受益。但是在被保險客戶(hù)中,其傷愈的時(shí)間是因人而異的,很多人并不知道自己已經(jīng)可以回去上班領(lǐng)全額的薪水,也不知道自己的醫療到何種階段。這項工作以前是由人工完成的,即保險公司致電每一個(gè)可以或即將可以上班的員工返回工作崗位。顯然這是極其低效的。AI應用在電話(huà)回訪(fǎng)之后極大地提高了效率和準確性,AI接收醫院的醫療信息,找出對應的被保險人,然后撥打電話(huà),無(wú)需任何人為干預,一天可以打幾百上千個(gè)電話(huà)。而一旦被保險人返回工作,保險公司便可以停止支付工傷期間的薪水。據統計一年下來(lái),僅這一項應用為該公司節省了至少6000萬(wàn)美元的保費。

所以,一個(gè)現存的需求,利用AI的高效率解決問(wèn)題。這種生意顯然Open AI不會(huì )做,馬斯克也不會(huì )做,足夠的垂直和足夠大的體量,是極度受投資者青睞的。

反觀(guān)中國對于A(yíng)I的投資,呈現兩種截然不同的境遇,其一是大廠(chǎng)做AI,不差錢(qián)但不能錯過(guò)風(fēng)口,擔心“別人有我沒(méi)有”是戰略決策失誤,怕被落下。另一種是大模型套娃,大多雷同,投資人認為門(mén)檻低復制簡(jiǎn)單,也沒(méi)有競爭優(yōu)勢,絕大多數被冷遇。

留給中國大模型的機會(huì )很多,參加高考不過(guò)是牛刀小試,成績(jì)也不會(huì )像很多人進(jìn)了復讀班一樣,不升反降。AI能為人類(lèi)提供更精密的推導,更厲害的算力,我們很高興能看到這些被應用在藥物研究、外太空探索之上。

但就像一個(gè)孩子說(shuō)的一樣:科技是為人類(lèi)服務(wù)的。大模型的出現,是希望能夠給人類(lèi)提供更多的機會(huì )和便捷的生活方式,而不是以一些急功近利的方式,去剝奪人們賴(lài)以生存的手段。或許,智能駕駛是解決交通擁堵和未來(lái)人類(lèi)出行的手段,但擠占人類(lèi)的生存空間的方式,顯然不是人工智能的初衷。

過(guò)去一年,ChatGPT吃了多少官司?

*免責聲明:本文章為作者獨立觀(guān)點(diǎn),不代表i黑馬立場(chǎng)。

加入科技交流群

加入“AI應用伙伴計劃”

成為 AI 產(chǎn)業(yè)新力量

立即報名

聯(lián)系我們

轉載開(kāi)白或商務(wù)合作:15222191516

與主編交流溝通:chenfu3721

i黑馬,創(chuàng )業(yè)黑馬旗下媒體,讓創(chuàng )業(yè)者不再孤獨。

收藏0
標簽: ChatGPT

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全