<dl id="gjhds"><acronym id="gjhds"><style id="gjhds"></style></acronym></dl>

<form id="gjhds"><tbody id="gjhds"></tbody></form>

<progress id="gjhds"><pre id="gjhds"></pre></progress>

當前位置：首頁(yè) > 百科 > 正文內容

今年參加高考的AI，分數出來(lái)了

長(cháng)治禮品公司3個(gè)月前 (07-17)百科6

印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà)：138-1621-1622（微信同號）

ChatGPT喜提AI高考狀元！

作者：Jimmy

來(lái)源：三聯(lián)電子廠(chǎng)Pro（ID：cyberlife2024）

這幾天你還在等錄取通知書(shū)嗎？每次高考完，總有一些人特別招人煩。要么是高考博主分享人生感悟，也有復讀班?？蛶悝?估分，最討厭的就屬一群中年人，在那里看著(zhù)作文題高談闊論找存在感。

但他們敢做數學(xué)題嗎？今年之后，AI大概就會(huì )直接斷送了這些人吹牛的機會(huì )，甚至連張雪峰這樣的高考報志愿的投機倒把分子，都再也賣(mài)不出去自己兩萬(wàn)一套的一對一報志愿指導。

01

AI沖上河南一本線(xiàn)

2024年的河南高考分數線(xiàn)已經(jīng)出爐，文科本科一批錄取分數線(xiàn)為521分，理科511分。

眾所周知，河南是人口大省，根據2023年的數據，河南以9605萬(wàn)排名全國第三。相應地，河南也是高考大省，2023年河南高考考生高達131萬(wàn)人。

經(jīng)歷過(guò)高考的人，都會(huì )記得班主任常常會(huì )說(shuō)這樣一句話(huà)：“高考是你們人生中唯一一次公平的競爭”。在全國的大多數省份，考生要想考上心儀的學(xué)校，除了過(guò)線(xiàn)，必須高出分數線(xiàn)不少分才能被錄取，像是清北這樣的名校，甚至要超過(guò)百分。

數據也支持這樣的判斷，以河南省為例，在全國歷年985和211學(xué)校的錄取比例中，河南一直處于倒數5名左右，這意味著(zhù)考生們不僅要和同學(xué)內卷，更要和“名額數量”“錄取比例”斗爭。

如今，高考的賽道上又多了一名新“同學(xué)”。當AI也參與其中之后，所取得的成績(jì)也同樣令人目瞪口呆，并且以我們意想不到的速度進(jìn)步著(zhù)。

在2024年河南省高考新課標Ⅰ卷大模型評測報告中，OpenAI的Chat GPT - 4o以562分在眾多AI中排名文科總分第一。Chat GPT - 4o不愧是全能（4o的o就是“Omini”，全能之意）。國內產(chǎn)品中，字節跳動(dòng)旗下的豆包拔得頭籌，成績(jì)是542.5分，其后依次是吉印通文心一言4.0的537.5分、百川智能“百小應”的521分。

與文科相比，大模型的理科成績(jì)要差很多，最高分還不到480分，大多數大模型的理科總分在400分以下。相比河南理科511分的一本線(xiàn)，大模型尚有較大差距。

各大模型高考評測取得的分數

本次大模型高考評測與河南省高考考卷完全相同，按照錄取分數線(xiàn)，豆包等三款國產(chǎn)AI成功沖上一本線(xiàn)。但如果豆包同學(xué)在河南，恐怕依然上不了一本大學(xué)。

在大模型的各個(gè)科目得分中我們不難發(fā)現，無(wú)論是Chat GPT - 4o還是眾多的國產(chǎn)大模型，都有明顯的劣勢，尤其是數學(xué)和語(yǔ)文的寫(xiě)作，都沒(méi)有獲得太高的分數。

大模型也和人類(lèi)一樣“偏科”

為什么寫(xiě)作無(wú)法獲得高分？原因是Chat GPT實(shí)際上是無(wú)法真正理解問(wèn)題的。Chat GPT所做的是模式匹配，它可以通過(guò)算法找到和輸入問(wèn)題相關(guān)的信息，然后提取出信息中的答案。

這種答案其條理性、邏輯性拉滿(mǎn)，但是在閱卷過(guò)程中，還要考慮人類(lèi)寫(xiě)作的特點(diǎn)，比如遞進(jìn)關(guān)系、思維過(guò)程、層次、修辭等等。在這些方面，人工智能的表現更像是信息的堆砌。

試著(zhù)把大模型的寫(xiě)作給專(zhuān)業(yè)的閱卷老師看，得到了如下回復。老師也是一眼辨識出了大模型寫(xiě)作的結果，現場(chǎng)戳穿，大寫(xiě)的尷尬。

AI寫(xiě)作被一眼認出

02

大模型是數學(xué)學(xué)渣嗎？

既然寫(xiě)作不靈，那以推理與邏輯為主的數學(xué)，為什么大模型反而也得不到高分呢？

還以2024年高考數學(xué)卷中的兩道題為例，從結果中可以看到，國產(chǎn)大模型幾乎全軍覆沒(méi)，只有Chat GPT給出了正確答案，其中一題是這樣的：

甲、乙兩人各有四張卡片，每張卡片上標有一個(gè)數字，甲的卡片分別標有數字 1，3，5，7，乙的卡片上分別標有數字2，4，6，8，兩人進(jìn)行四輪比賽，在每輪比賽中，兩個(gè)各自從自己持有的卡片中隨機選一張，并比較所選卡片的數字的大小，數字大的人得1分，數字小的人得0分，然后各自棄置此輪所選的卡片（棄置的卡片在此后的輪次中不能使用）。則四輪比賽后，甲的總得分小于2的概率為多少？

這道題，我是肯定算不出來(lái)的（你們可以試試），正確答案為1/2。再來(lái)看看大模型的作答結果。

原本以為算概率這種事情，應該是計算機最擅長(cháng)的。結果，國內的8款大模型全部翻車(chē)。

究其原因還要從大模型自身講起，大模型是基于人類(lèi)語(yǔ)言研發(fā)和訓練的，要想準確回答問(wèn)題，首先是要理解人類(lèi)語(yǔ)言，明白題目本身的含義。

來(lái)看一個(gè)非常典型的例子，“3個(gè)蘋(píng)果加2個(gè)梨總共有幾個(gè)水果”，這道小學(xué)生都會(huì )做的題，在大模型誕生之初，給出的回答往往是錯誤或者不知所云的答案，原因就是人類(lèi)可以很容易地把蘋(píng)果和梨抽象為水果，大模型無(wú)法做到。

而隨著(zhù)技術(shù)的進(jìn)步，大模型的進(jìn)步已經(jīng)能夠給出這類(lèi)抽象問(wèn)題的答案，但如果你問(wèn)點(diǎn)復雜的，大模型還是會(huì )胡扯。以足球運動(dòng)員為例：

而正確答案是：

這種抽象的概念，到了高中階段就會(huì )變得更加復雜，無(wú)法將語(yǔ)言題目轉化為數學(xué)公式是大模型是個(gè)數學(xué)學(xué)渣的原因之一。

其次是大模型回答問(wèn)題的方式，前文提到過(guò)，大模型是通過(guò)匹配的方式找尋與之最相關(guān)的內容再通過(guò)縝密的邏輯組合成答案。

比如我們讓模型畫(huà)一幅人類(lèi)肖像，在模型的訓練數據中海量的關(guān)系證明，眼睛下方是鼻子，鼻子下方是嘴，所以模型很容易通過(guò)找尋匹配的方式畫(huà)出與要求相近的答案。因為結果單一，但文字不然。比如我們提到一款手機，那與之相關(guān)的內容可能是電路板，可能是價(jià)格，可能是品牌，大模型需要不斷地推理，找到最近似的結果。這就是所謂的擴散模型。

所以當給到模型的信息不全，或者存在很多隱含寓意的時(shí)候，模型就開(kāi)始了一本正經(jīng)地胡說(shuō)八道，這就是我們常說(shuō)的“模型幻覺(jué)”。

問(wèn)題其實(shí)是在問(wèn)我有多少個(gè)水果，Chat GPT回答為16，它沒(méi)有正確理解“banana weighs 0.5 lbs and I have 7 lbs”這句話(huà)的含義，正確答案應該是7/0.5+9=23個(gè)。

03

看不見(jiàn)的“試卷”

看多了大模型不著(zhù)邊際的答案以及一本正經(jīng)的胡說(shuō)八道之后，我們甚至會(huì )懷疑號稱(chēng)顛覆性的大模型技術(shù)，連小學(xué)數學(xué)都做不利索，到底行不行？

答案是肯定的，大模型在很多專(zhuān)業(yè)領(lǐng)域，尤其是尖端科學(xué)領(lǐng)域，依然是人類(lèi)社會(huì )的希望。

海量數據的處理能力

雖然在大模型之前也有類(lèi)似的數據中心、超級計算機，但是其本質(zhì)區別還是方法。傳統的方法是查找與匹配，找到近似的結果給用戶(hù)展示，大模型的工作機制除了查找與匹配之外還有推理，簡(jiǎn)單說(shuō)就是能夠像人一樣思考。這樣給出的結果更加精確。

泛化能力

我們都遇到過(guò)使用吉印通的時(shí)候搜不到結果的情況，是因為對于未知數據確實(shí)是找不到結果的，機器也給了正確的返回。但其實(shí)機器并沒(méi)有思考輸入問(wèn)題的本質(zhì)，大模型可以通過(guò)不斷地理解和泛化，適應新的未曾見(jiàn)過(guò)的數據。

自我學(xué)習進(jìn)化能力

目前人類(lèi)自誕生以來(lái)有文字記載的各種知識、數據、資料都可以作為訓練的數據，以Chat GPT - 4o為例，據OpenAI表示大概已經(jīng)把目前人類(lèi)的知識都看過(guò)一遍了。模型本身會(huì )不斷進(jìn)化，這個(gè)過(guò)程時(shí)刻都在發(fā)生。

基于這些強大基因，大模型已經(jīng)被應用于很多專(zhuān)業(yè)領(lǐng)域，并取得了前人無(wú)法企及的成果。

一群來(lái)自上海財經(jīng)大學(xué)、哈爾濱工業(yè)大學(xué)（深圳）、北京語(yǔ)言大學(xué)、西安電子科技大學(xué)、加拿大皇后大學(xué)以及萬(wàn)得信息技術(shù)吉印通的博士生和工程師收集了超過(guò)三萬(wàn)七千個(gè)問(wèn)題，以及對應的超過(guò)8萬(wàn)條人類(lèi)專(zhuān)家回答和超過(guò)4萬(wàn)條Chat GPT回答。覆蓋了開(kāi)放域、計算機、金融、醫療、法律、心理學(xué)等多個(gè)領(lǐng)域。對比大模型和專(zhuān)家的作答。評判標準是在雙盲的情況下看誰(shuí)的答案更加有用？結果如下：

大模型的答案略勝于人類(lèi)專(zhuān)家，但是如果被評測者被告知哪個(gè)是大模型的話(huà)，結果是專(zhuān)家答案反超20%。可見(jiàn)大模型在專(zhuān)業(yè)知識方面接近人類(lèi)專(zhuān)家水平，專(zhuān)家的優(yōu)勢在于能夠簡(jiǎn)明扼要，直指核心，而大模型的回答略顯拖沓和格式化。

心理學(xué)領(lǐng)域，大模型在情感上比人類(lèi)更中立，甚至偏積極，能夠更好地提供情緒支持和疏導。

在表述的方式上，人類(lèi)比大模型擁有更大的詞匯量且回答更加簡(jiǎn)短。

除了普遍的語(yǔ)言問(wèn)答，大模型在推理上也是大放光彩。

Google DEEP MIND 公司的Alphafold3發(fā)布，生物領(lǐng)域Al即將參與人類(lèi)的生老病死

一款藥物從開(kāi)始研發(fā)到上市銷(xiāo)售要經(jīng)歷漫長(cháng)的時(shí)間，極端情況下，有些科學(xué)家甚至都看不到“孩子”上市就已經(jīng)離世。更別說(shuō)研發(fā)期間巨大的資金消耗。所以像《我不是藥神》中提到的“格列衛”，也經(jīng)歷了漫長(cháng)的歲月。而作為壟斷企業(yè)的藥企，顯然不會(huì )輕易地交出專(zhuān)利。

但大模型的出現讓這個(gè)過(guò)程至少提高了36%的速度，其重要的功能就是在推測先導藥物分子式這一過(guò)程中，通過(guò)模型極強的學(xué)習和推理能力，極大地加快了發(fā)現新的分子式（新藥物基礎）的過(guò)程。

也許幾年后就會(huì )有無(wú)數種新藥問(wèn)世，它們可以治療多種目前束手無(wú)策的病癥，并大幅降低研發(fā)成本，而最終受益的依然是患者和家屬。整個(gè)人類(lèi)群體的壽命和生活質(zhì)量也將同步提升。

04

關(guān)閉對中國的接口，更大的機會(huì )？

前幾天openAI宣布禁止中國地區用戶(hù)使用API（應用編程接口）方式訪(fǎng)問(wèn)其服務(wù)，技術(shù)壟斷的背后，中國也在不遺余力地研發(fā)自己的技術(shù)。在同樣的技術(shù)背景下，其商業(yè)模式以及對用戶(hù)的影響，中美可能會(huì )走上兩條不同的路線(xiàn)。

如果回顧一下AI的上一波浪潮，即移動(dòng)互聯(lián)網(wǎng)，不難發(fā)現，同樣的技術(shù)和終端，在商業(yè)模式上走上了兩條不同的道路。

細數移動(dòng)互聯(lián)網(wǎng)誕生的十余年里，以原創(chuàng )產(chǎn)品為標準。中國涌現出了支付寶，字節跳動(dòng)，美團網(wǎng)，共享自行車(chē)，短視頻，直播帶貨，手機游戲等。反觀(guān)美國企業(yè)則主要集中在生態(tài)和更上游，比如硬件制造的蘋(píng)果，操作系統安卓和iOS，云服務(wù)器等，元宇宙等。

再看當下的AI生態(tài)，中國的公司更聚焦在終端用戶(hù)的身上，比如AI虛擬人、AI繪圖作畫(huà)、AI寫(xiě)ppt、AI做吉印通模特圖、AI試衣等等。并把上一波浪潮中的經(jīng)驗完美融合其中，比如會(huì )員制訂閱收費、營(yíng)銷(xiāo)手段等等。移動(dòng)互聯(lián)網(wǎng)“先圈用戶(hù)再賺錢(qián)”這個(gè)邏輯一直被默默地繼承了下來(lái)。

AI作圖的生硬“直譯”

誠然，美國也有多如牛毛的類(lèi)似公司，比如C.AI（虛擬人）、Notion（寫(xiě)作）、Replica（元宇宙）、Cavana（創(chuàng )意），但是目前在硅谷投資行業(yè)中更為投資人看好的，并已經(jīng)實(shí)現盈利的卻是一些“to B”（面向企業(yè)）的生意。有個(gè)很生動(dòng)的例子，闡釋了AI的巨大作用。

美國有一種工傷保險，當員工因公受傷在家休養期間，保險公司會(huì )支付50%的薪水給員工，該保險由企業(yè)投保，員工受益。但是在被保險客戶(hù)中，其傷愈的時(shí)間是因人而異的，很多人并不知道自己已經(jīng)可以回去上班領(lǐng)全額的薪水，也不知道自己的醫療到何種階段。這項工作以前是由人工完成的，即保險公司致電每一個(gè)可以或即將可以上班的員工返回工作崗位。顯然這是極其低效的。AI應用在電話(huà)回訪(fǎng)之后極大地提高了效率和準確性，AI接收醫院的醫療信息，找出對應的被保險人，然后撥打電話(huà)，無(wú)需任何人為干預，一天可以打幾百上千個(gè)電話(huà)。而一旦被保險人返回工作，保險公司便可以停止支付工傷期間的薪水。據統計一年下來(lái)，僅這一項應用為該公司節省了至少6000萬(wàn)美元的保費。

所以，一個(gè)現存的需求，利用AI的高效率解決問(wèn)題。這種生意顯然Open AI不會(huì )做，馬斯克也不會(huì )做，足夠的垂直和足夠大的體量，是極度受投資者青睞的。

反觀(guān)中國對于A(yíng)I的投資，呈現兩種截然不同的境遇，其一是大廠(chǎng)做AI，不差錢(qián)但不能錯過(guò)風(fēng)口，擔心“別人有我沒(méi)有”是戰略決策失誤，怕被落下。另一種是大模型套娃，大多雷同，投資人認為門(mén)檻低復制簡(jiǎn)單，也沒(méi)有競爭優(yōu)勢，絕大多數被冷遇。

留給中國大模型的機會(huì )很多，參加高考不過(guò)是牛刀小試，成績(jì)也不會(huì )像很多人進(jìn)了復讀班一樣，不升反降。AI能為人類(lèi)提供更精密的推導，更厲害的算力，我們很高興能看到這些被應用在藥物研究、外太空探索之上。

但就像一個(gè)孩子說(shuō)的一樣：科技是為人類(lèi)服務(wù)的。大模型的出現，是希望能夠給人類(lèi)提供更多的機會(huì )和便捷的生活方式，而不是以一些急功近利的方式，去剝奪人們賴(lài)以生存的手段。或許，智能駕駛是解決交通擁堵和未來(lái)人類(lèi)出行的手段，但擠占人類(lèi)的生存空間的方式，顯然不是人工智能的初衷。

過(guò)去一年，ChatGPT吃了多少官司？

*免責聲明：本文章為作者獨立觀(guān)點(diǎn)，不代表i黑馬立場(chǎng)。

加入科技交流群

加入“AI應用伙伴計劃”

成為 AI 產(chǎn)業(yè)新力量

立即報名

聯(lián)系我們

轉載開(kāi)白或商務(wù)合作：15222191516

與主編交流溝通：chenfu3721

i黑馬，創(chuàng )業(yè)黑馬旗下媒體，讓創(chuàng )業(yè)者不再孤獨。

☆收藏0

標簽: Chat GPT

返回列表

上一篇：WPS、字節跳動(dòng)緊急回應！AI訓練再惹爭議

下一篇：中國AI創(chuàng )業(yè)圈為何被“清華系”“交大幫”包圍？

發(fā)表評論

中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全

<menuitem id="octkf"><pre id="octkf"></pre></menuitem>