AI教父拿下諾獎,卻很后悔
看點(diǎn) 今年諾貝爾化學(xué)和物理學(xué)獎都和AI“干上了”。就比如這次諾貝爾物理學(xué)獎,沒(méi)有給予物理學(xué)的“熱門(mén)”行當,而是給了AI革命的大師與教父。而坐“冷板凳”一坐就是二十多年的他們,也再次驗證了一條容易被忽略的真理——有時(shí)候,成功來(lái)源于走在前方無(wú)人小徑時(shí),最大程度地堅持自我。
本文轉載自*:南風(fēng)窗 (ID: SouthReviews)
文丨朱秋雨 編輯丨向由 排版 丨Lulu
10月8日,2024年物理學(xué)獎花落兩位“冷門(mén)學(xué)者”:91歲高齡的 約翰·霍普菲爾德(John Hopfield)和77歲的 杰弗里·辛頓(Geoffrey Hinton)。
這是令人意外的一次頒獎。畢竟,數個(gè)諾獎預測都相信,物理獎應該是天體物理、粒子物理、應用物理、量子物理、凝聚態(tài)物理、經(jīng)典物理、原子分子和光物理七大類(lèi)中的一個(gè)。諾貝爾物理學(xué)獎不應是兩個(gè)研究機器學(xué)習(Machine Learning)、掀開(kāi)當前人工智能(AI)革命的大師與教父。
被稱(chēng)為“AI教父”的辛頓自己沒(méi)有想到,一個(gè)身體不好,坐不了飛機,三任妻子都死于癌癥的男人,會(huì )收到諾貝爾物理學(xué)獎獲獎的通知電話(huà)。
而仔細查看他們的研究會(huì )發(fā)現 ,在終其一生的思索里,他們都在試圖用數學(xué)系統發(fā)明計算機神經(jīng)網(wǎng)絡(luò ),模擬人類(lèi)大腦工作。
人腦有100萬(wàn)億個(gè)神經(jīng)元連接,隨時(shí)隨地在互動(dòng)與發(fā)射信號,像深海般充滿(mǎn)奧秘。要想實(shí)現神經(jīng)網(wǎng)絡(luò )的野心,他們不可避免地運用物理、生物、心理學(xué)等領(lǐng)域的知識與靈感。
于是,1980年代,兩個(gè)跨學(xué)科的天才都提出了令21世紀驚嘆的發(fā)現:
約翰·霍普菲爾德運用物理學(xué)原子自旋原理,發(fā)明了一種得以保存記憶的神經(jīng)網(wǎng)絡(luò )。后人以他的名字命名,Hopfield神經(jīng)網(wǎng)絡(luò )。
至于教父辛頓,他以Hopfield網(wǎng)絡(luò )為基礎,開(kāi)發(fā)了一種新的神經(jīng)網(wǎng)絡(luò ):玻爾茲曼機(Boltzmann machine)。這個(gè)晦澀的新詞,靈感同樣來(lái)源于物理學(xué)——奧地利物理學(xué)家路德維?!げ柶澛倌昵疤岢龅睦碚?,涉及一個(gè)與AI完全無(wú)關(guān)的現象(加熱氣體中粒子的平衡)。
科學(xué)的突破與發(fā)現并非一蹴而就。人工智能在過(guò)往30多年發(fā)展起起伏伏,充滿(mǎn)嘈雜聲響,信念不斷被推倒又重建。
以辛頓為代表的AI學(xué)者,用他們的人生證明: 有時(shí)候,成功來(lái)源于走在前方無(wú)人小徑時(shí),最大程度地堅持自我。
處處碰壁的天才
77歲的杰弗里·辛頓,隨著(zhù)ChatGPT等大模型的火爆,在近年越來(lái)越名聲大噪。他早已是圖靈獎得主,密集地接受各方采訪(fǎng)。
不過(guò), 說(shuō)的內容并非所有人都愛(ài)聽(tīng)。就像那位不茍言笑的核物理專(zhuān)家?jiàn)W本海默,他張口閉口說(shuō)AI可能對人類(lèi)的威脅,強大的超級人工智能會(huì )讓人類(lèi)進(jìn)入末世,仿佛這個(gè)工具是別人發(fā)明的一樣。
杰弗里·辛頓
除了這種看似知識分子的反思與懺悔,真正接觸過(guò)辛頓的記者,都在回頭書(shū)寫(xiě)時(shí)記錄下了對他的印象:身體不好。
從2005年開(kāi)始,辛頓的腰背部出現問(wèn)題。他開(kāi)始很難坐立,不敢搭乘飛機出行,平時(shí)辦公也是站著(zhù)的。遇上商務(wù)宴席,他也不能坐在椅子上,而是選擇雙腿跪在地上,經(jīng)常換來(lái)服務(wù)員奇怪的眼光。
他曾形容自己破爛的身體:“我每天都很煎熬,情況發(fā)展到了可能會(huì )癱瘓的地步,所以我很認真地對待這件事。如果我能完全控制自己的生活,它就不會(huì )帶來(lái)任何問(wèn)題。”
失去控制總是讓人心生絕望,但在辛頓的人生里,他從來(lái)都是與缺乏確定性、無(wú)法受控的事情相伴。
1947年,辛頓出生在英國一個(gè)科學(xué)家和教授世家,父親是研究甲蟲(chóng)的劍橋生物學(xué)家。
他的親戚們還包括《牛虻》的作者艾捷爾·伏尼契;“中國人的好朋友”、寫(xiě)中國土地革命《翻身》的作者韓??;參加曼哈頓計劃的女核物理學(xué)家寒春……
而在十幾歲時(shí),早慧的辛頓已經(jīng)遇上了促使他思考一生的命題。
他回憶,那是高中時(shí)期,一位朋友問(wèn)他,“你知道嗎?大腦的記憶并不是儲存在某個(gè)特定的地方,而是分布在整個(gè)大腦,在整個(gè)神經(jīng)網(wǎng)絡(luò )里傳播,就像全息圖一樣工作。”
他從此開(kāi)始對人腦機制產(chǎn)生了濃厚興趣。
大學(xué)期間,因為這個(gè)問(wèn)題,辛頓曾學(xué)過(guò)5個(gè)專(zhuān)業(yè),先是數、理、化,大二時(shí)又學(xué)了哲學(xué)、建筑學(xué),后來(lái)又攻讀了心理學(xué)。四年大學(xué)讓他發(fā)現,所有的這些學(xué)科都無(wú)法解答人腦神經(jīng)元如何連接并工作的奧秘。最終,畢業(yè)后的辛頓選擇當一名木匠。
當木匠可以讓人收獲平靜,這是他高中時(shí)期最高興的活。只是,這位天真的知識分子也發(fā)現,沒(méi)有內耗的活往往匹配較低的薪水,他不適合用此謀生。這段日子里,一到周末,他就到圖書(shū)館自學(xué)大腦工作原理。
1972年,他再度“轉行”。憑借發(fā)表論文,他到愛(ài)丁堡大學(xué)就讀人工智能學(xué)的博士——又是一個(gè)全新的領(lǐng)域。
盡管他不熟悉計算機科學(xué),辛頓卻有著(zhù)自己的直覺(jué)和信念。不巧的是,此時(shí)正值人工智能的寒冬,人們從過(guò)往對AI的極度樂(lè )觀(guān),到被冰冷的現實(shí)鞭打至谷底。
1971年,英國政府進(jìn)行了一項人工智能進(jìn)展的研究,結果顯示,“大多數人工智能研究和相關(guān)工作人員承認,他們對過(guò)去25年取得的成就感到非常失望”。
報告稱(chēng):“迄今為止,AI在任何地方取得的成果,都沒(méi)有實(shí)現它當初承諾的重大影響。”
令人沮喪的結果并非致命的,更大的問(wèn)題是, 在當時(shí)人工智能界,人們開(kāi)始廣泛地懷疑從前的信念,即運用模擬人腦的神經(jīng)網(wǎng)絡(luò ),進(jìn)行機器學(xué)習(神經(jīng)網(wǎng)絡(luò )只是眾多機器學(xué)習算法和模型的一種)。
最著(zhù)名的論斷來(lái)自于當時(shí)的“人工智能之父”馬文·明斯基。他對模擬人腦的“聯(lián)結主義”派表示公開(kāi)懷疑,認為計算機如果要擁有人類(lèi)智能,必須用屬于計算機的方式來(lái)實(shí)現。
1969年,他為此專(zhuān)門(mén)寫(xiě)了一本書(shū),寫(xiě)道,“多層感知機(1960年代的一種神經(jīng)網(wǎng)絡(luò ))不會(huì )有發(fā)展前景,因為世界上沒(méi)人可以將多層感知機訓練得足夠好,哪怕是令它可以學(xué)會(huì )最簡(jiǎn)單的函數方法。”
明斯基的論斷解釋了AI為何過(guò)去失敗了,也讓人們重新?lián)肀Я甩偊傂碌脑妇啊柸斯ぶ悄?。?/p>
1972年,連辛頓的博士導師朗吉特·希金斯都被明斯基的理論說(shuō)服了。他開(kāi)始勸說(shuō)自己的學(xué)生,換一個(gè)有前途的方向吧,別做神經(jīng)網(wǎng)絡(luò )了。
辛頓回憶:“我們每周見(jiàn)一次面,有時(shí)會(huì )以一場(chǎng)大喊大叫的爭論結束。”
《我,機器人》劇照
博士期間,他的研究方向始終與導師期望的背道而馳。辛頓說(shuō),他認可明斯基指出的神經(jīng)網(wǎng)絡(luò )的缺陷,但與多數人的選擇不同,他想繼續往“有缺陷的方向”前進(jìn),完善前人指出的漏洞。
至于他能這么做的原因,辛頓回憶,這可能是源于他從小在宗教學(xué)校上學(xué),卻是全班唯一不信仰宗教的人。
“這對科學(xué)家是一種很好的訓練,讓你對自己的觀(guān)點(diǎn)充滿(mǎn)信心。 每個(gè)人都可能是錯的,你需要堅持自己的主張,直到實(shí)現它或者(徹底)否定它。做科學(xué)就需要這樣的精神。”
交叉學(xué)科的力量
固執的辛頓在1978年順利博士畢業(yè)。當時(shí)的學(xué)者也沒(méi)預料到,他的堅持從此掀開(kāi)了人工智能深度學(xué)習革命,并讓21世紀的各大巨頭爭相進(jìn)行科技軍備競賽。
那時(shí)博士畢業(yè)后,孤獨的辛頓漂至了美國,總算 在加州大學(xué)圣迭戈分校找到了一些志同道合的人士。他們有的來(lái)自神經(jīng)生物學(xué),有的像辛頓一樣來(lái)自認知科學(xué)系, 重要的是,他們分享著(zhù)對聯(lián)結主義的信仰,相信用計算機多層神經(jīng)網(wǎng)絡(luò )可以模擬人類(lèi)大腦的演算方式。最終,機器也可以像蹣跚學(xué)步的孩子一樣自我學(xué)習和進(jìn)步,擁有推理能力。
看上去像天方夜譚的野心,卻在當時(shí)被一群人真情實(shí)意地相信著(zhù)。 1982年,加州理工學(xué)院教授霍普菲爾德率先開(kāi)發(fā)了一種神經(jīng)網(wǎng)絡(luò ),用于模擬大腦如何相互作用并產(chǎn)生穩定記憶。
霍普菲爾德獲獎后的第一張照片
這個(gè)神經(jīng)網(wǎng)絡(luò )的構建,也汲取了人類(lèi)大腦的工作智慧。霍普菲爾德曾回憶,促使他走向這條道路的是一次受邀參加神經(jīng)科學(xué)的會(huì )議。會(huì )議內容令他著(zhù)迷,并讓他開(kāi)始思考神經(jīng)網(wǎng)絡(luò )的動(dòng)力學(xué)特性。
人腦的運作好比需要集體演奏的交響曲,只有當神經(jīng)元共同作用時(shí),它們才能產(chǎn)生新的、強大的特性。“如果你只關(guān)注網(wǎng)絡(luò )中的每一個(gè)獨立神經(jīng)元,是很難察覺(jué)這些特性的。”他說(shuō)。
擁有物理學(xué)背景的霍普菲爾德,開(kāi)始想到原子自旋而產(chǎn)生的特性。
這一特性使每個(gè)原子都成為了一個(gè)微小的磁鐵。相鄰原子的自旋會(huì )相互影響,自旋方向一致的區域得以形成。
運用自旋特性,霍普菲爾德成功構建了有節點(diǎn)和連接的神經(jīng)網(wǎng)絡(luò ),并以能量函數作為表達。
大致實(shí)現原理類(lèi)似于人類(lèi)的聯(lián)想記憶。比如,如果神經(jīng)網(wǎng)絡(luò )接收到不完整或稍有失真的模式時(shí),該方法能夠通過(guò)能量的原理,找到與之最相近的已存儲模式。
霍普菲爾德的模型示意圖。首先讓分子體系記住右下角的圖像(字母“J”)。此時(shí),如果將分子體系的狀態(tài)改成右上角的圖,那么每個(gè)分子會(huì )按照既定的規則更改自身的能量,最終使得整體重新回到右下角的圖像。
記憶、存儲、重現信息,這是霍普菲爾德神經(jīng)網(wǎng)絡(luò )的進(jìn)步,也被后人視為聯(lián)結主義復興的標志。更年輕的辛頓也深受影響和鼓舞。
1986年, 辛頓與兩名學(xué)者共同發(fā)表了一篇題為“通過(guò)反向傳播誤差來(lái)學(xué)習”的論文,成為了當代機器深度學(xué)習的奠基之作。
所謂的反向傳播,實(shí)際是一個(gè)基于微分的算法。
需要指出的是,1980年代的研究重點(diǎn)與上世紀60年代已經(jīng)截然不同:1960年代的神經(jīng)網(wǎng)絡(luò )是一個(gè)單層網(wǎng)絡(luò ),而吸取了明斯基教訓的科學(xué)家們在20年后,希望建立的是有多層結構的神經(jīng)網(wǎng)絡(luò )。
他們相信,只要研究人員能夠建立一個(gè)多層的網(wǎng)絡(luò ),每一層都向下一層提供信息,這個(gè)系統就可以學(xué)習過(guò)去無(wú)法理解的復雜圖形。換句話(huà)說(shuō),一個(gè)更像大腦的系統就會(huì )出現。
這個(gè)過(guò)程變成了解出嵌套函數的數學(xué)問(wèn)題。如果要訓練一個(gè)符合現實(shí)的神經(jīng)網(wǎng)絡(luò ),科學(xué)家們發(fā)現,他們的工作重點(diǎn)需要考量神經(jīng)網(wǎng)絡(luò )的輸出和真實(shí)結果之間的誤差;接著(zhù)選擇恰當的損失函數來(lái)表示誤差,再根據梯度下降等優(yōu)化算法,一步步修正權值參數,最后得到能擬合的神經(jīng)網(wǎng)絡(luò )模型。
在輸入層和隱藏層之間具有兩層隱藏節點(diǎn)的饋送網(wǎng)絡(luò )輸出層。
但新的難題出現了:多層神經(jīng)網(wǎng)絡(luò )內含多個(gè)隱藏層,當誤差出現時(shí),研究者們很快發(fā)現,他們極難找到誤差是在哪發(fā)生的。
擅長(cháng)叛逆的辛頓與同事們同時(shí)也擅長(cháng)逆向思維。
1986年,他們提出反向傳播算法,精髓是將誤差從輸出層開(kāi)始倒推,反過(guò)來(lái)逐層把誤差傳播至每一個(gè)隱層上,直到輸入層為止。每一層都依賴(lài)后面已經(jīng)計算好的信息去完成求導,故稱(chēng)作“反向傳播”。
反向傳播成功解決了多層神經(jīng)網(wǎng)絡(luò )的訓練問(wèn)題,證明了神經(jīng)網(wǎng)絡(luò )絕非停留在想象里的空中樓閣。
同一時(shí)期,辛頓與同事們發(fā)明了玻爾茲曼機。
玻爾茲曼機和霍普菲爾德模型的不同在于,內部增加了隱藏節點(diǎn),使得節點(diǎn)之間可以通過(guò)概率調節整個(gè)網(wǎng)絡(luò )的功能。
這個(gè)新神經(jīng)網(wǎng)絡(luò )汲取了統計物理學(xué)的原理,希望分析各個(gè)組件能夠共同存在的各種狀態(tài),并計算它們出現的概率。
這也是當今短視頻等平臺算法令人無(wú)法自拔的基本原理:算法可以分析和找到大數據之間的聯(lián)系,接著(zhù)計算不同類(lèi)別的人最大概率會(huì )喜歡和討厭的內容,并根據每次的點(diǎn)擊情況,實(shí)時(shí)進(jìn)行概率計算和內容推送。
辛頓和同事謝諾夫斯基都為此激動(dòng)不已。“這是我一生之中最激動(dòng)人心的時(shí)刻,”謝諾夫斯基說(shuō),“我們確信,已經(jīng)弄清楚了大腦是如何工作的。”
冷門(mén)二十年
約30年后,諾貝爾物理學(xué)獎?wù)J可了玻爾茲曼機的發(fā)明。
“他們都是真正的先驅者,尋找到了解決問(wèn)題的新方法。”諾貝爾物理學(xué)委員會(huì )成員Anders Irb?ck教授在2024年盛贊。
只是,對80年代的辛頓來(lái)說(shuō),縈繞在前方的仍是時(shí)而大喜、時(shí)而大悲的情緒,以及與科學(xué)有關(guān)的迷霧之中。
他和同事都以為將改變世界進(jìn)程的玻爾茲曼機,只在80年代末期人工智能的又一波熱潮時(shí)得到了關(guān)注。
1990年代,人工智能發(fā)展再度進(jìn)入瓶頸期。各種基于統計的機器學(xué)習方法興起,研究神經(jīng)網(wǎng)絡(luò )的人越來(lái)越少了。辛頓成為了少數幾個(gè)仍在其中堅持的人。
杰弗里·辛頓曾在社交媒體上寫(xiě)道:毛毛蟲(chóng)提取營(yíng)養物質(zhì),然后轉化為蝴蝶。GPT-4也像人類(lèi)社會(huì )的蝴蝶般,提取了人類(lèi)數十億的知識。
后來(lái)人們才發(fā)現, 當時(shí)的停滯并不代表辛頓提出的理論和設想是錯誤的。想法受限于當時(shí)計算機技術(shù)處理計算的能力。
辛頓在一次采訪(fǎng)中感慨:“追溯到1986年,我們首次開(kāi)發(fā)出反向傳播算法,我們因其能學(xué)習到多層的特征探測而感到興奮,我們認為已經(jīng)解決了這個(gè)問(wèn)題。但在解決實(shí)際問(wèn)題中卻沒(méi)有出現大的突破,這非常令人失望,我們完全猜錯了需要的計算資源和標記案例數量。”
這樣的停滯伴隨著(zhù)辛頓接下來(lái)的20余年科研歷程,神經(jīng)網(wǎng)絡(luò )始終不受學(xué)界主流認可。為了拿到教研經(jīng)費,他曾在倫敦大學(xué)學(xué)院、多倫多大學(xué)等地工作,最后終于在2004年從加拿大高等研究院申請到了每年50萬(wàn)美元的經(jīng)費支持。
直到2006年以前,辛頓即使已經(jīng)在英國、加拿大是院士級別的人物,但他的發(fā)現只在學(xué)界里有名氣,從未得到現實(shí)的廣泛應用。
但他始終堅信神經(jīng)網(wǎng)絡(luò )將引起人工智能革命。據稱(chēng),為了給自己打氣, 辛頓還養成了一種自我激勵的方法,每周發(fā)泄般大吼一次:“我發(fā)現大腦是怎樣工作的啦!”
天然神經(jīng)系統和人工神經(jīng)網(wǎng)絡(luò )的相似性。關(guān)于人工神經(jīng)網(wǎng)絡(luò )的理論在幾十年前就已形成,但當時(shí)人們并沒(méi)有找到實(shí)現它的方法。
2006年,深度學(xué)習革命終于在全球打響。這個(gè)新時(shí)代的序幕依然是由辛頓和學(xué)生拉開(kāi)的。他們在兩篇論文里論證道, 深度神經(jīng)網(wǎng)絡(luò )具有自主學(xué)習的能力。比起人類(lèi),深度學(xué)習的自編碼器對數據有更本質(zhì)的刻畫(huà),從而有利于可視化和分類(lèi)。
這次奪冠并非只是拿到冠軍那么簡(jiǎn)單。辛頓和學(xué)生以全場(chǎng)都沒(méi)有用過(guò)的方式,取得了顛覆性的勝利。
“快樂(lè )和悲傷交織”
后來(lái)的故事更為人所知。2012年一舉成名后,辛頓收到了來(lái)自吉印通、谷歌、微軟以及DeepMind等巨頭的千萬(wàn)美元年薪橄欖枝。他于是聽(tīng)從律師建議,在美國華達州的哈拉斯賭場(chǎng),對著(zhù)爭相而來(lái)的科技巨頭,舉行了一場(chǎng)郵件競拍。
最終,他在身價(jià)被提高到了4400萬(wàn)美元時(shí),叫停了拍賣(mài),選擇加入谷歌。
杰弗里·辛頓在谷歌總部外
失敗的吉印通從此決心向深度學(xué)習上儲備人才,先后建立了深度學(xué)習研究院和自動(dòng)駕駛研究院。
主導吉印通參與辛頓競拍的負責人、現地平線(xiàn)創(chuàng )始人余凱回憶:“盡管競拍失敗,但我還是很開(kāi)心的。我想我的目的也達到了,因為李彥宏親眼見(jiàn)證了國際巨頭不惜花費巨資來(lái)投資深度學(xué)習研發(fā),這讓他下定決心自己把深度學(xué)習做起來(lái)。”
進(jìn)入21世紀的第二個(gè)十年,大模型、AI視覺(jué)、AIGC等多個(gè)應用,終于迎來(lái)大爆發(fā)。辛頓等到了盼望已久深度神經(jīng)網(wǎng)絡(luò )引發(fā)的人工智能浪潮。
這是屬于他引領(lǐng)的時(shí)代。
他卻自述過(guò)往,認為他的人生與AI浪潮一樣,徘徊在反反復復的起伏里。“我經(jīng)常會(huì )告訴大家,我弄清大腦的工作機制了,可過(guò)段時(shí)間,我又失望地發(fā)現之前的結論是錯誤的。”
“ 但事情就應該是這樣發(fā)展的。正如(英國)詩(shī)人威廉·布萊克的兩句詩(shī),‘將快樂(lè )和憂(yōu)傷編織,披在我神圣的心上’。”
2023年,離開(kāi)谷歌的辛頓越來(lái)越活躍于媒體之中。他近年因為大模型的熱潮早已榮譽(yù)加身,人們喊他教父,對他進(jìn)行膜拜。連他的很多早期追隨者,如今也成為了科技巨頭。例如學(xué)生伊利亞,與奧特曼一起創(chuàng )立OpenAI,是AI浪潮的引領(lǐng)者之一。
看上去,辛頓沒(méi)有什么煩惱可言了。
《終結者5》劇照
但他卻表現得越來(lái)越憂(yōu)心忡忡,擔心AI有一天會(huì )掌控人類(lèi)社會(huì )。2024年,他在諾貝爾獎頒布的現場(chǎng)連線(xiàn)時(shí)說(shuō):“我感到愧疚和后悔。”
“后悔有兩種。一種是因為你做了一些明知不該做的事情而感到內疚;另一種是你做了一些在同樣情況下會(huì )再次做的事情,但最終結果可能并不好。我的遺憾是第二種。我擔心這種做法的后果是,比我們更聰明的系統最終會(huì )掌控一切。”
關(guān)注它,能讓你聽(tīng)到更多真話(huà),
多一分對世界的理解。
關(guān)注外灘教育
發(fā)現優(yōu)質(zhì)教育