當前位置:首頁(yè) > 百科 > 正文內容

Noam Brown早已預示o1強大推理能力,演講深度解析AI推理研究脈絡(luò )

宿遷名片打印1個(gè)月前 (09-14)百科7
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

不久之前,OpenAI 發(fā)布了 o1 系列模型,其強大的推理能力讓我們看見(jiàn)了 AI 發(fā)展的新可能。近日,OpenAI 著(zhù)名研究科學(xué)家 Noam Brown 一份 5 月的演講上線(xiàn)網(wǎng)絡(luò ),或可揭示 o1 背后的研究發(fā)展脈絡(luò )。

在這個(gè)題為「關(guān)于 AI 規劃力量的寓言:從撲克到外交」的演講中, Brown 介紹了撲克、圍棋和外交等游戲領(lǐng)域的研究突破,并尤其強調了搜索/規劃算法在這些成就中的關(guān)鍵作用。之后,他也指出了搜索/規劃研究在改進(jìn)機器學(xué)習模型方面的潛在未來(lái)。

Noam Brown,如果你還不熟悉這個(gè)名字:他是 OpenAI 的一位著(zhù)名研究科學(xué)家,主攻方向是推理和自博弈,曾參與創(chuàng )造了首個(gè)在雙玩家和多玩家無(wú)限注德州撲克上擊敗人類(lèi)頂級職業(yè)玩家的 AI:Libratus 和 Pluribus。其中 Pluribus 曾被 Science 評選為 2019 年十大科學(xué)突破之一。此外,他也領(lǐng)導開(kāi)發(fā)了 Cicero 系統,這是首個(gè)在自然語(yǔ)言策略外交游戲 Diplomacy 上達到人類(lèi)水平的 AI。憑借在 AI 領(lǐng)域的卓越貢獻,他獲得過(guò)馬文·明斯基獎?wù)拢∕arvin Minsky Medal)等許多獎項。

021yin.com/watch?v=eaAonE58sLU

來(lái)自 Paul G. Allen School

機器之心詳細梳理了 Noam Brown 的演講內容,以饗讀者:

演講開(kāi)篇,Brown 談到了自己剛開(kāi)始研究生生涯的時(shí)候。那是在 2012 年,他開(kāi)始研究打撲克的 AI。當時(shí)人們已經(jīng)研究了撲克 AI 多年時(shí)間。很多人的感覺(jué)就是系統的問(wèn)題已經(jīng)解決,剩下的問(wèn)題就是規模擴展(scaling)了。

下圖左下展示了那幾年模型參數量的變化情況。

那幾年,各個(gè)研究撲克 AI 的實(shí)驗室都會(huì )訓練更大的新模型來(lái)互相競賽。這就是當時(shí)的年度計算機撲克競賽。

什么意外,每一年的新模型都會(huì )變得比之前的模型更強大。

2014 年時(shí),Brown 與其導師一起開(kāi)發(fā)了當前最強大的撲克 AI,取得了競賽第一名。那時(shí)候他們開(kāi)始嘗試在實(shí)際的比賽中與專(zhuān)家級人類(lèi)對抗。于是在 2015 年,他們舉辦了人腦與 AI 撲克競賽。

他們讓自己的 AI 挑戰了 4 位頂尖職業(yè)玩家,玩了 8 萬(wàn)手。最終,他們開(kāi)發(fā)的名為 Claudico 的 AI 牌手慘敗收場(chǎng)。

搜索與規劃開(kāi)始彰顯力量

在這場(chǎng)比賽中,他注意到一些有趣的現象。他們的 AI 之前已經(jīng)使用了大約 1 萬(wàn)億手對局數據進(jìn)行了訓練。在這場(chǎng)比賽之前幾個(gè)月時(shí)間里,這個(gè) AI 一直在數千臺 GPU 上不間斷地玩撲克。

而到了真正與職業(yè)玩家比賽的時(shí)候,它會(huì )在很快的時(shí)間里做出決定,幾乎是立即完成。但如果是人類(lèi)面對同樣的任務(wù),則通常會(huì )深思熟慮。

Brown 在那時(shí)候便想到了,這或許就是 AI 所缺少的東西。這也成了其之后的重要研究方向之一。

2017 年時(shí),他們發(fā)布了一篇論文給出了初步的研究結果(這是當年的 NeurIPS 最佳論文)。如下圖所示,藍線(xiàn)是不做任何搜索或規劃的結果,橙色則是執行了搜索和規劃的結果(越低越好)。X(qián) 軸是模型的參數量。所以這算是中等大小的撲克 AI 的擴展律(scaling law):模型越大,表現越好。而從圖中可以看到,搜索所帶來(lái)的受益比模型增大要大得多——同等模型大小下能帶來(lái)近 7 倍的提升!

簡(jiǎn)單來(lái)說(shuō),這里的搜索就是讓模型在行動(dòng)之前「思考」大約半分鐘。

Brown 表示,在研究撲克 AI 的三四年間,他將模型的大小提升了 100 倍,但所帶來(lái)的提升遠不及采用搜索策略。而如果要讓藍線(xiàn)代表的無(wú)搜索策略成功擴展到橙色線(xiàn)的水平,還需要將模型繼續擴展 10 萬(wàn)倍。換句話(huà)說(shuō),搜索策略能帶來(lái) 10 萬(wàn)倍的增益!

這讓他不禁感嘆:「與添加搜索相比,我在博士學(xué)位之前所做的一切都將成為腳注。」

之后,他轉變了研究方向,將重點(diǎn)放在了擴展搜索能力方面。

2017 年,他們再次舉辦人腦與 AI 撲克競賽。這一次,AI 大勝,并且每位職業(yè)玩家都輸給了這個(gè)名叫 Libratus 的模型。

這一結果同時(shí)震驚了撲克和 AI 兩個(gè)圈子,更何況 AI 的獲勝優(yōu)勢還如此之大。對此事件的詳細報道可參閱文章《德?lián)淙藱C大戰收官,Libratus 擊敗世界頂尖撲克選手》。

2019 年,他們開(kāi)發(fā)了一個(gè)能玩六人德州撲克的 AI 并與人類(lèi)職業(yè)玩家進(jìn)行了對抗。

同樣,AI 獲勝了,并且其訓練成本還很低,也沒(méi)有使用 GPU,參閱《AI攻陷多人德?lián)湓俚荢cience,訓練成本150美元,每小時(shí)贏(yíng)1000刀》。

Brown 表示,如此低的成本意味著(zhù),如果當時(shí)就能發(fā)現這種方法,那么 AI 社區在 90 年代應該就能取得這一成就。

但為什么沒(méi)有出現這樣的研究呢?Brown 總結了幾點(diǎn)原因和經(jīng)驗教訓。(請注意,這里他強調并不會(huì )對「搜索」和「規劃」這兩個(gè)概念做明確區分,因為它們存在很大的共同點(diǎn)。)

文化因素,當時(shí)很多人是從博弈論的角度研究撲克 AI。

實(shí)驗的計算成本高。

人們沒(méi)有很好的動(dòng)力去有效地探索這些方法,因為當時(shí)的競賽設置難以支撐這些方法(比如可用算力低,要求每一手牌必須在短時(shí)間內完成)。

最重要的是:人們低估了新范式所能取得的成就(誰(shuí)能想到其實(shí)可達 10 萬(wàn)倍?)。

規劃也有助于其它游戲任務(wù)

實(shí)際上,這種使用規劃和搜索的方法并非撲克 AI 所獨有的。許多圍棋和象棋 AI 都使用了這些技術(shù)。下面這張圖來(lái)自 AlphaGo Zero 論文。

圖中的 AlphaGo Lee 是指擊敗了李世石的版本,而 AlphaGo Zero 僅使用非常少的人類(lèi)知識就取得了好得多的表現。

AlphaGo Zero 并不是一個(gè)原始的神經(jīng)網(wǎng)絡(luò ),而是神經(jīng)網(wǎng)絡(luò )+蒙特卡洛樹(shù)搜索(MCTS)的組合系統。實(shí)際上,其原始神經(jīng)網(wǎng)絡(luò )的 Elo 分數僅有 3000 左右,不及人類(lèi)。

實(shí)際上,從 2016 年到 2024 年,8 年過(guò)去了,現在依然沒(méi)有人訓練出超越人類(lèi)職業(yè)棋手的原始神經(jīng)網(wǎng)絡(luò )。也許有人會(huì )說(shuō),就算如此,只要訓練出更大的神經(jīng)網(wǎng)絡(luò ),最終就能超越人類(lèi)吧。但就算理論上可以,實(shí)際上這個(gè)網(wǎng)絡(luò )需要多大呢?

Brown 根據經(jīng)驗給出了一個(gè)大致估計:Elo 分數每增加 120 都需要 2 倍的模型大小和訓練量或 2 倍的測試時(shí)搜索量。

基于此,如果僅使用原始神經(jīng)網(wǎng)絡(luò ),要將 Elo 分數從 3000 提升到 AlphaGo Zero 那樣的 5200,則需要將模型擴展大約 10 萬(wàn)倍。當然,Brown 提到 AlphaGo Zero 的 5200 分其實(shí)存在爭議,考慮爭議的話(huà)模型的擴展倍數可能在 1000 倍到 1 萬(wàn)倍之間。

不管怎樣,模型都需要大幅擴展才行。

另外,這還是假設訓練過(guò)程中可以使用 MCTS。要是再從訓練階段剔除 MCTS,那么所需的擴展倍數更是天文數字。

那么,具體來(lái)說(shuō)該如何進(jìn)行規劃呢?

合作策略桌游 Hanabi(花火)是一個(gè)很好的示例,這是一種不完全信息博弈。

2019 年 2 月,DeepMind 為 Hanabi 提出了一個(gè)新基準,并且他們提出了一種可取得 58.6% 勝率的強化學(xué)習算法。

六個(gè)月后,Noam Brown 當時(shí)就職的 FAIR 提出的一種算法就在兩玩家場(chǎng)景中取得了 75% 的勝率,達到了超越人類(lèi)的水平。并且他表示這其中僅使用了一種非常簡(jiǎn)單的技術(shù)。他說(shuō):「我們并沒(méi)有在強化學(xué)習方面做什么全新的事情,就只是執行了搜索。」并且這種搜索很簡(jiǎn)單。

簡(jiǎn)單來(lái)說(shuō),就是搜索后續步驟執行不同動(dòng)作時(shí)的情況,然后選擇預期結果最好的一個(gè)。

實(shí)驗結果證明這種簡(jiǎn)單方法確實(shí)有效。

不管是哪種方法,在添加了搜索之后都取得了顯著(zhù)更好的表現。之前表現最差的基于啟發(fā)式方法的 SmartBot 在添加了搜索之后也超過(guò)了未使用搜索的基于強化學(xué)習的最佳方法 SAD。

這一巨大提升甚至讓 Brown 及其團隊一度懷疑實(shí)驗出 bug 了。要知道 Hanabi 游戲本質(zhì)上不可能取得 100% 勝率,經(jīng)過(guò)搜索加持的強化學(xué)習神經(jīng)網(wǎng)絡(luò )的勝率可能趨近于飽和。

同時(shí),多智能體搜索的表現也優(yōu)于單智能體搜索。這或許就是 Noam Brown 最近正在積極為 OpenAI 網(wǎng)羅多智能體研究者的原因。

Brown 提到他們并不是唯一一個(gè)發(fā)現這一趨勢的團隊。目前就職于 Anthropic 的 Andy Jones 也曾在棋盤(pán)游戲 Hex 上發(fā)現了這一點(diǎn)。

該研究發(fā)現,測試時(shí)間計算量增加 15 倍的效果相當于訓練時(shí)間計算量增加 10 倍的效果。考慮到訓練時(shí)的計算量遠高于測試時(shí)的計算量。因此讓測試時(shí)間計算量增加 15 倍要劃算得多。

接下來(lái),Brown 介紹了一個(gè)在國際象棋比賽上模仿人類(lèi)專(zhuān)家數據的研究。這個(gè)名叫 MAIA 的國際象棋 AI 在 Elo 較高時(shí)比目標 Elo 分數低 100-300 分。也就是說(shuō),如果使用 2000 分的人類(lèi)數據來(lái)訓練它,它自己卻只能得到 1700 分。但 MAIA 在有一種情況下能與人類(lèi)專(zhuān)家持平,也就是快棋賽——這時(shí)候人類(lèi)沒(méi)有足夠的思考時(shí)間。因此,這可能表明神經(jīng)網(wǎng)絡(luò )難以近似人類(lèi)的規劃能力。

之后,Brown 團隊的一篇 ICML 2022 論文研究了在監督模型上添加規劃的效果。可以看到不管是圍棋還是國際象棋,搜索都大有助益。

也許很多人都認為,要在某個(gè)數據集上最大限度地提高預測準確性,方法就是使用大量數據訓練一個(gè)超大模型,但這些研究卻給出了不一樣的見(jiàn)解:在適當的超參數下添加搜索能力,就可以極大提升預測準確度。如下圖所示。

用于外交的人工智能

接下來(lái),Brown 介紹了他在 FAIR 時(shí)開(kāi)發(fā)的一個(gè)用于外交游戲 Diplomacy 的 AI 智能體 Cicero,這是首個(gè)在外交策略博弈任務(wù)上達到人類(lèi)水平的 AI。參閱機器之心報道《爭取盟友、洞察人心,最新的Meta智能體是個(gè)談判高手》。

外交是一種非常復雜的自然語(yǔ)言策略博弈。Cicero 以匿名方式參與到了有許多人類(lèi)玩家參與的游戲中。它玩了 40 局都沒(méi)有被發(fā)現,并且平均每一局要收發(fā) 292 條消息。

一些參與游戲的人類(lèi)玩家在獲知 Cicero 是 AI 之后都發(fā)出了類(lèi)似下圖的驚嘆之語(yǔ)!

Cicero 的表現如下,在參與游戲至少 5 局的玩家中,它取得了第 2 名的成績(jì)。在所有玩家中也名列前 10%。整體優(yōu)于人類(lèi)玩家的平均水平。

下面來(lái)看看 Cicero 的工作方式。它的輸入包括游戲棋盤(pán)和對話(huà)歷史,其條件動(dòng)作模型需要基于此預測所有玩家在當前回合會(huì )做什么,然后將這些動(dòng)作輸入到一個(gè)規劃引擎中。

Brown 表示規劃引擎是Cicero 的一大創(chuàng )新,現今的許多語(yǔ)言模型都還不具備這一點(diǎn)。

這個(gè)規劃引擎會(huì )迭代式地預測所有玩家的動(dòng)作以及所有玩家可能預測的Cicero 的動(dòng)作。

最終,這會(huì )得到一個(gè)輸出動(dòng)作,還會(huì )得到一些意圖——用于調節對話(huà)模型。也就是說(shuō),在執行了規劃,搞清楚了我們應該在本回合中采取哪些行動(dòng)以及我們認為其他玩家在本回合中會(huì )采取哪些行動(dòng)之后,將這些規劃輸入對話(huà)模型,使對話(huà)模型以此為條件輸出消息。

Brown 也提到這個(gè)過(guò)程非常耗時(shí),通常每一次都需要至少 10 秒才能生成一個(gè)消息(他們使用了幾十臺 GPU)。但這種時(shí)間成本是值得的,能大幅提升性能。

規劃為何有效?

規劃為什么能帶來(lái)如此巨大的性能提升?Brown 提到了「生成器-驗證器差距」現象。簡(jiǎn)單來(lái)說(shuō),在許多領(lǐng)域,生成一個(gè)好解決方案的難度通常大于驗證一個(gè)解決方案的難度。舉個(gè)例子,玩數獨游戲肯定比驗證已經(jīng)填入的數值更難。

但在另一些領(lǐng)域,情況卻并非如此。比如對于信息檢索任務(wù),如果問(wèn)不丹的首都是哪里,模型可以一口氣生成幾十個(gè)候選項,但我們還要費一番功夫去驗證它。圖像生成也是如此:生成圖像很簡(jiǎn)單,但要驗證生成的圖像是否滿(mǎn)足要求會(huì )更困難。

因此,當存在「生成器-驗證器差距」且具有比較好的驗證器時(shí),我們可以將更多計算放在生成上,然后驗證結果。

在語(yǔ)言模型中使用規劃

之后,Noam Brown 開(kāi)始討論語(yǔ)言模型。有趣的是他在此時(shí)強調:「我只能談?wù)撘寻l(fā)表的研究。」這似乎在暗示他參與了或至少知道一些未發(fā)表的相關(guān)研究——或許就是 OpenAI ο1 及未來(lái)模型用到的技術(shù)。

他認為人們依然低估了這些技術(shù)所能帶來(lái)的增益。

有一種名為 Consensus(共識)的算法是這樣執行驗證的:讓 LLM 生成多個(gè)解,然后選擇出現次數最多的那個(gè)。

方法很簡(jiǎn)單,但僅憑此方法,Minerva 模型在 MATH 數據集上的表現就從 33.6% 提升到了 50.3%。這里 Minerva 對每個(gè)問(wèn)題采樣 1000 次。

但這種方法也有缺點(diǎn),那就是只適合答案只有數值等簡(jiǎn)單結果的問(wèn)題。對于證明題之類(lèi)的任務(wù),就沒(méi)辦法了,因為這些任務(wù)很難每次都有一樣的結果,難以達成共識。

另一種方法是 Best of N。這需要用到一個(gè)獎勵模型來(lái)為生成的 N 個(gè)答案打分,然后返回最佳結果。這種方法的表現依賴(lài)于獎勵模型的質(zhì)量。如果獎勵模型質(zhì)量不行,就可能出現在錯誤上過(guò)擬合的問(wèn)題。

我們還可以做到更好。接下來(lái)Brown 介紹了那篇著(zhù)名的論文《Let's Verify Step By Step》。機器之心也曾報道過(guò)這項研究,參閱《OpenAI要為GPT-4解決數學(xué)問(wèn)題了:獎勵模型指錯,解題水平達到新高度》。

這篇論文發(fā)布于大概一年前,其中提出了「過(guò)程獎勵模型」這一思路。簡(jiǎn)單來(lái)說(shuō),就是不再只是驗證最終解答,而是驗證每一步求解過(guò)程。只要過(guò)程中存在任何不正確的步驟,就判定最終結果是錯誤的,即便最終結果看起來(lái)是正確的。

這種方法的表現如何呢?如下圖所示,橙色線(xiàn)是過(guò)程獎勵模型的表現,可以看到,其顯著(zhù)優(yōu)于Best of N 和結果導向的獎勵模型,并且其優(yōu)勢會(huì )隨著(zhù)求解數量 N 的提升而提升。

Brown 舉了一個(gè)非常有趣的例子。讓LLM 解決這個(gè)數學(xué)問(wèn)題:化簡(jiǎn) tan100° + 4sin100°。

原始 GPT-4 模型正確解答這個(gè)數學(xué)問(wèn)題的可能性?xún)H有千分之一,而逐步驗證法可將其提升一大截。

當今的 AI 圖景和未來(lái)方向

接著(zhù),Brown 話(huà)鋒一轉,分享了當今的 AI 圖景。請注意,由于這次演講發(fā)生于 2024 年 5 月 23 日,因此其中并沒(méi)有最新的模型。但他談到的發(fā)展趨勢依然很有價(jià)值。

他說(shuō),在他研究生階段研究撲克 AI 時(shí),人們自認為找到了實(shí)現超人級撲克 AI 的方法:使用已有的算法,每一年都提升其計算和數據規模即可,然后就能擊敗前一年的模型。

他認為當今的 AI 領(lǐng)域也非常相似:有一種有效的技術(shù),然后用更大的模型在更多的數據上訓練更長(cháng)時(shí)間,讓其不斷變得更好。與此同時(shí),推理成本依然很低。Brown 表示未來(lái)不一定還是如此。

(當然,我們知道 o1 的出現已經(jīng)開(kāi)始扭轉這一趨勢,讓人們更加注重研究推理時(shí)間的計算,即 inference-time compute 或 test-time compute)。

對于編程輔助和翻譯這樣的任務(wù),我們可能并不愿意等待很長(cháng)時(shí)間,但對于另一些重要問(wèn)題,我們甘心等待幾個(gè)小時(shí)乃至很多天,比如解決黎曼猜想或發(fā)現救命藥物,又或者生成一部?jì)?yōu)質(zhì)的小說(shuō)。

他介紹了自己的「下一個(gè)目標」:通用性。

我們能否開(kāi)發(fā)出用于擴展推理計算的真正通用的方法?

通過(guò)提升測試時(shí)間的計算成本來(lái)打造更強大的模型(我們愿意為解決黎曼猜想或發(fā)現救命藥物付出多少推理成本?)

這些研究能讓我們大致窺見(jiàn)未來(lái)遠遠更加強大的模型。(或許就是 OpenAI CEO 山姆?奧特曼所說(shuō)的「超級智能」?)。

他也給學(xué)術(shù)界的研究者提了一點(diǎn)建議:

規劃是一個(gè)相對較好的研究領(lǐng)域,對資源不豐富的學(xué)術(shù)研究者來(lái)說(shuō),這個(gè)方向避開(kāi)了與大公司的正面競爭,或許更容易出成果。因為大公司基于利益考慮,更愿意訓練超大模型,同時(shí)盡可能地降低推理成本,以便為大量用戶(hù)提供服務(wù)。

另一個(gè)頗具潛力的研究方向是「外部驗證器」,因為這樣可以避免受到獎勵模型質(zhì)量瓶頸的限制。

最后,Brown 提到了 Richard Sutton 那篇著(zhù)名的文章《苦澀的教訓》。

他引用了這兩句:「70 年的人工智能研究史告訴我們,利用計算能力的一般方法最終是最有效的方法。……搜索和學(xué)習似乎正是兩種以這種方式隨意擴展的方法。」

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全