<small id="mxshd"></small>

當前位置：首頁(yè) > 百科 > 正文內容

Noam Brown早已預示o1強大推理能力，演講深度解析AI推理研究脈絡(luò )

宿遷名片打印1個(gè)月前 (09-14)百科7

印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà)：138-1621-1622（微信同號）

不久之前，OpenAI 發(fā)布了 o1 系列模型，其強大的推理能力讓我們看見(jiàn)了 AI 發(fā)展的新可能。近日，OpenAI 著(zhù)名研究科學(xué)家 Noam Brown 一份 5 月的演講上線(xiàn)網(wǎng)絡(luò )，或可揭示 o1 背后的研究發(fā)展脈絡(luò )。

在這個(gè)題為「關(guān)于 AI 規劃力量的寓言：從撲克到外交」的演講中， Brown 介紹了撲克、圍棋和外交等游戲領(lǐng)域的研究突破，并尤其強調了搜索/規劃算法在這些成就中的關(guān)鍵作用。之后，他也指出了搜索/規劃研究在改進(jìn)機器學(xué)習模型方面的潛在未來(lái)。

Noam Brown，如果你還不熟悉這個(gè)名字：他是 OpenAI 的一位著(zhù)名研究科學(xué)家，主攻方向是推理和自博弈，曾參與創(chuàng )造了首個(gè)在雙玩家和多玩家無(wú)限注德州撲克上擊敗人類(lèi)頂級職業(yè)玩家的 AI：Libratus 和 Pluribus。其中 Pluribus 曾被 Science 評選為 2019 年十大科學(xué)突破之一。此外，他也領(lǐng)導開(kāi)發(fā)了 Cicero 系統，這是首個(gè)在自然語(yǔ)言策略外交游戲 Diplomacy 上達到人類(lèi)水平的 AI。憑借在 AI 領(lǐng)域的卓越貢獻，他獲得過(guò)馬文·明斯基獎?wù)拢∕arvin Minsky Medal）等許多獎項。

021yin.com/watch?v=eaAonE58sLU

來(lái)自 Paul G. Allen School

機器之心詳細梳理了 Noam Brown 的演講內容，以饗讀者：

演講開(kāi)篇，Brown 談到了自己剛開(kāi)始研究生生涯的時(shí)候。那是在 2012 年，他開(kāi)始研究打撲克的 AI。當時(shí)人們已經(jīng)研究了撲克 AI 多年時(shí)間。很多人的感覺(jué)就是系統的問(wèn)題已經(jīng)解決，剩下的問(wèn)題就是規模擴展（scaling）了。

下圖左下展示了那幾年模型參數量的變化情況。

那幾年，各個(gè)研究撲克 AI 的實(shí)驗室都會(huì )訓練更大的新模型來(lái)互相競賽。這就是當時(shí)的年度計算機撲克競賽。

什么意外，每一年的新模型都會(huì )變得比之前的模型更強大。

2014 年時(shí)，Brown 與其導師一起開(kāi)發(fā)了當前最強大的撲克 AI，取得了競賽第一名。那時(shí)候他們開(kāi)始嘗試在實(shí)際的比賽中與專(zhuān)家級人類(lèi)對抗。于是在 2015 年，他們舉辦了人腦與 AI 撲克競賽。

他們讓自己的 AI 挑戰了 4 位頂尖職業(yè)玩家，玩了 8 萬(wàn)手。最終，他們開(kāi)發(fā)的名為 Claudico 的 AI 牌手慘敗收場(chǎng)。

搜索與規劃開(kāi)始彰顯力量

在這場(chǎng)比賽中，他注意到一些有趣的現象。他們的 AI 之前已經(jīng)使用了大約 1 萬(wàn)億手對局數據進(jìn)行了訓練。在這場(chǎng)比賽之前幾個(gè)月時(shí)間里，這個(gè) AI 一直在數千臺 GPU 上不間斷地玩撲克。

而到了真正與職業(yè)玩家比賽的時(shí)候，它會(huì )在很快的時(shí)間里做出決定，幾乎是立即完成。但如果是人類(lèi)面對同樣的任務(wù)，則通常會(huì )深思熟慮。

Brown 在那時(shí)候便想到了，這或許就是 AI 所缺少的東西。這也成了其之后的重要研究方向之一。

2017 年時(shí)，他們發(fā)布了一篇論文給出了初步的研究結果（這是當年的 NeurIPS 最佳論文）。如下圖所示，藍線(xiàn)是不做任何搜索或規劃的結果，橙色則是執行了搜索和規劃的結果（越低越好）。X(qián) 軸是模型的參數量。所以這算是中等大小的撲克 AI 的擴展律（scaling law)：模型越大，表現越好。而從圖中可以看到，搜索所帶來(lái)的受益比模型增大要大得多——同等模型大小下能帶來(lái)近 7 倍的提升！

簡(jiǎn)單來(lái)說(shuō)，這里的搜索就是讓模型在行動(dòng)之前「思考」大約半分鐘。

Brown 表示，在研究撲克 AI 的三四年間，他將模型的大小提升了 100 倍，但所帶來(lái)的提升遠不及采用搜索策略。而如果要讓藍線(xiàn)代表的無(wú)搜索策略成功擴展到橙色線(xiàn)的水平，還需要將模型繼續擴展 10 萬(wàn)倍。換句話(huà)說(shuō)，搜索策略能帶來(lái) 10 萬(wàn)倍的增益！

這讓他不禁感嘆：「與添加搜索相比，我在博士學(xué)位之前所做的一切都將成為腳注。」

之后，他轉變了研究方向，將重點(diǎn)放在了擴展搜索能力方面。

2017 年，他們再次舉辦人腦與 AI 撲克競賽。這一次，AI 大勝，并且每位職業(yè)玩家都輸給了這個(gè)名叫 Libratus 的模型。

這一結果同時(shí)震驚了撲克和 AI 兩個(gè)圈子，更何況 AI 的獲勝優(yōu)勢還如此之大。對此事件的詳細報道可參閱文章《德?lián)淙藱C大戰收官，Libratus 擊敗世界頂尖撲克選手》。

2019 年，他們開(kāi)發(fā)了一個(gè)能玩六人德州撲克的 AI 并與人類(lèi)職業(yè)玩家進(jìn)行了對抗。

同樣，AI 獲勝了，并且其訓練成本還很低，也沒(méi)有使用 GPU，參閱《AI攻陷多人德?lián)湓俚荢cience，訓練成本150美元，每小時(shí)贏(yíng)1000刀》。

Brown 表示，如此低的成本意味著(zhù)，如果當時(shí)就能發(fā)現這種方法，那么 AI 社區在 90 年代應該就能取得這一成就。

但為什么沒(méi)有出現這樣的研究呢？Brown 總結了幾點(diǎn)原因和經(jīng)驗教訓。（請注意，這里他強調并不會(huì )對「搜索」和「規劃」這兩個(gè)概念做明確區分，因為它們存在很大的共同點(diǎn)。）

文化因素，當時(shí)很多人是從博弈論的角度研究撲克 AI。

實(shí)驗的計算成本高。

人們沒(méi)有很好的動(dòng)力去有效地探索這些方法，因為當時(shí)的競賽設置難以支撐這些方法（比如可用算力低，要求每一手牌必須在短時(shí)間內完成）。

最重要的是：人們低估了新范式所能取得的成就（誰(shuí)能想到其實(shí)可達 10 萬(wàn)倍？）。

規劃也有助于其它游戲任務(wù)

實(shí)際上，這種使用規劃和搜索的方法并非撲克 AI 所獨有的。許多圍棋和象棋 AI 都使用了這些技術(shù)。下面這張圖來(lái)自 AlphaGo Zero 論文。

圖中的 AlphaGo Lee 是指擊敗了李世石的版本，而 AlphaGo Zero 僅使用非常少的人類(lèi)知識就取得了好得多的表現。

AlphaGo Zero 并不是一個(gè)原始的神經(jīng)網(wǎng)絡(luò )，而是神經(jīng)網(wǎng)絡(luò )+蒙特卡洛樹(shù)搜索（MCTS）的組合系統。實(shí)際上，其原始神經(jīng)網(wǎng)絡(luò )的 Elo 分數僅有 3000 左右，不及人類(lèi)。

實(shí)際上，從 2016 年到 2024 年，8 年過(guò)去了，現在依然沒(méi)有人訓練出超越人類(lèi)職業(yè)棋手的原始神經(jīng)網(wǎng)絡(luò )。也許有人會(huì )說(shuō)，就算如此，只要訓練出更大的神經(jīng)網(wǎng)絡(luò )，最終就能超越人類(lèi)吧。但就算理論上可以，實(shí)際上這個(gè)網(wǎng)絡(luò )需要多大呢？

Brown 根據經(jīng)驗給出了一個(gè)大致估計：Elo 分數每增加 120 都需要 2 倍的模型大小和訓練量或 2 倍的測試時(shí)搜索量。

基于此，如果僅使用原始神經(jīng)網(wǎng)絡(luò )，要將 Elo 分數從 3000 提升到 AlphaGo Zero 那樣的 5200，則需要將模型擴展大約 10 萬(wàn)倍。當然，Brown 提到 AlphaGo Zero 的 5200 分其實(shí)存在爭議，考慮爭議的話(huà)模型的擴展倍數可能在 1000 倍到 1 萬(wàn)倍之間。

不管怎樣，模型都需要大幅擴展才行。

另外，這還是假設訓練過(guò)程中可以使用 MCTS。要是再從訓練階段剔除 MCTS，那么所需的擴展倍數更是天文數字。

那么，具體來(lái)說(shuō)該如何進(jìn)行規劃呢？

合作策略桌游 Hanabi（花火）是一個(gè)很好的示例，這是一種不完全信息博弈。

2019 年 2 月，DeepMind 為 Hanabi 提出了一個(gè)新基準，并且他們提出了一種可取得 58.6% 勝率的強化學(xué)習算法。

六個(gè)月后，Noam Brown 當時(shí)就職的 FAIR 提出的一種算法就在兩玩家場(chǎng)景中取得了 75% 的勝率，達到了超越人類(lèi)的水平。并且他表示這其中僅使用了一種非常簡(jiǎn)單的技術(shù)。他說(shuō)：「我們并沒(méi)有在強化學(xué)習方面做什么全新的事情，就只是執行了搜索。」并且這種搜索很簡(jiǎn)單。

簡(jiǎn)單來(lái)說(shuō)，就是搜索后續步驟執行不同動(dòng)作時(shí)的情況，然后選擇預期結果最好的一個(gè)。

實(shí)驗結果證明這種簡(jiǎn)單方法確實(shí)有效。

不管是哪種方法，在添加了搜索之后都取得了顯著(zhù)更好的表現。之前表現最差的基于啟發(fā)式方法的 SmartBot 在添加了搜索之后也超過(guò)了未使用搜索的基于強化學(xué)習的最佳方法 SAD。

這一巨大提升甚至讓 Brown 及其團隊一度懷疑實(shí)驗出 bug 了。要知道 Hanabi 游戲本質(zhì)上不可能取得 100% 勝率，經(jīng)過(guò)搜索加持的強化學(xué)習神經(jīng)網(wǎng)絡(luò )的勝率可能趨近于飽和。

同時(shí)，多智能體搜索的表現也優(yōu)于單智能體搜索。這或許就是 Noam Brown 最近正在積極為 OpenAI 網(wǎng)羅多智能體研究者的原因。

Brown 提到他們并不是唯一一個(gè)發(fā)現這一趨勢的團隊。目前就職于 Anthropic 的 Andy Jones 也曾在棋盤(pán)游戲 Hex 上發(fā)現了這一點(diǎn)。

該研究發(fā)現，測試時(shí)間計算量增加 15 倍的效果相當于訓練時(shí)間計算量增加 10 倍的效果。考慮到訓練時(shí)的計算量遠高于測試時(shí)的計算量。因此讓測試時(shí)間計算量增加 15 倍要劃算得多。

接下來(lái)，Brown 介紹了一個(gè)在國際象棋比賽上模仿人類(lèi)專(zhuān)家數據的研究。這個(gè)名叫 MAIA 的國際象棋 AI 在 Elo 較高時(shí)比目標 Elo 分數低 100-300 分。也就是說(shuō)，如果使用 2000 分的人類(lèi)數據來(lái)訓練它，它自己卻只能得到 1700 分。但 MAIA 在有一種情況下能與人類(lèi)專(zhuān)家持平，也就是快棋賽——這時(shí)候人類(lèi)沒(méi)有足夠的思考時(shí)間。因此，這可能表明神經(jīng)網(wǎng)絡(luò )難以近似人類(lèi)的規劃能力。

之后，Brown 團隊的一篇 ICML 2022 論文研究了在監督模型上添加規劃的效果。可以看到不管是圍棋還是國際象棋，搜索都大有助益。

也許很多人都認為，要在某個(gè)數據集上最大限度地提高預測準確性，方法就是使用大量數據訓練一個(gè)超大模型，但這些研究卻給出了不一樣的見(jiàn)解：在適當的超參數下添加搜索能力，就可以極大提升預測準確度。如下圖所示。

用于外交的人工智能

接下來(lái)，Brown 介紹了他在 FAIR 時(shí)開(kāi)發(fā)的一個(gè)用于外交游戲 Diplomacy 的 AI 智能體 Cicero，這是首個(gè)在外交策略博弈任務(wù)上達到人類(lèi)水平的 AI。參閱機器之心報道《爭取盟友、洞察人心，最新的Meta智能體是個(gè)談判高手》。

外交是一種非常復雜的自然語(yǔ)言策略博弈。Cicero 以匿名方式參與到了有許多人類(lèi)玩家參與的游戲中。它玩了 40 局都沒(méi)有被發(fā)現，并且平均每一局要收發(fā) 292 條消息。

一些參與游戲的人類(lèi)玩家在獲知 Cicero 是 AI 之后都發(fā)出了類(lèi)似下圖的驚嘆之語(yǔ)！

Cicero 的表現如下，在參與游戲至少 5 局的玩家中，它取得了第 2 名的成績(jì)。在所有玩家中也名列前 10%。整體優(yōu)于人類(lèi)玩家的平均水平。

下面來(lái)看看 Cicero 的工作方式。它的輸入包括游戲棋盤(pán)和對話(huà)歷史，其條件動(dòng)作模型需要基于此預測所有玩家在當前回合會(huì )做什么，然后將這些動(dòng)作輸入到一個(gè)規劃引擎中。

Brown 表示規劃引擎是Cicero 的一大創(chuàng )新，現今的許多語(yǔ)言模型都還不具備這一點(diǎn)。

這個(gè)規劃引擎會(huì )迭代式地預測所有玩家的動(dòng)作以及所有玩家可能預測的Cicero 的動(dòng)作。

最終，這會(huì )得到一個(gè)輸出動(dòng)作，還會(huì )得到一些意圖——用于調節對話(huà)模型。也就是說(shuō)，在執行了規劃，搞清楚了我們應該在本回合中采取哪些行動(dòng)以及我們認為其他玩家在本回合中會(huì )采取哪些行動(dòng)之后，將這些規劃輸入對話(huà)模型，使對話(huà)模型以此為條件輸出消息。

Brown 也提到這個(gè)過(guò)程非常耗時(shí)，通常每一次都需要至少 10 秒才能生成一個(gè)消息（他們使用了幾十臺 GPU）。但這種時(shí)間成本是值得的，能大幅提升性能。

規劃為何有效？

規劃為什么能帶來(lái)如此巨大的性能提升？Brown 提到了「生成器-驗證器差距」現象。簡(jiǎn)單來(lái)說(shuō)，在許多領(lǐng)域，生成一個(gè)好解決方案的難度通常大于驗證一個(gè)解決方案的難度。舉個(gè)例子，玩數獨游戲肯定比驗證已經(jīng)填入的數值更難。

但在另一些領(lǐng)域，情況卻并非如此。比如對于信息檢索任務(wù)，如果問(wèn)不丹的首都是哪里，模型可以一口氣生成幾十個(gè)候選項，但我們還要費一番功夫去驗證它。圖像生成也是如此：生成圖像很簡(jiǎn)單，但要驗證生成的圖像是否滿(mǎn)足要求會(huì )更困難。

因此，當存在「生成器-驗證器差距」且具有比較好的驗證器時(shí)，我們可以將更多計算放在生成上，然后驗證結果。

在語(yǔ)言模型中使用規劃

之后，Noam Brown 開(kāi)始討論語(yǔ)言模型。有趣的是他在此時(shí)強調：「我只能談?wù)撘寻l(fā)表的研究。」這似乎在暗示他參與了或至少知道一些未發(fā)表的相關(guān)研究——或許就是 OpenAI ο1 及未來(lái)模型用到的技術(shù)。

他認為人們依然低估了這些技術(shù)所能帶來(lái)的增益。

有一種名為 Consensus（共識）的算法是這樣執行驗證的：讓 LLM 生成多個(gè)解，然后選擇出現次數最多的那個(gè)。

方法很簡(jiǎn)單，但僅憑此方法，Minerva 模型在 MATH 數據集上的表現就從 33.6% 提升到了 50.3%。這里 Minerva 對每個(gè)問(wèn)題采樣 1000 次。

但這種方法也有缺點(diǎn)，那就是只適合答案只有數值等簡(jiǎn)單結果的問(wèn)題。對于證明題之類(lèi)的任務(wù)，就沒(méi)辦法了，因為這些任務(wù)很難每次都有一樣的結果，難以達成共識。

另一種方法是 Best of N。這需要用到一個(gè)獎勵模型來(lái)為生成的 N 個(gè)答案打分，然后返回最佳結果。這種方法的表現依賴(lài)于獎勵模型的質(zhì)量。如果獎勵模型質(zhì)量不行，就可能出現在錯誤上過(guò)擬合的問(wèn)題。

我們還可以做到更好。接下來(lái)Brown 介紹了那篇著(zhù)名的論文《Let's Verify Step By Step》。機器之心也曾報道過(guò)這項研究，參閱《OpenAI要為GPT-4解決數學(xué)問(wèn)題了：獎勵模型指錯，解題水平達到新高度》。

這篇論文發(fā)布于大概一年前，其中提出了「過(guò)程獎勵模型」這一思路。簡(jiǎn)單來(lái)說(shuō)，就是不再只是驗證最終解答，而是驗證每一步求解過(guò)程。只要過(guò)程中存在任何不正確的步驟，就判定最終結果是錯誤的，即便最終結果看起來(lái)是正確的。

這種方法的表現如何呢？如下圖所示，橙色線(xiàn)是過(guò)程獎勵模型的表現，可以看到，其顯著(zhù)優(yōu)于Best of N 和結果導向的獎勵模型，并且其優(yōu)勢會(huì )隨著(zhù)求解數量 N 的提升而提升。

Brown 舉了一個(gè)非常有趣的例子。讓LLM 解決這個(gè)數學(xué)問(wèn)題：化簡(jiǎn) tan100° + 4sin100°。

原始 GPT-4 模型正確解答這個(gè)數學(xué)問(wèn)題的可能性?xún)H有千分之一，而逐步驗證法可將其提升一大截。

當今的 AI 圖景和未來(lái)方向

接著(zhù)，Brown 話(huà)鋒一轉，分享了當今的 AI 圖景。請注意，由于這次演講發(fā)生于 2024 年 5 月 23 日，因此其中并沒(méi)有最新的模型。但他談到的發(fā)展趨勢依然很有價(jià)值。

他說(shuō)，在他研究生階段研究撲克 AI 時(shí)，人們自認為找到了實(shí)現超人級撲克 AI 的方法：使用已有的算法，每一年都提升其計算和數據規模即可，然后就能擊敗前一年的模型。

他認為當今的 AI 領(lǐng)域也非常相似：有一種有效的技術(shù)，然后用更大的模型在更多的數據上訓練更長(cháng)時(shí)間，讓其不斷變得更好。與此同時(shí)，推理成本依然很低。Brown 表示未來(lái)不一定還是如此。

（當然，我們知道 o1 的出現已經(jīng)開(kāi)始扭轉這一趨勢，讓人們更加注重研究推理時(shí)間的計算，即 inference-time compute 或 test-time compute）。

對于編程輔助和翻譯這樣的任務(wù)，我們可能并不愿意等待很長(cháng)時(shí)間，但對于另一些重要問(wèn)題，我們甘心等待幾個(gè)小時(shí)乃至很多天，比如解決黎曼猜想或發(fā)現救命藥物，又或者生成一部?jì)?yōu)質(zhì)的小說(shuō)。

他介紹了自己的「下一個(gè)目標」：通用性。

我們能否開(kāi)發(fā)出用于擴展推理計算的真正通用的方法？

通過(guò)提升測試時(shí)間的計算成本來(lái)打造更強大的模型（我們愿意為解決黎曼猜想或發(fā)現救命藥物付出多少推理成本？）

這些研究能讓我們大致窺見(jiàn)未來(lái)遠遠更加強大的模型。（或許就是 OpenAI CEO 山姆?奧特曼所說(shuō)的「超級智能」？）。

他也給學(xué)術(shù)界的研究者提了一點(diǎn)建議：

規劃是一個(gè)相對較好的研究領(lǐng)域，對資源不豐富的學(xué)術(shù)研究者來(lái)說(shuō)，這個(gè)方向避開(kāi)了與大公司的正面競爭，或許更容易出成果。因為大公司基于利益考慮，更愿意訓練超大模型，同時(shí)盡可能地降低推理成本，以便為大量用戶(hù)提供服務(wù)。

另一個(gè)頗具潛力的研究方向是「外部驗證器」，因為這樣可以避免受到獎勵模型質(zhì)量瓶頸的限制。

最后，Brown 提到了 Richard Sutton 那篇著(zhù)名的文章《苦澀的教訓》。

他引用了這兩句：「70 年的人工智能研究史告訴我們，利用計算能力的一般方法最終是最有效的方法。……搜索和學(xué)習似乎正是兩種以這種方式隨意擴展的方法。」

☆收藏0

標簽: Brown AI Cicero OpenAI AlphaGo

返回列表

上一篇：AI大模型對勞動(dòng)力市場(chǎng)影響幾何？這份報告指出……

下一篇：第一個(gè)爆款AI游戲來(lái)了！數千萬(wàn)玩家徹夜硬肝做卷餅？

發(fā)表評論

中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全

<center id="unq55"><strike id="unq55"><nobr id="unq55"></nobr></strike></center>

<rt id="unq55"><meter id="unq55"><center id="unq55"></center></meter></rt>

_{<source id="unq55"></source>}

<style id="unq55"><dfn id="unq55"></dfn></style><center id="unq55"></center>