當前位置:首頁(yè) > 百科 > 正文內容

AI頂會(huì )ICML收了一篇論文:沒(méi)算法沒(méi)實(shí)驗

三明印刷后道3個(gè)月前 (08-05)百科18
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

蔡永強 投稿

量子位 | * QbitAI

沒(méi)有算法沒(méi)有實(shí)驗,從2610篇收錄論文中脫穎而出,成為唯一一篇純理論入選2024 ICML Spotlight的論文。

“Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions(詞的萬(wàn)能逼近:從語(yǔ)言角度看映射組合)”,這篇純理論論文講了什么,何以入選Spotlight?

簡(jiǎn)單來(lái)說(shuō),目前基于深度學(xué)習的序列模型,如語(yǔ)言模型,受到了廣泛關(guān)注并取得了成功,這促使研究人員探索將非序列問(wèn)題轉換為序列形式的可能性。

沿著(zhù)這一思路,深度神經(jīng)網(wǎng)絡(luò )可以表示為一系列線(xiàn)性或非線(xiàn)性映射的復合函數,其中每個(gè)映射都可以看作是一個(gè)“詞”。

然而,線(xiàn)性映射的權重是未確定的,因此需要無(wú)限多個(gè)詞。

而這篇論文研究有限情形并構造性地證明了存在一個(gè)有限的函數詞匯表V,用于實(shí)現萬(wàn)能逼近。

也就是說(shuō),對于任何連續映射f、緊集Ω和ε0,存在V中的一個(gè)有限序列,使得它們的復合映射能夠在Ω上近似f且逼近誤差小于ε。

論文研究結果展示了函數復合的非凡近似能力,并為正則語(yǔ)言提供了新的模型。

這項研究由北京師范大學(xué)蔡永強完成,在2024 ICML的2610篇收錄論文中,144篇是Oral,191篇是Spotlight。但初步盤(pán)點(diǎn)在今年的Oral和Spotlight論文中,僅有這一篇是沒(méi)有算法沒(méi)有實(shí)驗的純理論文章。

下面我們來(lái)看看具體內容。

自然語(yǔ)言與萬(wàn)能逼近的相似之處

認知心理學(xué)家和語(yǔ)言學(xué)家早已認識到語(yǔ)言對于智能的重要性,而B(niǎo)ERT和GPT等語(yǔ)言模型的流行進(jìn)一步凸顯了這一點(diǎn)。

這些基于RNN或Transformer的模型通過(guò)將自然語(yǔ)言處理轉化為序列學(xué)習問(wèn)題,徹底改變了自然語(yǔ)言處理的研究方向。它們可以處理文本中的長(cháng)程依賴(lài)性,并根據上下文內容生成連貫的文本,這使它們成為語(yǔ)言理解和生成方面的重要工具。

這些模型的成功還催生了一種通過(guò)將非序列問(wèn)題轉化為序列問(wèn)題來(lái)解決非序列問(wèn)題的新方法。

例如,圖像處理可以轉化為序列學(xué)習問(wèn)題,將圖像分割成小塊,將它們按一定順序排列,然后使用序列學(xué)習算法處理得到的序列以實(shí)現圖像識別。

序列學(xué)習算法的使用還可以擴展到強化學(xué)習領(lǐng)域,例如Decision Transformer通過(guò)利用因果掩碼Transformer輸出最佳動(dòng)作,可以取得很好的性能。

序列建模為解決各種問(wèn)題開(kāi)辟了新的可能性,這種趨勢似乎在理論研究領(lǐng)域也得到了體現。

眾所周知,人工神經(jīng)網(wǎng)絡(luò )具有萬(wàn)能逼近能力,寬或深的前饋網(wǎng)絡(luò )可以任意逼近緊集上的連續函數。

然而,在A(yíng)lphaFold、BERT和GPT等實(shí)際應用中,殘差網(wǎng)絡(luò )結構比前饋結構更受青睞。據觀(guān)察,殘差網(wǎng)絡(luò )(ResNet)可以視為動(dòng)力系統的前向歐拉離散,這種關(guān)系催生了一系列基于動(dòng)力系統的神經(jīng)網(wǎng)絡(luò )結構,例如連續情形的Neural ODE等。基于動(dòng)力系統的神經(jīng)網(wǎng)絡(luò )結構有望在各個(gè)領(lǐng)域發(fā)揮重要作用。

值得注意的是,語(yǔ)言模型和動(dòng)力系統都與時(shí)間序列建模相關(guān),并且已有效地應用于非序列問(wèn)題。

這一觀(guān)察自然會(huì )讓我們產(chǎn)生疑問(wèn):

語(yǔ)言模型和時(shí)間序列建模各自的成功之間是否存在內在聯(lián)系?

本文這項研究就是在探究這一問(wèn)題。

通過(guò)比較研究,作者從萬(wàn)能逼近的角度得到了一些初步結果。具體來(lái)說(shuō),可以證明存在有限個(gè)映射,稱(chēng)為詞匯表??,(其中的映射可以取為一些自治動(dòng)力系統的流映射),使得任何連續映射可以通過(guò)復合詞匯表??中的一個(gè)系列來(lái)近似。

這與自然語(yǔ)言中基于詞來(lái)構建短語(yǔ)、句子、段落和篇章來(lái)傳達復雜信息的方式相似。

下表1直觀(guān)地體現了這種相似性。

△表 1. 自然語(yǔ)言與萬(wàn)能逼近的相似之處

總結來(lái)說(shuō),研究有以下幾個(gè)貢獻:

證明了通過(guò)復合有限集 V 中的一系列映射可以實(shí)現萬(wàn)能逼近性質(zhì)。

給出了構造性證明,基于動(dòng)力系統流映射構造了滿(mǎn)足條件的 V。

給出了復合映射與自然語(yǔ)言中的單詞/短語(yǔ)/句子之間的一個(gè)類(lèi)比,這可以啟發(fā)逼近理論、動(dòng)力系統、序列建模和語(yǔ)言學(xué)之間的跨學(xué)科研究。

主要結論 記號

對深度學(xué)習有所了解的讀者應該都聽(tīng)說(shuō)過(guò)萬(wàn)能逼近定理,它指的是神經(jīng)網(wǎng)絡(luò )可以近似任意的連續函數。

“近似”需要明確是在什么意義之下,下面是兩種常見(jiàn)的刻畫(huà),本文稱(chēng)為C-UAP和L?-UAP,其中C-UAP更強一些。

萬(wàn)能逼近性質(zhì)

為了表述本文的新型萬(wàn)能逼近定理,需要給出如下記號:

有限詞匯表

核心是將V稱(chēng)為詞匯表,V中的映射稱(chēng)為“詞”,V中一個(gè)序列的復合稱(chēng)為“句子”,所有“句子”的集合記為HV。記號中的實(shí)心點(diǎn)表示的是函數復合,計算時(shí)先復合最左邊的函數。與常規的復合函數記號相比,有下面的關(guān)系:

函數復合

這里之所以要引入新的記號,而不是直接用復合函數的常規記號,是因為常規記號中最先運算的函數是寫(xiě)在最后邊,這個(gè)相反的順序不便于書(shū)寫(xiě)。

定理

本文的主要定理表述如下:

主要結論

定理2.2比較技巧性,記號:

表示的是d維保持定向的微分同胚組成的集合,根據BrenierGangbo于2003證明的結論(保持定向的微分同胚可以近似連續函數,前提是維數d大于等于2)可以得到推論2.3。

推論2.3表明“句子”的集合HV具有萬(wàn)能逼近性質(zhì)。這與傳統的萬(wàn)能逼近具有本質(zhì)的區別。

證明思路

定理的證明涉及的知識要點(diǎn)羅列如下:

(1)保持定向的微分同胚可以近似連續函數(Brenier Gangbo, 2003 )

(2)保持定向的微分同胚可以用微分方程的流映射來(lái)近似(Agrachev Caponigro, 2010)

(3)常微分方程可以使用算子分裂格式來(lái)近似求解(Holden et al., 2010)

(4)單隱藏層的神經(jīng)網(wǎng)絡(luò )可以近似任意連續函數(Cybenko, 1989)

(5)流映射是單參數的,對于單參數t,可以用形如p+q√2形式的數來(lái)近似,其中p,q是整數(Kronecker逼近定理)

基于要點(diǎn) (3) 和 (4),作者曾證明了d維流映射可以用寬度為d(深度不限)的全連接神經(jīng)網(wǎng)絡(luò )來(lái)近似,并在此基礎上研究了神經(jīng)網(wǎng)絡(luò )具有萬(wàn)能逼近的最小寬度問(wèn)題,本文進(jìn)一步結合其余要點(diǎn)得到了詞匯表的萬(wàn)能逼近定理。

要點(diǎn) (5) 起到非常關(guān)鍵的作用,它是數論里面比較基礎的結論之一,讀者可能比較熟悉的版本是:考慮無(wú)理數(比如圓周率π)的整數倍,其小數部分在[0,1]區間上是稠密的。

備注:作為上述思路的一個(gè)練習,讀者可以嘗試證明矩陣(線(xiàn)性映射)版本的定理:考慮d階方陣,存在有限個(gè)方陣的集合V,使得任意的方陣都可以用V中的一個(gè)序列的乘積來(lái)近似(證明見(jiàn)原論文附錄 D,思路是考慮初等矩陣,它們是單參數的)。

總結與啟發(fā)

本文主要是證明了萬(wàn)能逼近可以像使用語(yǔ)言一樣達到,傳達的都是“用有限個(gè)字表達無(wú)限的思想”,主要結論先后投了NeurIPS和ICLR但都被拒了,6+4位審稿人都覺(jué)得結論很有意思但不清楚有什么用(ICLR 的審稿意見(jiàn)見(jiàn)OpenReview)。

作者表示吸取了審稿人的建議,在投ICML的版本中加入了對正則語(yǔ)言(形式語(yǔ)言中最簡(jiǎn)單的一種)的探討(見(jiàn)定理 5.2),并討論了對自然語(yǔ)言處理方法的啟發(fā),這才得以接收。

文章之所以被選為Spotlight,可能是因為定理暗示我們可以考慮將詞嵌入為函數(而非向量),這對于理解和構建人工智能模型具有一定的啟發(fā)性。

在自然語(yǔ)言處理中,準確刻畫(huà)詞和句子的語(yǔ)義至關(guān)重要。

眾所周知的詞向量嵌入提供了一個(gè)很好的基線(xiàn),具有相似語(yǔ)義的單詞具有相似的詞向量。然而,由于靜態(tài)詞向量無(wú)法描述多義詞的不同語(yǔ)義以及上下文的影響,人們開(kāi)發(fā)了動(dòng)態(tài)詞向量模型以及更復雜的大語(yǔ)言模型,如BERT和GPT。

然而,如何解釋預訓練語(yǔ)言模型是一個(gè)困難的問(wèn)題。

作者指出了本文的定理隱含的結論是,如果將語(yǔ)義表示為函數(這是一個(gè)比向量空間大得多的空間),那么我們可以通過(guò)復合一序列來(lái)自函數詞匯表中的函數來(lái)近似任何語(yǔ)義。

這就是本文第5節中提出的復合流空間模型(CFSM)。

從頭訓練這樣一個(gè)CFSM是困難而耗時(shí)的。一種替代方案是直接從LLM(如Llama)中提取嵌入的函數,然后觀(guān)察CFSM在多大程度上可以恢復LLM的功能。

人類(lèi)的自然語(yǔ)言是非常復雜的,將詞嵌入為函數雖然比將詞嵌入為向量更具一般性,但依然是Toy模型。

作者表示本文期望能對工程師們有所啟發(fā),重新審視“詞嵌入”這個(gè)術(shù)語(yǔ),或許可以對理解 Transformer,Mamba,RNN,TTT等模型,以及提出新的模型帶來(lái)新的視角。

作者最后還附上1889年4月26日出生于奧地利維也納省的語(yǔ)言哲學(xué)家路德維希?約瑟夫?約翰?維特根斯坦的兩句名言:

“The limits of my language mean the limits of my world.”(我的語(yǔ)言的界限即是我的世界的界限。)

“The meaning of a word is its use in the language.”(一個(gè)詞的意義在于它在語(yǔ)言中的使用。)

論文鏈接:

—完—

投稿請發(fā)郵件到:

021yin.com

標題注明【投稿】,告訴我們:

你是誰(shuí),從哪來(lái),投稿內容?

附上論文/項目主頁(yè)鏈接,以及聯(lián)系方式哦

我們會(huì )(盡量)及時(shí)回復你

點(diǎn)這里??關(guān)注我,記得標星哦~

一鍵三連「分享」、「點(diǎn)贊」和「在看」

科技前沿進(jìn)展日日相見(jiàn) ~

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全