當前位置:首頁(yè) > 百科 > 正文內容

動(dòng)動(dòng)手指就能完成復雜的數據分析,MIT團隊為數據庫引入生成式AI

晁花巷4個(gè)月前 (07-10)百科33
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

一種新工具讓數據庫用戶(hù)在無(wú)需了解幕后機制的情況下,更輕松地對表格數據執行復雜的統計分析。

GenSQL,這一數據庫生成式 AI 系統,能夠幫助用戶(hù)只需按幾下鍵即可完成預測、異常檢測、缺失值推測、錯誤修正或生成合成數據。

例如,若該系統用于分析一貫高血壓患者的醫療數據,它能捕捉到對于該特定患者而言偏低但通常處于正常范圍內的血壓讀數。

(來(lái)源:MIT News)

GenSQL 自動(dòng)集成表格數據集與生成式概率 AI 模型,該模型能夠考慮不確定性,并基于新數據調整其決策過(guò)程。

此外,GenSQL 可用于生成并分析模擬數據庫中真實(shí)數據的合成數據,這對于不能共享敏感數據(如患者健康記錄)或真實(shí)數據稀疏的情況特別有用。

這一新工具建立在 SQL 基礎之上,SQL 是一種自 20 世紀 70 年代末推出的數據庫創(chuàng )建與操作編程語(yǔ)言,全球數百萬(wàn)開(kāi)發(fā)者使用。

“從歷史上看,SQL 教會(huì )了商業(yè)世界計算機可以做什么。他們不必編寫(xiě)定制程序,只需用高級語(yǔ)言向數據庫提問(wèn)即可。我們認為,當我們從單純查詢(xún)數據轉向向模型和數據提問(wèn)時(shí),我們將需要一種類(lèi)似的語(yǔ)言來(lái)教會(huì )人們如何向具有數據概率模型的計算機提出連貫的問(wèn)題。”MIT 大腦與認知科學(xué)系概率計算項目負責人、資深作者 Vikash Mansinghka 如是說(shuō)。

當研究者將 GenSQL 與流行的人工智能數據分析方法比較時(shí),發(fā)現它不僅速度更快,而且結果更為準確。尤為重要的是,GenSQL 使用的概率模型是可解釋的,用戶(hù)可以閱讀和編輯這些模型。

論文的主要作者、來(lái)自大腦與認知科學(xué)系及概率計算項目的研究員 Mathieu Huot 補充道:“僅使用一些簡(jiǎn)單的統計規則觀(guān)察數據并試圖尋找有意義的模式,可能會(huì )遺漏重要的交互作用。你真正想要做的是在一個(gè)模型中捕獲變量之間的相關(guān)性和依賴(lài)性,這可能相當復雜。通過(guò) GenSQL,我們想讓大量用戶(hù)能夠在不必了解所有細節的情況下查詢(xún)他們的數據和模型。”

參與該論文的還有 MIT 研究生 Matin Ghavami 和 Alexander Lew、研究員Cameron Freer、Digital Garage 的 Ulrich Schaechtel 和 Zane Shelby、電氣工程與計算機科學(xué)系教授及計算機科學(xué)與人工智能實(shí)驗室(CSAIL)成員 Martin Rinard,以及卡內基梅隆大學(xué)助理教授 Feras Saad。這項研究最近在 ACM 編程語(yǔ)言設計與實(shí)現會(huì )議上公開(kāi)。

(來(lái)源:Proceedings of the ACM on Programming Languages)

結合模型與數據庫

SQL(結構化查詢(xún)語(yǔ)言)是一種用于存儲和操作數據庫中信息的編程語(yǔ)言。通過(guò)SQL,人們可以使用關(guān)鍵詞(如匯總、過(guò)濾或分組數據庫記錄)對數據提問(wèn)。

但查詢(xún)模型能提供更深入的洞察力,因為模型能捕捉數據對個(gè)體的含義。例如,一位女開(kāi)發(fā)者若想知道自己的薪酬是否過(guò)低,她可能更關(guān)心對她個(gè)人而言薪酬數據意味著(zhù)什么,而不是數據庫記錄中的趨勢。

研究者注意到 SQL 沒(méi)有提供有效方式來(lái)整合概率 AI 模型,而同時(shí),使用概率模型進(jìn)行推斷的方法又不支持復雜的數據庫查詢(xún)。

他們構建了 GenSQL 來(lái)填補這一空白,使得用戶(hù)能利用直接而強大的正式編程語(yǔ)言查詢(xún)數據集和概率模型。

GenSQL 用戶(hù)上傳他們的數據和概率模型,系統自動(dòng)集成這些信息。隨后,用戶(hù)可以運行查詢(xún),這些查詢(xún)同時(shí)受到后臺運行的概率模型輸入。這不僅允許更復雜的查詢(xún),還能提供更準確的答案。

例如,在 GenSQL 中的一個(gè)查詢(xún)可能是:“西雅圖的開(kāi)發(fā)者熟悉 Rust 編程語(yǔ)言的可能性有多大?”如果僅查看數據庫中列之間的相關(guān)性,就可能會(huì )忽略微妙的依賴(lài)關(guān)系。而整合概率模型能捕捉更復雜的交互。

此外,GenSQL 采用的概率模型是可審核的,人們可以看到模型用于決策的數據。此外,這些模型為每個(gè)答案提供了校準不確定性的度量。

例如,借助這種校準不確定性,如果用戶(hù)就少數群體(在數據集中代表性不足)患者的癌癥治療預測結果詢(xún)問(wèn)模型,GenSQL 會(huì )告知用戶(hù)其不確定程度,而非過(guò)分自信地推薦錯誤的治療方法。

更快且更準確的結果

為了評估 GenSQL,研究者將其系統與流行的神經(jīng)網(wǎng)絡(luò )基線(xiàn)方法進(jìn)行了比較。GenSQL 的速度是這些方法的 1.7 至 6.8 倍,在幾毫秒內執行了大多數查詢(xún),同時(shí)提供了更準確的結果。

他們還通過(guò)兩個(gè)案例研究應用了 GenSQL:一個(gè)系統識別出臨床試驗數據的錯誤標簽,另一個(gè)則生成了準確的合成數據,捕獲了基因組學(xué)中的復雜關(guān)系。

接下來(lái),研究者希望更廣泛地應用 GenSQL 來(lái)進(jìn)行大規模的人口建模。通過(guò) GenSQL,他們可以生成合成數據,以控制分析中所用信息的同時(shí),對健康和薪資等事項進(jìn)行推斷。

他們還想通過(guò)增加新優(yōu)化和自動(dòng)化功能使 GenSQL 更易用、更強大。長(cháng)遠來(lái)看,研究者希望讓用戶(hù)能以自然語(yǔ)言在 GenSQL 中提問(wèn),目標是最終開(kāi)發(fā)出類(lèi)似 ChatGPT 的 AI 專(zhuān)家,用戶(hù)可以就任何數據庫與其交談,其答案依據 GenSQL 查詢(xún)得出。

該研究部分由美國國防高級研究計劃局(DARPA)、谷歌和 Siegel 家族基金會(huì )資助。

原文鏈接:

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全