InfoQ 2024年趨勢報告:AI 智能體發(fā)展不及預期,RAG 或成最大贏(yíng)家
在本期播客節目中,InfoQ 的編輯團隊及其朋友們將深入探討人工智能、機器學(xué)習和數據工程領(lǐng)域的最新趨勢。
作為 InfoQ 的一大特色,趨勢報告系列專(zhuān)注于軟件開(kāi)發(fā)的各個(gè)關(guān)鍵領(lǐng)域。這些報告旨在為 InfoQ 的讀者和聽(tīng)眾提供今年值得關(guān)注的技術(shù)發(fā)展趨勢概覽。
InfoQ 的人工智能、機器學(xué)習和數據工程編輯團隊邀請了業(yè)界專(zhuān)家,共同探討了人工智能和機器學(xué)習領(lǐng)域的未來(lái)趨勢,以及接下來(lái) 12 個(gè)月中值得關(guān)注的動(dòng)態(tài)。本期播客記錄了這次討論的內容,小組成員們分享了他們對創(chuàng )新人工智能技術(shù)如何重塑行業(yè)格局的見(jiàn)解。
關(guān)鍵要點(diǎn)
人工智能的未來(lái)是開(kāi)放的。我們正處于大語(yǔ)言模型和基礎模型的時(shí)代。盡管目前大部分模型是閉源的,但像 Meta 這樣的公司正試圖引領(lǐng)開(kāi)源模型的趨勢。
檢索增強生成(RAG)的重要性將日益凸顯,特別是在大規模部署 LLM 的場(chǎng)景中。
隨著(zhù)人工智能賦能的 GPU 基礎設施和人工智能驅動(dòng)的個(gè)人電腦的出現,AI 驅動(dòng)的硬件將獲得更多關(guān)注。
由于受基礎設施設置和管理成本方面的限制,小語(yǔ)言模型(SLM)將得到更多的探索和采用。
小語(yǔ)言模型也是邊緣計算相關(guān)用例的一個(gè)很好的選擇,它們可以在小型設備上運行。
AI 代理,如編碼助手,將在企業(yè)應用開(kāi)發(fā)環(huán)境中得到更多的采用。
在語(yǔ)言模型的生命周期管理中,AI 的安全性和隱私保護將持續占據重要地位。自托管模型和開(kāi)源 LLM 解決方案將有助于加強 AI 的安全防護。
LangOps 或 LLMOps 將成為 LLM 生命周期的關(guān)鍵環(huán)節,它們在大模型生產(chǎn)環(huán)境部署的持續支持中發(fā)揮著(zhù)重要作用。
我們對未來(lái) 12 個(gè)月的 AI 發(fā)展做出了一些預測:機器人 AI,即具身 AI,將成為新的趨勢;從 AI 寒冬過(guò)渡到更多具體的應用場(chǎng)景,涉及更多自動(dòng)化工作流和智能體工作流,然后擴散到更多的邊緣設備,如筆記本電腦和手機。
簡(jiǎn) 介
Srini Penchikala:大家好,歡迎收聽(tīng) 2024 年人工智能與機器學(xué)習趨勢報告播客。這個(gè)播客是我們年度報告的一部分,目的是與聽(tīng)眾分享人工智能和機器學(xué)習領(lǐng)域的最新動(dòng)態(tài)。我是 Srini Penchikala,InfoQ 人工智能、機器學(xué)習和數據工程社區的主編。我們有幸邀請到了一群杰出的專(zhuān)家和實(shí)踐者,他們來(lái)自人工智能和機器學(xué)習的不同領(lǐng)域。
感謝大家來(lái)到這里。我非常期待與大家共同探討人工智能和機器學(xué)習領(lǐng)域的最新動(dòng)態(tài),包括我們目前的發(fā)展階段,更重要的是我們未來(lái)的發(fā)展方向。特別是自去年我們討論趨勢報告以來(lái),人工智能技術(shù)的創(chuàng )新速度之快令人目眩。在開(kāi)始深入播客主題之前,我想先向聽(tīng)眾朋友們提供一些必要的信息。我們的年度報告包含兩個(gè)主要部分。首先是這個(gè)播客,它提供了一個(gè)平臺,讓聽(tīng)眾能夠聽(tīng)到來(lái)自專(zhuān)家實(shí)踐者們對創(chuàng )新人工智能技術(shù)如何顛覆行業(yè)的見(jiàn)解。其次是一份書(shū)面文章,將在 InfoQ 網(wǎng)站上發(fā)布,其中將包含技術(shù)采用不同階段的趨勢圖,并詳細介紹自去年趨勢報告以來(lái)新增或更新的個(gè)別技術(shù)。
我強烈推薦大家在本月底文章發(fā)布時(shí)去閱讀它。現在,讓我們回到播客的討論上來(lái)。自 ChatGPT 發(fā)布以來(lái),生成式人工智能和大型語(yǔ)言模型技術(shù)的發(fā)展速度似乎達到了頂峰,而且這種快速的創(chuàng )新勢頭似乎不會(huì )很快放緩。技術(shù)領(lǐng)域的主要參與者都一直在忙著(zhù)發(fā)布他們的人工智能產(chǎn)品。今年早些時(shí)候,谷歌在 I/O 大會(huì )上發(fā)布了幾項新的更新,包括 Gemini 更新和生成式人工智能在搜索中的應用。同時(shí),OpenAI 也發(fā)布了 GPT-4o,這是一個(gè)能夠實(shí)時(shí)處理音頻、視覺(jué)和文本的全能模型,提供了一種多模態(tài)解決方案。
緊接著(zhù),Meta 也發(fā)布了 Llama 3,并很快推出了基于 4050 億參數的 Llama 3.1 版本。這些參數的數量級是億,而且它們還在不斷增加。像 Ollama 這樣的開(kāi)源解決方案也受到了越來(lái)越多的關(guān)注。看來(lái)這個(gè)領(lǐng)域一直在加速發(fā)展。生成式人工智能技術(shù)的基礎是大語(yǔ)言模型,它們經(jīng)過(guò)大量數據的訓練,能夠理解和生成自然語(yǔ)言及其他類(lèi)型的內容,還能執行豐富多樣的任務(wù)。因此,LLM 可以作為我們今年趨勢報告討論內容的切入點(diǎn)。
Anthony,你一直在密切關(guān)注 LLM 模型及其發(fā)展。你能談?wù)勆墒饺斯ぶ悄芎?LLM 模型的當前發(fā)展狀態(tài)、最近的一些主要進(jìn)展,以及我們的聽(tīng)眾應該關(guān)注哪些方面嗎?
AI 的未來(lái)是開(kāi)放的
Anthony Alford:如果要用一個(gè)詞來(lái)概括 LLM,我會(huì )選擇“更多”,或者可能是“規?!?。我們正處在 LLM 和基礎模型的黃金時(shí)代。OpenAI 可能是最顯眼的領(lǐng)導者,當然,還有其他大玩家,比如谷歌,還有 Anthropic 推出的 Claude。這些模型大多是封閉的,即便是 OpenAI,他們的旗艦產(chǎn)品也只能通過(guò) API 訪(fǎng)問(wèn)。然而,Meta 在這方面是一個(gè)異類(lèi)。實(shí)際上,我認為他們正試圖引領(lǐng)趨勢朝著(zhù)更開(kāi)放的方向發(fā)展。我記得扎克伯格最近說(shuō)過(guò),“人工智能的未來(lái)是開(kāi)放的。”因此,他們開(kāi)放了一些模型的權重。至于 OpenAI,盡管他們沒(méi)有公開(kāi)模型權重,但也會(huì )發(fā)布一些模型的技術(shù)細節。例如,我們知道 GPT-3 的第一個(gè)版本有 1750 億個(gè)參數,但對于 GPT-4,雖然他們沒(méi)有明確說(shuō)明,但趨勢表明它肯定擁有更多的參數,數據集更大,計算預算也更大。
我認為我們還將繼續見(jiàn)證的另一個(gè)趨勢是模型的預訓練,也就是 GPT 中的“P”。這些模型在龐大的數據集吉印通行預訓練,基本上是整個(gè)互聯(lián)網(wǎng)的內容。然后,他們會(huì )進(jìn)行微調,這是 ChatGPT 的關(guān)鍵創(chuàng )新之一。因此,這種指令微調現在變得極其普遍,我相信我們將繼續看到這一趨勢。接下來(lái),讓我們轉到上下文長(cháng)度這個(gè)話(huà)題,因為它代表了另一個(gè)發(fā)展趨勢。上下文長(cháng)度,即你可以輸入模型的數據量,這個(gè)量正在增加。我們可以討論這與新的 SSM(State Space Model,狀態(tài)空間模型,如 Mamba)之間的區別,因為 SSM 是沒(méi)有上下文長(cháng)度限制的。Mandy,你對這個(gè)話(huà)題有什么看法?
Mandy Gu:我認為這絕對是我們正在見(jiàn)證的一個(gè)明顯趨勢,那就是更長(cháng)的上下文窗口。當初 ChatGPT 等大語(yǔ)言模型開(kāi)始普及時(shí),這是人們普遍指出的一個(gè)不足之處。今年早些時(shí)候,Gemini、Google 基金會(huì )以及 GCP 的基礎模型引入了高達一百萬(wàn)個(gè) Token 的上下文窗口長(cháng)度,這無(wú)疑是一個(gè)改變游戲規則之舉,因為之前我們從未有過(guò)如此長(cháng)的上下文處理能力。我認為這引領(lǐng)了一種趨勢,其他供應商也在嘗試提供同樣長(cháng)甚至更長(cháng)的上下文窗口。由此產(chǎn)生的一個(gè)二級效應是提升了可訪(fǎng)問(wèn)性,它使得像信息檢索這樣的復雜任務(wù)變得更加簡(jiǎn)單。在過(guò)去,我們可能需要進(jìn)行多階段的檢索,例如 RAG,但現在,我們可以將所有上下文信息直接輸入到這一百萬(wàn) Token 的上下文窗口中,雖然不一定意味著(zhù)更好,但無(wú)疑簡(jiǎn)化了過(guò)程。這是過(guò)去幾個(gè)月的一個(gè)非常有趣的進(jìn)展。
Anthony Alford:Namee,你還有什么要補充的嗎?
Namee Oberst:我們專(zhuān)注于小語(yǔ)言模型的應用。較長(cháng)的上下文長(cháng)度窗口有它的價(jià)值,但根據我們內部的研究以及 YouTube 上一些知名人士的實(shí)驗,即便你只傳了 2000 個(gè) Token 的段落給大模型,它們在處理段落中間信息丟失的問(wèn)題上表現并不出色。因此,如果你想要進(jìn)行精確的信息檢索,有時(shí)候較長(cháng)的上下文窗口反而會(huì )誤導用戶(hù),讓用戶(hù)誤以為可以隨意輸入大量信息并精確地找到所需內容。我認為目前情況并非如此。我認為精心設計的信息檢索工作流,如 RAG,仍然是解決問(wèn)題的關(guān)鍵。
基本上,無(wú)論上下文 Token 數量達到百萬(wàn)級別,甚至更長(cháng),如果考慮到企業(yè)在實(shí)際使用場(chǎng)景中所處理的文檔數量,這樣的上下文長(cháng)度可能仍然不足以帶來(lái)實(shí)質(zhì)性的改變。但在消費者使用場(chǎng)景中,更長(cháng)的上下文窗口確實(shí)能夠顯著(zhù)提升信息檢索的效率。
Anthony Alford:所以說(shuō)回報是遞減的,對嗎?
Namee Oberst:確實(shí)存在回報遞減的效應。這在很大程度上取決于具體的應用場(chǎng)景。設想一下,如果有人需要瀏覽上萬(wàn)份文檔,那么增加上下文窗口的大小實(shí)際上幫助有限。大量研究表明,大語(yǔ)言模型并不適合作為搜索引擎使用,它們在精確檢索信息方面表現并不好。因此,我個(gè)人不太推薦依賴(lài)長(cháng)上下文的 LLM,而更傾向于使用 RAG。話(huà)雖如此,我認為在某些情況下,長(cháng)上下文窗口確實(shí)非常有用。例如,當你需要傳一篇很長(cháng)的論文給大模型,然后要求模型對其進(jìn)行重寫(xiě),但這篇論文的長(cháng)度超出了傳統上下文窗口的處理能力……我特別喜歡用 LLM 來(lái)轉換文檔,比如將一篇 Medium 長(cháng)文章轉換成白皮書(shū),這在以前是超出了常規上下文窗口的處理能力的。我認為這是一個(gè)非常好的應用場(chǎng)景。
Anthony Alford:你提到了 RAG,也就是檢索增強型生成技術(shù)。我們不如就來(lái)深入討論一下這個(gè)主題。它似乎首先能夠解決上下文長(cháng)度的問(wèn)題。此外,這看起來(lái)是一個(gè)相當普遍的應用場(chǎng)景。或許你可以就此發(fā)表一些看法,特別是對于小型的開(kāi)放模型。現在,人們可以在本地或者自己的硬件、云平臺上運行這些模型,利用 RAG 來(lái)解決問(wèn)題,這樣他們就不需要依賴(lài)那些大型的封閉模型了。N(xiāo)amee,你對這個(gè)問(wèn)題有什么見(jiàn)解嗎?
Namee Oberst:我非常支持這一理念。如果你看一下 Hugging Face 上可用的模型類(lèi)型以及它們的性能基準測試,我認為這非常令人印象深刻。此外,這些開(kāi)源模型的創(chuàng )新速度和節奏也同樣令人贊嘆。盡管如此,當你看著(zhù) GPT-4o 的推理速度和能力,以及它能夠為億萬(wàn)用戶(hù)提供數百萬(wàn)種服務(wù),你仍然會(huì )感到萬(wàn)分驚奇。
然而,如果你正在面對一個(gè)企業(yè)級的應用場(chǎng)景,你擁有明確的工作流,并且希望解決一個(gè)非常具體的問(wèn)題,例如自動(dòng)化特定的工作流,以自動(dòng)化生成報告為例,或者是在這些預定義的 10000 份文檔中進(jìn)行 RAG 來(lái)實(shí)現深入的信息檢索。我相信,你可以利用開(kāi)源模型來(lái)解決這些問(wèn)題,或者選擇一個(gè)現有的較小規模的語(yǔ)言模型,對其進(jìn)行微調,投入資源,然后基本上可以在企業(yè)私有云環(huán)境中運行這些模型,并且還可以逐漸將它們部署到邊緣設備上。因此,我非??春檬褂幂^小的模型來(lái)執行針對性任務(wù)。
Srini Penchikala:確實(shí),幾個(gè)月前我嘗試用 Ollama 來(lái)處理一個(gè)特定的用例,我非??春孟?Ollama 這樣的開(kāi)源解決方案。你可以自行托管服務(wù),這樣你就無(wú)需將所有數據上傳到云端,也不必擔心數據的去向。利用這些自行托管的模型,并結合 RAG 技術(shù),可以構建專(zhuān)有的信息知識庫。我認為這種方式在企業(yè)界正獲得越來(lái)越多的關(guān)注。企業(yè)希望保留數據的控制權,同時(shí)又能充分利用這項強大技術(shù)。
Roland Meertens:目前大多數企業(yè)都是以 OpenAI 作為起點(diǎn)來(lái)驗證自身的商業(yè)價(jià)值,在證明存在商業(yè)價(jià)值以后,他們才可以開(kāi)始思考,“我們如何將這項技術(shù)真正融入我們的應用程序?”我認為這非常棒,因為你可以很容易地開(kāi)始使用這項技術(shù),隨后再構建自己的基礎設施來(lái)支持應用程序的后續發(fā)展。
Srini Penchikala:是為了擴大規模,對吧,Roland?你可以評估出哪種模型最適合你的需求,對吧?
Roland Meertens:是的。
Srini Penchikala:讓我們繼續回到大語(yǔ)言模型的討論上來(lái)。另一個(gè)值得關(guān)注的領(lǐng)域是多模態(tài)模型,例如 GPT-4o,也就是所謂的全能模型。我認為這確實(shí)將 LLM 推向了一個(gè)新的高度。它不再局限于文本,我們還可以利用音頻、視頻或其他各種格式。那么,大家對 GPT-4o 或者多模態(tài)模型有什么見(jiàn)解嗎?
Namee Oberst:為了參與這期播客,我實(shí)際上做了一項實(shí)驗。我訂閱了 GPT-4o 的服務(wù),今天早上我出于好奇輸入了幾個(gè)提示詞。由于我們的主要工作是基于文本的,所以并不經(jīng)常使用這個(gè)功能。我要求它為 LLMware 生成一個(gè)新的標志,但它失敗了三次,每次都無(wú)法正確處理“LLMware”這個(gè)詞。盡管如此,我知道它非常令人印象深刻,并且我認為他們正在迅速取得進(jìn)展。但我想看看它們目前的水平如何,今天早上對我來(lái)說(shuō)體驗并不佳。當然,我也知道它們可能仍然比市場(chǎng)上其他任何產(chǎn)品都要好。我先聲明這一點(diǎn),以免有人來(lái)找我麻煩。
Roland Meertens:在圖像生成領(lǐng)域,我不得不說(shuō),去年我對 Midjourney 的表現感到非常驚訝。他們的進(jìn)步速度令人驚嘆,尤其是考慮到它還是一家小型公司。一家小型企業(yè)能夠憑借更優(yōu)秀的模型超越大型競爭者,這一現象確實(shí)令人感到驚嘆。
Mandy Gu:大型公司,如 OpenAI,有出色的泛化能力,并且非常擅長(cháng)吸引新人才進(jìn)入這一領(lǐng)域。然而,隨著(zhù)你更深入地探索,你會(huì )意識到,正如我們在人工智能和機器學(xué)習領(lǐng)域常說(shuō)的,天下沒(méi)有免費的午餐。你探索、測試、學(xué)習,然后找到適合你的方法,但并不總是那些大玩家才能做到。對我們來(lái)說(shuō),我們從多模態(tài)模型中受益最多的不是圖像生成,而是 OCR 能力。一個(gè)非常典型的應用場(chǎng)景是,我們上傳圖像或文件,然后與大語(yǔ)言模型對話(huà),尤其是針對圖像內容。這已經(jīng)成為我們最大的價(jià)值主張,并且深受我們開(kāi)發(fā)者的喜愛(ài)。因為在很多時(shí)候,當我們在幫助最終用戶(hù)或內部團隊進(jìn)行故障排查時(shí),他們會(huì )發(fā)給我們堆棧信息跟蹤或問(wèn)題截圖。能夠直接將這些截圖輸入給模型中,而不是去解讀它們,極大地節省了我們的時(shí)間。
因此,我們的價(jià)值并不僅僅來(lái)自圖像生成,而是更多地來(lái)自于 OCR 技術(shù)的應用,它為我們帶來(lái)了巨大的價(jià)值。
Srini Penchikala:這很有道理。當你采用這些技術(shù),無(wú)論是 OpenAI 還是其他公司,你就會(huì )發(fā)現,在將這些技術(shù)應用到公司的具體用例時(shí),并沒(méi)有通用的解決方案。因此,每個(gè)公司都有其獨特的應用場(chǎng)景和需求。
Daniel Dominguez:我覺(jué)得很有意思的是,現在我們看到 Hugging Face 上有超過(guò) 80 萬(wàn)個(gè)模型,那么明年會(huì )有多少新模型問(wèn)世,這絕對是一個(gè)很有意思的話(huà)題。目前流行的趨勢包括 Llama、Gemma、Mistral 和 Stability。一年之內,不僅在文本領(lǐng)域,圖像和視頻領(lǐng)域也將涌現出多少新模型,這無(wú)疑是一個(gè)值得關(guān)注的點(diǎn)。回看過(guò)去一年的模型數量是件有趣的事情,但更令人興奮的是,預測明年這個(gè)領(lǐng)域將出現的新模型數量,可能會(huì )是一個(gè)更加令人矚目的數字。
RAG 在大規模 LLM 中的應用
Srini Penchikala:沒(méi)錯,Daniel,你提出了一個(gè)好觀(guān)點(diǎn)。我認為這就像 20 年前的應用服務(wù)器市場(chǎng)一樣,幾乎每周都有新產(chǎn)品問(wèn)世。我認為這些產(chǎn)品有許多將逐漸融合,只有少數幾個(gè)能夠脫穎而出,并持續較長(cháng)時(shí)間。說(shuō)到 RAG,我認為這是企業(yè)真正能夠獲得價(jià)值的地方,輸入信息——無(wú)論是在本地還是云端——并通過(guò)大語(yǔ)言模型進(jìn)行分析,從而獲得深刻洞見(jiàn)。你認為有哪些 RAG 的實(shí)際應用案例可能會(huì )引起我們聽(tīng)眾的興趣?
Mandy Gu:我認為 RAG 是大語(yǔ)言模型規?;瘧弥凶罹哂袧摿Φ姆较蛑?,其應用形態(tài)可以根據檢索系統的設計而靈活變化,可以適應多樣化的用例需求。在我們公司,RAG 已被廣泛應用于內部流程。我們開(kāi)發(fā)了一個(gè)工具,它將我們的自托管大語(yǔ)言模型與公司所有知識庫相連接。我們的文檔存儲在 Notion 中,代碼托管在 GitHub 上,同時(shí),我們還整合了來(lái)自幫助中心網(wǎng)站以及其他平臺的公開(kāi)資料。
我們實(shí)質(zhì)上是在這些知識庫之上構建了一個(gè)檢索增強型生成系統。我們的設計思路是:每晚運行后臺作業(yè),從我們的知識源中抽取信息,并將它們存入我們的向量數據庫。我們?yōu)閱T工提供了一個(gè) Web 應用程序,他們可以針對這些信息提出問(wèn)題或給出指令。在內部進(jìn)行基準測試時(shí),我們也發(fā)現,這種方法在相關(guān)性和準確性方面,明顯優(yōu)于將所有上下文信息直接輸入給像 Gemini 1.5 這樣的模型。但回到問(wèn)題的核心,作為提升員工生產(chǎn)力的手段,RAG 已經(jīng)為我們帶來(lái)了許多真正優(yōu)秀的應用案例。
Namee Oberst:Mandy,你所分享的案例堪稱(chēng)經(jīng)典,而且執行得非常到位,完美契合了你們的需求。這正是大語(yǔ)言模型強大能力的最佳體現。你還提到了一些非常有趣的內容。你說(shuō)你們自托管了 LLM,我想知道,你們是否采用了某個(gè)開(kāi)源的 LLM,或者你是否愿意分享一些這方面的信息?當然,你無(wú)需透露太多細節。不管怎樣,這無(wú)疑是通用人工智能應用的一個(gè)杰出范例。
Mandy Gu:實(shí)際上,我們使用的都是開(kāi)源模型,很多都是從 Hugging Face 獲取的。我們在構建 LLM 平臺之初,就旨在為員工提供一種安全且易于訪(fǎng)問(wèn)的方式來(lái)探索這項前沿技術(shù)。和其他許多公司一樣,我們最初選擇了 OpenAI 的服務(wù),但為了保護敏感數據,我們在它前面加了一個(gè)個(gè)人信息保護層。然而,我們從內部用戶(hù)那里得到的反饋是,這個(gè)個(gè)人信息保護層實(shí)際上限制了生成式 AI 最高效的用例,因為在日常工作中,員工需要處理的不僅僅是個(gè)人信息,還有大量其他類(lèi)型的敏感信息。這個(gè)反饋促使我們轉變了思路:從防止員工與外部供應商共享敏感信息到如何確保員工可以安全地與 LLM 共享這些信息。因此我們從依賴(lài) OpenAI 的服務(wù)轉向了自托管大語(yǔ)言模型。
Namee Oberst:我簡(jiǎn)直被你所做的事情震撼到了。我認為這正是我們在 LLMware 所追求的。實(shí)際上,這正是我們希望借助在后端串聯(lián)小型語(yǔ)言模型進(jìn)行推理所能提供的那種解決方案。你多次提到了 Ollama,但我們基本上已經(jīng)將 Llama.cpp 集成到我們的平臺中,這樣你就可以基于量化模型輕松、安全地進(jìn)行推理。我堅信,你為你們企業(yè)設計的工作流非常出色。但同時(shí),我也預見(jiàn)到其他工作流自動(dòng)化的用例將會(huì )被簡(jiǎn)化,以便在筆記本電腦上運行。我幾乎可以預見(jiàn)在非常近的未來(lái),所有東西都將被微型化,這些大語(yǔ)言模型將變得更小巧,幾乎成為軟件的一部分,我們所有人都將能夠輕松、精確且安全地在筆記本電腦上部署它們,當然,還有私有云。
Mandy Gu:你提到了 Llama.cpp,我覺(jué)得這非常有趣,因為可能并不是每個(gè)人都能意識到量化模型和小模型能帶來(lái)如此多的邊際優(yōu)勢。目前,我們仍處于快速實(shí)驗階段,速度是關(guān)鍵。采用量化模型可能會(huì )在精度上略有損失,但我們從降低延遲和提高行動(dòng)速度方面獲得了回報,這對我們來(lái)說(shuō)是非常值得的。我認為 Llama.cpp 本身就是一個(gè)巨大的成功案例,這個(gè)由個(gè)人或小團隊所創(chuàng )造的框架,能夠得到如此大規模的執行。
AI 驅動(dòng)的硬件
Namee Oberst:Llama.cpp 是 Georgi Gerganov 開(kāi)發(fā)的,他在開(kāi)源領(lǐng)域做出了令人驚嘆的貢獻。Llama.cpp 為 Mac Metal 進(jìn)行了優(yōu)化,但在 NVIDIA CUDA 上也表現出色。我們正在做的工作是,讓數據科學(xué)家和機器學(xué)習團隊不僅能在 Mac Metal 上實(shí)現解決方案,還能跨越所有 AI PC 平臺。我們利用了 Intel OpenVINO 和 Microsoft ONNX 技術(shù),這樣數據科學(xué)家們就可以在他們喜歡的 Mac 上工作,然后也能輕松無(wú)縫地在其他 AI PC 上部署他們的模型,因為 MacOS 只占操作系統份額的大約 15%,剩下的 85% 實(shí)際上是非 MacOS 系統。想象一下,當我們能夠跨多個(gè)操作系統部署,并充分利用所有這些 AI PC 的 GPU 能力時(shí),未來(lái)的發(fā)展將會(huì )多么激動(dòng)人心。我認為,這將是未來(lái)趨勢中一個(gè)非常令人期待的方向。
小模型和邊緣計算
Srini Penchikala:你們都提到了小語(yǔ)言模型和邊緣計算,我們或許可以就此話(huà)題展開(kāi)討論。我知道關(guān)于大語(yǔ)言模型,我們可以討論很長(cháng)時(shí)間,但我更想聽(tīng)聽(tīng)你們對其他主題的看法。關(guān)于小模型,Namee,你在 LLMWare 對 SLM 做了一些研究,還特別提到了一個(gè)為 SLM 量身定制的 RAG 框架。你能否更深入地談?wù)勥@個(gè)領(lǐng)域?微軟也在研究他們所謂的 Phi-3 模型。能否分享一些這方面的信息?這些模型之間有何不同?我們的聽(tīng)眾如何能夠快速了解并跟上 SLM 的最新發(fā)展?
Namee Oberst:實(shí)際上,我們是小模型領(lǐng)域的探索先鋒。我們專(zhuān)注于小模型的研究已經(jīng)有一年多,可以說(shuō)相當早就開(kāi)始了。實(shí)際上,RAG 在過(guò)去三四年已經(jīng)在數據科學(xué)和機器學(xué)習領(lǐng)域得到了應用。我們在公司成立初期就對 RAG 進(jìn)行實(shí)驗,并對我們的小型參數模型進(jìn)行了一些非常早期的調整,我們發(fā)現可以讓這些模型執行非常強大的任務(wù),并且從中獲得了性能上的顯著(zhù)提升。同時(shí),我們也確保了數據的安全性和保障。這些因素始終是我考慮的重點(diǎn),因為我有法律專(zhuān)業(yè)的背景,我最初是在一家大型律師事務(wù)所擔任公司律師,后來(lái)還擔任了一家公共保險經(jīng)紀公司的總法律顧問(wèn)。
數據安全和隱私保護一直是我們最為關(guān)注的重點(diǎn)。對于那些受到嚴格監管的行業(yè)來(lái)說(shuō),選擇使用小模型或其他較小規模的模型,是一個(gè)顯而易見(jiàn)的決定。Mandy 已經(jīng)詳細闡述了許多原因,但成本效益同樣不容忽視。實(shí)際上,成本是一個(gè)巨大的考量因素。因此,當你能夠顯著(zhù)減少模型的資源占用并大幅降低成本時(shí),就沒(méi)有理由去部署那些龐大的模型。更令人振奮的是,越來(lái)越多的人開(kāi)始認識到這一點(diǎn),與此同時(shí),小模型性能取得了顯著(zhù)進(jìn)步。微軟推出的 Phi-3 模型,以及我們針對 RAG 進(jìn)行微調的模型,還有 Hugging Face 專(zhuān)為 RAG 設計的模型,都顯示出了卓越的性能。我們使用專(zhuān)有數據集對這些模型進(jìn)行微調,以相同的方式和數據集微調了 20 個(gè)模型,確保了我們可以進(jìn)行公平的比較。Phi-3 模型在我們的測試中表現卓越,超越了我們測試過(guò)的其他模型,包括那些擁有 80 億參數的模型,成為了表現最佳的模型。
我們的模型涵蓋了從 10 億參數到高達 80 億參數的范圍,并且在精確度方面達到了前所未有的高度,這真的讓我感到非常驚訝。Hugging Face 上那些向全世界免費開(kāi)發(fā)的小模型,正在變得越來(lái)越好,而且進(jìn)步速度非???。我認為這是一個(gè)非常激動(dòng)人心的世界。正如我之前所斷言的,按照這樣的創(chuàng )新速度,這些模型將會(huì )變得越來(lái)越小,小到它們所占用的資源跟軟件相當。在不久的將來(lái),我們將會(huì )在邊緣設備上部署大量這樣的模型。
Srini Penchikala:確實(shí),許多應用場(chǎng)景涉及線(xiàn)下大模型處理和線(xiàn)上邊緣設備實(shí)時(shí)分析的組合。這正是小型語(yǔ)言模型能夠發(fā)揮其優(yōu)勢的地方。Roland、Daniel 或者 Anthony,你們對小型語(yǔ)言模型有何看法?在這個(gè)領(lǐng)域,你們觀(guān)察到了哪些趨勢或發(fā)展?
Anthony Alford:確實(shí)如此。微軟的 Phi 系列模型無(wú)疑已經(jīng)成為了焦點(diǎn)。此外,我們也有這個(gè)議題,Namee,你提到這些模型正在變得更好。問(wèn)題是,我們怎么知道它們有多好?什么樣的表現才算足夠好?目前有許多基準測試,比如 MMLU、HELM、Chatbot Arena 等,還有很多排行榜和指標。我不想說(shuō)人們在操縱這些指標,但這有點(diǎn)像是 p-hacking,不是嗎?你發(fā)了一篇論文,宣稱(chēng)在某個(gè)特定指標上超越了其他基線(xiàn),但這并不總能直接轉化為實(shí)際的商業(yè)價(jià)值。因此,我認為這仍然是一個(gè)需要解決的問(wèn)題。
Namee Oberst:實(shí)際上,我們做了一套內部基準測試,專(zhuān)注于評估模型回答一些基于常識的商業(yè)和法律問(wèn)題的能力,這些問(wèn)題都是基于事實(shí)的。我們的平臺主要是面向企業(yè)用戶(hù),因此在這個(gè)場(chǎng)景下,我們更關(guān)注模型對事實(shí)性問(wèn)題、基本邏輯和數學(xué)問(wèn)題的回答能力,而不是創(chuàng )造力。我們甚至創(chuàng )建了自己的基準測試方法,Phi-3 模型的結果就是基于這些測試得出的。我對一些公布的結果持懷疑態(tài)度,你真的看過(guò) HellaSwag 上的一些問(wèn)題嗎?有時(shí)候我甚至不知道正確或錯誤的答案是什么。因此,我們決定開(kāi)發(fā)自己的測試標準,而我們討論的 Phi-3 模型的表現正是基于這些我們自己制定的標準。順便說(shuō)一句,微軟并沒(méi)有贊助我們,盡管我希望他們能。
Srini Penchikala:我們很快會(huì )開(kāi)始討論大模型的評估,在這之前,你們對語(yǔ)言模型還有什么看法嗎?
Roland Meertens:Phi 讓我印象深刻的一個(gè)點(diǎn)是,它在訓練過(guò)程中不僅使用了高質(zhì)量的數據,還通過(guò)自主生成數據來(lái)提升學(xué)習效果。例如,在編程方面,他們讓 Phi 為學(xué)生編寫(xiě)指導手冊,然后利用這些手冊作為訓練數據。這讓我深刻體會(huì )到,如果你擁有更優(yōu)質(zhì)的數據,并且能夠精心挑選這些數據,將能夠訓練出更為出色的模型。
Anthony Alford:你是說(shuō)”Textbooks Are All You Need“嗎?
Roland Meertens:除此之外,Hugging Face 的團隊成員也發(fā)表了多篇相關(guān)論文。目前,對于如何選擇合適的數據來(lái)訓練這些模型,人們表現出了極大的興趣。在我看來(lái),數據選擇在機器學(xué)習領(lǐng)域仍然是一項被低估且值得深入探討的課題。
Srini Penchikala:除了 Phi,Daniel,你之前提到了 TinyLlama。關(guān)于這些小模型,你有何見(jiàn)解或要評價(jià)的?
Daniel Dominguez:確實(shí),正如 Namee 所言,目前在 Hugging Face 平臺上的很多語(yǔ)言模型還有許多未知領(lǐng)域值得我們去探索。此外,Hugging Face 的一個(gè)吸引人之處在于他們對不同性能級別的 GPU 進(jìn)行了分類(lèi),你可能已經(jīng)注意到了他們在排行榜上的目標設定。根據你的硬件配置,可能會(huì )被歸類(lèi)為”富 GPU“用戶(hù)或”窮 GPU“用戶(hù),但不論哪種情況,你都能夠運行這些語(yǔ)言模型。同時(shí),我們也要感謝目前行業(yè)所提供的芯片技術(shù),例如 NVIDIA 的芯片,它們不僅能夠在云端運行這些小模型,也能夠在低端個(gè)人計算機 GPU 和系統上運行。
得益于 NVIDIA 等公司提供的高性能 GPU,這些小模型得以順利運行。在 Hugging Face 平臺上,當你看著(zhù)這些模擬演示時(shí),你會(huì )發(fā)現無(wú)需依賴(lài)龐大的計算資源即可在自己的設備上運行這些模型,這無(wú)疑是一個(gè)令人興奮的發(fā)現。
Srini Penchikala:還有很多其他的 AI 創(chuàng )新正在發(fā)生,在結束語(yǔ)言模型討論之前,我們快速再聊一下評估問(wèn)題。除了基準測試指標,這些我們可能需要謹慎對待的東西,我想知道在現實(shí)世界中的最佳實(shí)踐是怎樣的?正如你提到的,Daniel,面對眾多的模型,一個(gè)新入行者如何評估并比較這些模型,排除那些可能不適合他們的,并選擇適合他們的?你有沒(méi)有注意到在這個(gè)領(lǐng)域有哪些行業(yè)實(shí)踐或標準?
Mandy Gu:我認為 Anthony 提到的商業(yè)價(jià)值是一個(gè)值得我們在評估過(guò)程中考慮的要點(diǎn)。盡管我對那些通用的基準測試持保留態(tài)度,但我認為我們真正需要做的是全面評估大型語(yǔ)言模型,不僅包括基礎模型本身,還涉及到使用的技術(shù)以及我們如何針對特定任務(wù)來(lái)協(xié)調整個(gè)系統。例如,如果我的目標是總結一篇研究論文并提煉其語(yǔ)言,我就應該針對這一特定任務(wù)來(lái)評估 LLM 的能力。畢竟,沒(méi)有一套模型或技術(shù)能夠適用于所有任務(wù)。通過(guò)這個(gè)實(shí)驗過(guò)程,我可以更有信心地找到最適合的模型組合。歸根結底,如何更準確地量化評估結果,應該基于對當前任務(wù)的評估和我們期望看到的成果。
AI 智能體
Srini Penchikala:接下來(lái)我們聊聊 AI 智能體。據我所知,這一領(lǐng)域已經(jīng)取得了顯著(zhù)進(jìn)展,特別是在 AI 驅動(dòng)的編程助手方面。Roland,你對此有何見(jiàn)解?我知道你已經(jīng)對 Copilot 等工具進(jìn)行了深入研究。
Roland Meertens:去年你問(wèn)我對未來(lái)一年的趨勢有何看法,我預測是 AI 智能體。但現在看來(lái),我說(shuō)的可能并不完全準確。我們看到智能體技術(shù)確實(shí)有所發(fā)展。OpenAI 之前推出了 GPT Store,允許用戶(hù)自行創(chuàng )建個(gè)性化的智能體。然而,坦白地說(shuō),我還沒(méi)有聽(tīng)到有人向我強烈推薦某個(gè)智能體,說(shuō)它非常出色。所以,從這個(gè)角度來(lái)看,我認為目前的進(jìn)步還是有限的。不過(guò),我們確實(shí)看到了一些有趣的應用,例如 Devin,一個(gè) AI 軟件工程師智能體,它有一個(gè)終端、代碼編輯器和瀏覽器,你可以給它分配任務(wù),比如:“嘿,試著(zhù)解決這個(gè)問(wèn)題。”它會(huì )嘗試獨立完成所有工作。目前,Devin 的成功率大約是 20%,但考慮到它是免費的,這個(gè)成功率對于一個(gè)免費的”軟件工程師“來(lái)說(shuō)已經(jīng)相當令人滿(mǎn)意了。
此外,還有一些像 AgentGPT 這樣的平臺,我讓它為 AI 趨勢博客創(chuàng )建一個(gè)大綱,它提出了一些話(huà)題,比如:“我們可以討論 CNN 和 RNN 等趨勢。”我不認為這些還是趨勢,但它對這些話(huà)題仍然充滿(mǎn)熱情,這是件好事。但總的來(lái)說(shuō),我認為智能體仍然有巨大的潛力。如果你想完成某項任務(wù),完全可以進(jìn)行自動(dòng)化,而不是我自己去決定使用 ChatGPT 發(fā)送哪封電子郵件,然后發(fā)送它,接著(zhù)等待對方回復并用 ChatGPT 總結,再寫(xiě)回復。
Anthony Alford:我的疑問(wèn)在于,究竟是什么定義了“智能體”?
Roland Meertens:這是個(gè)好問(wèn)題。所以我認為,就我目前所看到的,智能體是一種能夠整合并執行多種任務(wù)的東西。
Anthony Alford:在念研究生時(shí),我的研究領(lǐng)域是智能代理。我們所談?wù)摰闹悄荏w主要是關(guān)于自主性。所以我認為,AI 安全領(lǐng)域的專(zhuān)家們所擔憂(yōu)的,可能就是賦予這些系統自主性。不管你對 AI 的未來(lái)發(fā)展持何種看法,關(guān)注自主性問(wèn)題都是非常合理的。目前來(lái)看,ChatGPT 可能還沒(méi)有達到實(shí)現完全自主性的水平。
Roland Meertens:這取決于你想做什么,以及你愿意在多大程度上讓渡自己的控制權。就我個(gè)人而言,我還不太愿意在工作中部署一個(gè)完全自主的“Roland 智能體”。我覺(jué)得它可能不會(huì )表現得特別智能。但我看到有人在約會(huì )應用上這么做了,顯然,他們愿意冒這個(gè)險。
Daniel Dominguez:正如 Roland 所說(shuō)的,智能體還沒(méi)有真正掀起大浪,但可以肯定的是,它們在未來(lái)一定會(huì )發(fā)生些什么。比如,扎克伯格最近提到,他們正在為小型企業(yè)開(kāi)發(fā)新的 Meta AI 智能體,這些智能體將幫助小企業(yè)主在自己的業(yè)務(wù)領(lǐng)域實(shí)現自動(dòng)化。Hugging Face 也有許多 AI 智能體,用于日常的工作流。Slack 也集成了許多 AI 智能體,用于幫助用戶(hù)總結對話(huà)內容、任務(wù)以及日常的工作流等。
我認為,隨著(zhù)我們在這一領(lǐng)域不斷進(jìn)步,AI 智能體在日常工作和小型企業(yè)中的應用將變得更加自然。因為它們將極大地幫助我們完成許多日常任務(wù),越來(lái)越多的公司也將開(kāi)始在自己的平臺上推出各式各樣的智能體服務(wù)。例如,據我所知,谷歌即將推出用于 Gmail 等任務(wù)的 AI 智能體服務(wù)。因此,這可能是在接下里的一年加速發(fā)展的一個(gè)趨勢。
Roland Meertens:確實(shí),特別是你可以借助 Langchain,讓事情變得相當容易:”我有這些 API 可以調用,我想要實(shí)現這樣的工作流程。如果你能夠實(shí)現,就執行相應的操作。如果無(wú)法實(shí)現,就使用另一個(gè) API。“將工具箱中的所有工具進(jìn)行組合并實(shí)現自動(dòng)化,這種能力是非常強大的。
Mandy Gu:你說(shuō)到點(diǎn)上了。以 Gmail 為例,有一個(gè)嵌入式助手可以幫你管理電子郵件,你就不需要去 ChatGPT 那里問(wèn)如何增強郵件,或者做你想做的任何其他事情。從行為學(xué)角度來(lái)看,讓信息在不同平臺之間流轉是一個(gè)巨大的工作負擔,如果我們能夠減少用戶(hù)完成他們的工作所需要打開(kāi)的標簽頁(yè)或需要訪(fǎng)問(wèn)的系統,這將是一個(gè)巨大的進(jìn)步。而真正推動(dòng)智能體采用的,就是這些因素。
Srini Penchikala:如果這些智能體能幫助我們決定何時(shí)發(fā)送電子郵件,何時(shí)不發(fā)送而是改為打電話(huà),那就很厲害了。我的意思是,那樣可能會(huì )更有效率,對吧?
Roland Meertens:我在思考趨勢的問(wèn)題。在去年,每一家公司都宣稱(chēng):“我們現在是一家 AI 公司。我們將擁有自己的聊天機器人。”我甚至看到一些同事說(shuō):“我想證明這個(gè)論點(diǎn),我讓 ChatGPT 為我生成了三頁(yè)的論點(diǎn),看起來(lái)不錯。”但我現在不想關(guān)心你的論點(diǎn)是什么,我不想和聊天機器人聊天,我只想瀏覽網(wǎng)站。所以我也好奇,最終會(huì )出現什么樣的結果?每一家公司、每一個(gè)網(wǎng)站都會(huì )變成一個(gè)聊天機器人嗎?或者我們是否也可以直接查找一本書(shū)的價(jià)格,而不是必須要求智能體為我們訂購它?
Srini Penchikala:我們不應該過(guò)度智能體化我們的應用程序,對吧?
Roland Meertens:我的建議是,不要讓你的生活變得過(guò)度智能體化。
AI安全
Srini Penchikala:Anthony,你之前提到了人工智能的安全性問(wèn)題,接下來(lái)就讓我們深入探討一下安全性。N(xiāo)amee 和 Mandy,你們都在多個(gè)實(shí)際項目中有所涉獵。你們如何看待安全與創(chuàng )新之間的關(guān)系?我們怎樣才能確保這些開(kāi)創(chuàng )性的技術(shù)在保持隱私和消費者數據安全的同時(shí)給我們帶來(lái)價(jià)值?
Mandy Gu:生成式人工智能確實(shí)在安全領(lǐng)域引發(fā)了一系列連鎖反應,例如第四方數據共享和數據隱私問(wèn)題,這些問(wèn)題日益嚴重。我們與許多 SaaS 供應商合作,這些供應商也是許多公司的選擇。他們通常會(huì )集成人工智能技術(shù),但并不總是會(huì )明確告知,實(shí)際上很多時(shí)候,他們會(huì )將用戶(hù)數據發(fā)給 OpenAI。根據數據的敏感程度,這可能是用戶(hù)希望避免的。因此,我認為我們需要關(guān)注兩點(diǎn)。首先,我們需要全面了解和追蹤我們的數據流向。隨著(zhù)人工智能集成的普及,這項工作變得更加復雜,我們必須牢記這一點(diǎn)。其次,如果我們希望員工遵循正確的數據隱私安全實(shí)踐,就必須讓他們選擇最簡(jiǎn)單、最安全的路徑。
回到我之前提到的例子,如果我們在與 OpenAI 和其他供應商的所有對話(huà)中都疊加一個(gè)極其嚴格的個(gè)人身份信息(PII)審查機制,這可能會(huì )讓使用者感到挫敗,他們可能會(huì )直接去使用 ChatGPT。但如果我們能夠為他們提供替代方案,并通過(guò)激勵措施使這些替代方案更加易于使用,或者增加他們需要的其他功能,同時(shí)確保安全選項是最容易實(shí)施的路徑,這樣就能吸引他們,并逐步建立起一種積極、注重數據隱私的良好文化。
Namee Oberst:是的,Mandy,你描述的工作流實(shí)際上凸顯了我在討論數據安全時(shí)經(jīng)常強調的一個(gè)觀(guān)點(diǎn):在企業(yè)當中,生成式人工智能工作流的設計對所有的敏感數據安全性都有重大影響。是否有供應商可能會(huì )無(wú)意中將我們的敏感數據發(fā)送給一個(gè)我們不信任的供應商,例如 OpenAI,這只是一個(gè)例子。我們需要審視這些問(wèn)題,需要審視數據的來(lái)源,需要確保工作流具備可審計性,這樣就可以追溯所有推理之間發(fā)生的交互。人工智能的可解釋性如何發(fā)揮作用?我設計的工作流是否存在潛在的攻擊面?如何處理提示詞注入問(wèn)題?
順便提一個(gè)有趣的事實(shí),由于經(jīng)常處理小規模任務(wù),小模型能夠很好地泛化,因此不太容易受提示詞注入的影響。但我們仍然需要關(guān)注提示詞注入、數據投毒等問(wèn)題。所以我認為,企業(yè)在部署人工智能時(shí)需要考慮諸多因素。Mandy,你剛才提出的觀(guān)點(diǎn)非常中肯。
Mandy Gu:你提到的攻擊面問(wèn)題,我非常認同,因為這確實(shí)是一個(gè)可能迅速失控的方面。有人將生成式人工智能及其集成比作有線(xiàn)電視與流媒體服務(wù),因為眾多公司都在推出自己的人工智能集成服務(wù),購買(mǎi)所有這些服務(wù)就像同時(shí)訂閱 Netflix、Hulu 以及其他所有流媒體服務(wù),不僅成本不劃算,而且確實(shí)增加了潛在的攻擊面。我認為,這正是我們在權衡自行構建與購買(mǎi)時(shí)需要考慮的,并且對我們所支付的費用以及數據的去向要有清晰的認識和審慎的決策。
我注意到人們對于這些問(wèn)題的普遍認識正在逐步提高。供應商,尤其是 SaaS 提供商,正在積極回應這些關(guān)切。越來(lái)越多的服務(wù)提供商開(kāi)始提供這樣的選項:“我們可以將服務(wù)托管在你的虛擬私有云(VPC)中。無(wú)論是在 AWS 還是 GCP 上,都可以運行 Gemini,確保你的數據仍然保留在你的云租戶(hù)內。”我認為這正是在安全意識方面所展現的一個(gè)積極趨勢。
LangOps 或 LLMOps
Srini Penchikala:除了安全性之外,我們需要關(guān)注的另一個(gè)重要問(wèn)題是如何在生產(chǎn)環(huán)境中管理這些大語(yǔ)言模型和人工智能技術(shù)?所有,讓我們迅速進(jìn)入 LangOps 或 LLMOps 這個(gè)話(huà)題。這一領(lǐng)域有幾種不同的術(shù)語(yǔ)并存。Mandy,或許你可以先分享一下你的觀(guān)點(diǎn)。你如何看待當前 LLM 在生產(chǎn)環(huán)境中的支持情況,以及有哪些寶貴的經(jīng)驗?
Mandy Gu:在 WealthSimple,我們把 LLM 的工作分為三個(gè)明顯不同的領(lǐng)域。首先是提升員工的工作效率,其次是優(yōu)化客戶(hù)業(yè)務(wù)流程,第三是基礎的 LLMOps,我們更愿意稱(chēng)之為 LLM 平臺工作,它為前兩個(gè)領(lǐng)域提供支持。我們在這方面積累了許多經(jīng)驗,對我們來(lái)說(shuō)行之有效的是我們的賦能理念。我們的工作以安全性、可訪(fǎng)問(wèn)性和選擇性為中心。我們的目標是為用戶(hù)提供可選擇性,讓每個(gè)人都能為手頭的任務(wù)選擇最合適的技術(shù)和基礎模型,幫助我們避免了這個(gè)領(lǐng)域常見(jiàn)的一個(gè)問(wèn)題,即人們將 LLM 視為尋找問(wèn)題的解決方案(拿著(zhù)錘子找釘子)。通過(guò)提供這些可復用的平臺組件,生成式 AI 的采納變得更加普遍。
這是一個(gè)我們逐漸才領(lǐng)悟到的教訓。在我們剛開(kāi)始踏上 LLM 之旅時(shí),我們構建了一個(gè) LLM 網(wǎng)關(guān),它有審計跟蹤功能,讓人們能夠安全地使用 OpenAI 和其他供應商的服務(wù)。我們收到的反饋是,審計跟蹤功能在很多實(shí)際應用場(chǎng)景中對他們造成了限制。因此,我們開(kāi)始自托管模型,這樣我們就可以輕松地加入開(kāi)源模型,進(jìn)行微調,然后將其集成到我們的平臺中,并通過(guò) LLM 網(wǎng)關(guān)為我們的系統和最終用戶(hù)提供推理服務(wù)。然后我們開(kāi)始構建檢索功能作為可復用的 API,并圍繞向量數據庫構建框架,增強可訪(fǎng)問(wèn)性。隨著(zhù)我們逐漸將這些組件平臺化,我們的最終用戶(hù)——包括科學(xué)家、開(kāi)發(fā)者以及業(yè)務(wù)人員——開(kāi)始嘗試并發(fā)現:“這個(gè)工作流實(shí)際上可以通過(guò) LLM 得到顯著(zhù)改進(jìn)。”這時(shí),我們就會(huì )介入,幫助他們將這些想法產(chǎn)品化,并實(shí)現大規模的產(chǎn)品部署。
AI 發(fā)展趨勢預測
Srini Penchikala:我們即將結束這次討論,這是一次非常精彩的討論。在結束之前,我想向在座的各位提出一個(gè)問(wèn)題:你們對人工智能領(lǐng)域在未來(lái) 12 個(gè)月內可能發(fā)生的事情有怎樣的預測?當我們明年再次聚在一起討論時(shí),可以回顧并討論這些預測的實(shí)現情況。
Mandy Gu:我認為,圍繞大模型的許多炒作將會(huì )逐漸平息。我們在過(guò)去一年半的時(shí)間里目睹了它們驚人的增長(cháng)。對于許多企業(yè)和行業(yè)來(lái)說(shuō),LLM 仍然是一個(gè)他們愿意持續投入的賭注。
然而,我認為在未來(lái)的 12 個(gè)月里,這種情況將會(huì )有所改變,我們將開(kāi)始對這項技術(shù)設定更為現實(shí)的預期,并在期望獲得具體成果之前,更加審慎地評估我們的探索深度。因此,我預測從現在開(kāi)始的 12 個(gè)月內,LLM 炒作將會(huì )減少,那些繼續采用這項技術(shù)的公司將會(huì )找到切實(shí)可行的方法,將其無(wú)縫集成到他們的工作流或產(chǎn)品中。
Daniel Dominguez:我預測,隨著(zhù)人工智能不斷產(chǎn)生海量數據,它將與區塊鏈等技術(shù)有某種形式的融合。我已經(jīng)注意到許多區塊鏈項目已經(jīng)開(kāi)始探索與人工智能的數據整合。雖然區塊鏈和人工智能的融合目前還處于早期階段,但在未來(lái)將會(huì )取得顯著(zhù)進(jìn)展,尤其是在數據管理方面。因此,我認為人工智能與區塊鏈的結合將是未來(lái)技術(shù)發(fā)展的一個(gè)重要趨勢。
Roland Meertens:我仍然對機器人技術(shù)抱有期待,不過(guò)現在我們更傾向于稱(chēng)之為具身人工智能。這是去年逐漸流行起來(lái)的一個(gè)新術(shù)語(yǔ)。我不確定什么時(shí)候會(huì )發(fā)生,智能體已經(jīng)能為我們執行計算機任務(wù),如果我們把它們放到機器人的身體里,它們還會(huì )幫我們干活。具身人工智能無(wú)疑將成為下一個(gè)重要的大事。
Srini Penchikala:看來(lái)這些機器人將成為你的付費程序員,對嗎?
Roland Meertens:不是這樣。智能體將成為你的編程伙伴,而機器人則會(huì )在日常生活中為你提供幫助。我好奇的是,現在的公司擁有大量的數據,他們是否會(huì )利用這些數據來(lái)微調自己的模型并將其商業(yè)化?或者繼續使用 RAG?設想一下,如果你是一個(gè)園藝師,多年來(lái)一直在拍攝花園的照片,并提供如何改善花園的建議。肯定有很多小型企業(yè)擁有這樣的數據,他們將如何從這些數據中獲取價(jià)值?我非常好奇這些小型企業(yè)將如何利用他們的數據,以及如何構建自己的智能體、聊天機器人或 AI 自動(dòng)化解決方案。
Anthony Alford:人工智能寒冬,Mandy 已經(jīng)提到了,不是嗎?她說(shuō)“我們可能會(huì )看到炒作的熱度逐漸降低”,這是“溫和”版本的寒冬。而“強烈”版本的寒冬,或許你已經(jīng)看到過(guò)這樣的標題,我記得是《自然》雜志上的一篇論文,它指出:“如果你用生成式 AI 生成的內容來(lái)訓練生成式 AI,結果可能會(huì )變得更糟。”我認為人們已經(jīng)開(kāi)始思考互聯(lián)網(wǎng)是否正在被這些生成式內容污染。讓我們拭目以待。我真心希望我的擔憂(yōu)是多余的,我真心不希望這個(gè)預測會(huì )成為現實(shí)。
Srini Penchikala:這是非??赡艿?,對吧?Namee,你對接下來(lái)的 12 個(gè)月有怎樣的預測?
Namee Oberst:我預測我們將會(huì )經(jīng)歷一些 Anthony 和 Mandy 所描述的情況,但很快會(huì )過(guò)渡到更有價(jià)值、更加現實(shí)和具體的應用場(chǎng)景上,包括更自動(dòng)化的工作流、智能體工作流,以及進(jìn)一步擴展到邊緣設備,比如筆記本電腦和智能手機。這就是我的預測,這將會(huì )很有趣。
Srini Penchikala:是的,這將會(huì )很有趣,這也是我所預測的。我相信我們將看到更多融合、端到端、全面的人工智能解決方案,它們結合了小模型、RAG 技術(shù)和人工智能硬件。我認為許多積極的變化正在發(fā)生。我希望所謂的人工智能寒冬不會(huì )持續太久。
相關(guān)資源
論文“Textbooks Are All You Need”
SantaCoder: don't reach for the stars!
嘉賓簡(jiǎn)介
Mandy Gu是 Wealthsimple 的高級軟件開(kāi)發(fā)經(jīng)理,負責領(lǐng)導機器學(xué)習和數據工程團隊。此前,她擁有豐富的自然語(yǔ)言處理(NLP)和數據科學(xué)方面的工作經(jīng)驗。
Namee Oberst是一家專(zhuān)注于生成式和開(kāi)源人工智能解決方案的初創(chuàng )公司的創(chuàng )始人。
Srini Penchikala是一位資深的軟件架構師,并擔任 InfoQ 人工智能、機器學(xué)習與數據工程板塊的主編。著(zhù)有《Apache Spark 大數據處理》和《Spring Roo 實(shí)戰》(合著(zhù)者)。
Roland Meertens是一位機器學(xué)習工程師,在自動(dòng)駕駛汽車(chē)領(lǐng)域深耕計算機視覺(jué)技術(shù)。此前,他曾在社交媒體平臺、深度學(xué)習自然語(yǔ)言處理、社交機器人以及無(wú)人機領(lǐng)域從事計算機視覺(jué)方面的工作。
Anthony Alford是 Genesys 高級開(kāi)發(fā)總監,在設計和構建大規模軟件方面擁有超過(guò) 20 年的經(jīng)驗。
Daniel Dominguez是華盛頓大學(xué)機器學(xué)習專(zhuān)業(yè)的工程師,擁有超過(guò) 12 年的軟件產(chǎn)品開(kāi)發(fā)經(jīng)驗。
查看英文原文:
021yin.com/podcasts/ai-ml-data-engineering-trends-2024/
剝離幾百萬(wàn)行代碼,復制核心算法去美國?TikTok 最新回應來(lái)了
《黑神話(huà):悟空》的第二個(gè)受害者出現了,竟是AI搜索惹的禍!
拖欠半年工資沒(méi)發(fā),員工拿飲水機抵錢(qián)!又一家明星智駕獨角獸燒光 10 多億后黯然離場(chǎng)
跟著(zhù)小扎不白干,9 個(gè)月“出師”:用學(xué)到的 10 條經(jīng)驗搞出 AI 界“帶貨王”,年入 1 億美元