AI 搜索去魅
在人工智能飛速發(fā)展的今天,AI搜索技術(shù)被廣泛認為是信息檢索領(lǐng)域的一次革命性進(jìn)步。然而,隨著(zhù)這一技術(shù)逐漸從實(shí)驗室走向市場(chǎng),它也面臨著(zhù)各種爭議和質(zhì)疑。本文旨在深入探討AI搜索技術(shù)的現狀、挑戰及其未來(lái)的發(fā)展方向。
最近不斷聽(tīng)到 AI 搜索是新共識這種觀(guān)點(diǎn),但在即刻搜索“AI 搜索”,出現的動(dòng)態(tài)翻來(lái)覆去都是我關(guān)注的那幾個(gè)人在發(fā),我無(wú)法確定是因為信息繭房還是真的新共識,得花點(diǎn)時(shí)間研究研究技術(shù)實(shí)現邏輯,避免焦慮。
本文主要為自己學(xué)習后整理,會(huì )包含一些其他文章的觀(guān)點(diǎn)、內容原文,非洗稿。
一、優(yōu)質(zhì)信息源推薦
一節播客,了解基礎技術(shù)實(shí)現邏輯
021yin.com/episode/668be4c2ae8e21859a657b8a
一篇知乎文章,包含技術(shù)實(shí)現以及部分商業(yè)邏輯
021yin.com/p/708438505
一節播客以及一篇*,都是來(lái)自 ThinkAny 的創(chuàng )始人,對產(chǎn)品功能規劃比較體系化并且詳細的講述
021yin.com/episode/6644d2da251bd96e6c951aa1
我做了一個(gè) AI 搜索引擎
這節播客是對談 360 VP,關(guān)于 360AI 搜索如何做的,包含一些內部才知道的信息量(但我發(fā)現播客中的內容已被多篇文章引用)
021yin.com/episode/665eda5f63c334a2fb484a2c
若關(guān)注搜索引擎,可看這篇以及文章內的相關(guān)推薦
搜索技術(shù)專(zhuān)欄
若關(guān)注 AI 搜索的一些思考,可看這篇文章,此文作者也做過(guò)多個(gè) AI 搜索的橫向對比
021yin.com/s/NsvecuHT_h21d9po0c7UmQ
二、技術(shù)邏輯
技術(shù)實(shí)現邏輯簡(jiǎn)單說(shuō)就三步:
第一步:獲取用戶(hù) query,并調用 Google 等搜索引擎或第三方服務(wù),獲取到搜索結果。
第二步:利用 embedding 等技術(shù)對搜索結果進(jìn)行排序、切片。
第三步:利用 RAG 技術(shù)從幾十個(gè)網(wǎng)頁(yè)中提取和 query 相關(guān)的信息,然后通過(guò)大模型來(lái)整合生成輸出。
一些補充說(shuō)明:
1)絕大部分通用 AI 搜索并未自建搜索引擎,都是調用三方搜索引擎獲取結果,據說(shuō) 360VP 說(shuō),如果要爬 5000w 的網(wǎng)頁(yè),大概需要一兩百萬(wàn)人民幣,爬回來(lái)的內容還要自己做安全審核,現在通用搜索引擎的網(wǎng)頁(yè)都是千億級別,通過(guò)多年不斷爬回來(lái)的,不管從時(shí)間還是錢(qián)維度,都不是普通創(chuàng )業(yè)者能承受的。
2)搜索引擎返回的網(wǎng)頁(yè)需要做內容需要按語(yǔ)義、段落、句子等方式做切分,將網(wǎng)頁(yè)內容轉化為更小的、易于處理的信息塊,便于后續步驟中更有效地檢索和利用信息。
3)RAG 技術(shù)原理
4)Perplexity 技術(shù)路徑
5)ThinkAny創(chuàng )始人認為的標準流程(ThinkAny 這套現在還未搭建完成)
6)傳統搜索引擎技術(shù)路線(xiàn)
三、三類(lèi) AI 搜索 1. 通用 AI 搜索
即支持搜索所有內容,例如 360AI 搜索,這類(lèi)搜索一般不會(huì )自建搜索引擎,可做空間相對有限,畢竟搜索結果來(lái)自于三方的搜索引擎。
據說(shuō)秘塔在自建搜索引擎。
2. 垂類(lèi) AI 搜索
可做空間更大,因為擁有特定領(lǐng)域的數據源和數據庫,需要把私有數據建立索引,自己要干更多的活,而不是直接去調用三方搜索引擎。
例如支持搜索小紅書(shū)、豆瓣、*、日歷、地圖,甚至*聊天內容。
3. 企業(yè) AI 搜索
將企業(yè)的各種結構化、非結構化數據都建立索引,然后提供一個(gè)查詢(xún)接口。
例如釘釘,用戶(hù)在釘釘里面可以搜索所有的聊天記錄、文檔、會(huì )議、日程、知識庫等。不僅能夠搜索到全面的信息,還能整合釘釘上的工作信息,比如整理出與誰(shuí)、在哪個(gè)場(chǎng)景(比如哪個(gè)群、哪篇文檔、哪次會(huì )議或哪個(gè)業(yè)務(wù)流程等)的綜合信息(此段信息來(lái)自網(wǎng)絡(luò ),不保真)。
還有一類(lèi)全家桶型 AI 搜索,也可以歸為企業(yè) AI 搜索,因為他適合擁有全家桶的大公司,例如 Gemini 可能支搜索 YouTube、Gmail、Google 網(wǎng)盤(pán)、GoogleMap、Google 文檔、Google 日歷等一系列產(chǎn)品里的信息,現在已支持下方產(chǎn)品。
這些分類(lèi)一般都會(huì )有一些交叉,例如通用 AI 搜索也會(huì )有一些特定領(lǐng)域數據,來(lái)增加自己差異化優(yōu)勢,例如秘塔支持播客搜索,360 改造了原來(lái)的搜索索引庫。
四、可做方向
現在處于百花齊放階段,各個(gè)產(chǎn)品都在通過(guò)不同環(huán)節的優(yōu)化打造出自己的獨特優(yōu)勢,例如支持搜索小紅書(shū)、播客、法律等專(zhuān)業(yè)搜索,結果支持導圖展示,支持深入研究等。
從技術(shù)實(shí)現邏輯三個(gè)步驟我們可以粗略劃分為三個(gè)方向。
1. 獲取結果
意圖識別,輸入改寫(xiě),支持模型切換,選擇便宜的搜索引擎,自建私有數據源,支持多模態(tài)搜索,同時(shí)進(jìn)行中英文搜索,支持深入研究……
2. 結果處理
搜索引擎結果重新排序,知識庫切片……
3. 結果輸出
支持展示摘要,支持復制,支持直接編輯,支持小紅書(shū)式 feed 流,支持左右滑動(dòng)式交互,支持一鍵生成 PPT,生成導圖等……
短時(shí)間來(lái)看,不管哪類(lèi)搜索,不管在哪個(gè)方向優(yōu)化,找到合適的用戶(hù)定位,都有機會(huì )建設起差異化優(yōu)勢。
長(cháng)周期來(lái)看,我比較認同一位即友的觀(guān)點(diǎn),AI 搜索不應該局限在 Summary,更應該關(guān)注整個(gè)任務(wù)鏈,即用戶(hù)意圖、用戶(hù)搜索之后會(huì )做什么,去解決用戶(hù)搜索背后的任務(wù)。
021yin.com/originalPost/6690abf699c7144fd6af42a0
五、AI 搜索主要成本
通過(guò)上面技術(shù)邏輯可看到,主要包括:搜索引擎 API,獲取私有數據,私有數據存儲,調用大模型 API,訓練成本,運營(yíng)成本等。
關(guān)于一次搜索的成本,一次調用搜索引擎的成本,多個(gè)播客中提到的并不一樣,且會(huì )和技術(shù)、時(shí)期等都影響很大,所以這里未展示出來(lái)。
六、商業(yè)模式
目前 AI 搜索商業(yè)模式主要有兩派,我將其稱(chēng)為訂閱派、廣告派。
廣告派:以 360、Google 為主,堅決不向 C 端用戶(hù)收費,還是想辦法向廣告主收費。
訂閱派:通過(guò)次數限制,高級功能限制等方式,付費解鎖。
七、關(guān)于 360
因為聽(tīng)了節 360VP 聊 AI 搜索,涉及些平時(shí)很少有渠道了解的到的信息,所在這里記錄下來(lái)。
1. AI 搜索引擎根據不同業(yè)務(wù)場(chǎng)景,通過(guò)語(yǔ)義識別進(jìn)行場(chǎng)景分流,再根據場(chǎng)景的流程設計,多次調用大小模型,提供最終的解決方案。比如 360VP 梁志輝曾經(jīng)表示,360 一次 AI 搜索有 9 次大模型的調用。
2. 360 將 query 的意圖識別分類(lèi)做到了4000多種,每一種需求配對應的Prompt,工作做得已經(jīng)相當精細,但 360VP 表示這仍然只是很粗顆粒度的匹配。
3. 深入回答
其他產(chǎn)品生成長(cháng)文本的邏輯:先生成大綱,大綱再進(jìn)行擴寫(xiě),但這樣可能會(huì )出現一些問(wèn)題,例如質(zhì)量不可控,重復等。
360 的解決方案:發(fā)現國內外的互聯(lián)網(wǎng)內容是存在一些割裂的,對很多問(wèn)題缺乏專(zhuān)業(yè)網(wǎng)站,所以解決方案是用中文搜索一遍,用英文再搜索一遍,英文搜索時(shí)則多參考一些海外網(wǎng)站。
八、本文未討論但很重要的問(wèn)題
AI 搜索引擎的評價(jià)標準是什么
什么場(chǎng)景適合 AI 搜索,什么場(chǎng)景原來(lái)搜索更有優(yōu)勢,尋址?找資源?解決問(wèn)題?即時(shí)問(wèn)題?簡(jiǎn)短內容?還是生成報告式搜索?
一些垂類(lèi)搜索,AI 搜索+商品,AI 搜索+旅游,AI 搜索+圖片,AI 搜索+小紅書(shū)?
PMF、TPF
AI 搜索什么最重要,技術(shù)?體驗?搜索結果忠于原網(wǎng)頁(yè)?還是定位?
關(guān)于成本、商業(yè)模式、搜索的未來(lái)、市場(chǎng)格局的變化等。
九、最后建議
作為非 AI 搜索從業(yè)者,無(wú)需作為產(chǎn)品蝗蟲(chóng)花太多時(shí)間關(guān)注,大致知道哪些產(chǎn)品有哪些獨特功能、獨特數據源,能夠更高效解決自己生活中的問(wèn)題即可。
例如秘塔可以搜索播客;
例如 kimi 原來(lái)可以搜索小紅書(shū)內容(后來(lái)下線(xiàn)了);
例如 360 能夠展示導圖更結構化查看;
例如通義千問(wèn)可以總結播客;
例如萬(wàn)知可以處理數百頁(yè)的 pdf,并生成 PPT;
例如 Gemini 可以關(guān)聯(lián) Google 全家桶,總結 Gmail 郵件;
例如 GPT 支持 memory;
本文由人人都是產(chǎn)品經(jīng)理作者【Aaron】,*:【曾俊筆記】,原創(chuàng )/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。