當前位置:首頁(yè) > 百科 > 正文內容

AI 搜索去魅

江門(mén)臺歷廠(chǎng)家4個(gè)月前 (07-18)百科20
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

在人工智能飛速發(fā)展的今天,AI搜索技術(shù)被廣泛認為是信息檢索領(lǐng)域的一次革命性進(jìn)步。然而,隨著(zhù)這一技術(shù)逐漸從實(shí)驗室走向市場(chǎng),它也面臨著(zhù)各種爭議和質(zhì)疑。本文旨在深入探討AI搜索技術(shù)的現狀、挑戰及其未來(lái)的發(fā)展方向。

最近不斷聽(tīng)到 AI 搜索是新共識這種觀(guān)點(diǎn),但在即刻搜索“AI 搜索”,出現的動(dòng)態(tài)翻來(lái)覆去都是我關(guān)注的那幾個(gè)人在發(fā),我無(wú)法確定是因為信息繭房還是真的新共識,得花點(diǎn)時(shí)間研究研究技術(shù)實(shí)現邏輯,避免焦慮。

本文主要為自己學(xué)習后整理,會(huì )包含一些其他文章的觀(guān)點(diǎn)、內容原文,非洗稿。

一、優(yōu)質(zhì)信息源推薦

一節播客,了解基礎技術(shù)實(shí)現邏輯

021yin.com/episode/668be4c2ae8e21859a657b8a

一篇知乎文章,包含技術(shù)實(shí)現以及部分商業(yè)邏輯

021yin.com/p/708438505

一節播客以及一篇*,都是來(lái)自 ThinkAny 的創(chuàng )始人,對產(chǎn)品功能規劃比較體系化并且詳細的講述

021yin.com/episode/6644d2da251bd96e6c951aa1

我做了一個(gè) AI 搜索引擎

這節播客是對談 360 VP,關(guān)于 360AI 搜索如何做的,包含一些內部才知道的信息量(但我發(fā)現播客中的內容已被多篇文章引用)

021yin.com/episode/665eda5f63c334a2fb484a2c

若關(guān)注搜索引擎,可看這篇以及文章內的相關(guān)推薦

搜索技術(shù)專(zhuān)欄

若關(guān)注 AI 搜索的一些思考,可看這篇文章,此文作者也做過(guò)多個(gè) AI 搜索的橫向對比

021yin.com/s/NsvecuHT_h21d9po0c7UmQ

二、技術(shù)邏輯

技術(shù)實(shí)現邏輯簡(jiǎn)單說(shuō)就三步:

第一步:獲取用戶(hù) query,并調用 Google 等搜索引擎或第三方服務(wù),獲取到搜索結果。

第二步:利用 embedding 等技術(shù)對搜索結果進(jìn)行排序、切片。

第三步:利用 RAG 技術(shù)從幾十個(gè)網(wǎng)頁(yè)中提取和 query 相關(guān)的信息,然后通過(guò)大模型來(lái)整合生成輸出。

一些補充說(shuō)明:

1)絕大部分通用 AI 搜索并未自建搜索引擎,都是調用三方搜索引擎獲取結果,據說(shuō) 360VP 說(shuō),如果要爬 5000w 的網(wǎng)頁(yè),大概需要一兩百萬(wàn)人民幣,爬回來(lái)的內容還要自己做安全審核,現在通用搜索引擎的網(wǎng)頁(yè)都是千億級別,通過(guò)多年不斷爬回來(lái)的,不管從時(shí)間還是錢(qián)維度,都不是普通創(chuàng )業(yè)者能承受的。

2)搜索引擎返回的網(wǎng)頁(yè)需要做內容需要按語(yǔ)義、段落、句子等方式做切分,將網(wǎng)頁(yè)內容轉化為更小的、易于處理的信息塊,便于后續步驟中更有效地檢索和利用信息。

3)RAG 技術(shù)原理

4)Perplexity 技術(shù)路徑

5)ThinkAny創(chuàng )始人認為的標準流程(ThinkAny 這套現在還未搭建完成)

6)傳統搜索引擎技術(shù)路線(xiàn)

三、三類(lèi) AI 搜索 1. 通用 AI 搜索

即支持搜索所有內容,例如 360AI 搜索,這類(lèi)搜索一般不會(huì )自建搜索引擎,可做空間相對有限,畢竟搜索結果來(lái)自于三方的搜索引擎。

據說(shuō)秘塔在自建搜索引擎。

2. 垂類(lèi) AI 搜索

可做空間更大,因為擁有特定領(lǐng)域的數據源和數據庫,需要把私有數據建立索引,自己要干更多的活,而不是直接去調用三方搜索引擎。

例如支持搜索小紅書(shū)、豆瓣、*、日歷、地圖,甚至*聊天內容。

3. 企業(yè) AI 搜索

將企業(yè)的各種結構化、非結構化數據都建立索引,然后提供一個(gè)查詢(xún)接口。

例如釘釘,用戶(hù)在釘釘里面可以搜索所有的聊天記錄、文檔、會(huì )議、日程、知識庫等。不僅能夠搜索到全面的信息,還能整合釘釘上的工作信息,比如整理出與誰(shuí)、在哪個(gè)場(chǎng)景(比如哪個(gè)群、哪篇文檔、哪次會(huì )議或哪個(gè)業(yè)務(wù)流程等)的綜合信息(此段信息來(lái)自網(wǎng)絡(luò ),不保真)。

還有一類(lèi)全家桶型 AI 搜索,也可以歸為企業(yè) AI 搜索,因為他適合擁有全家桶的大公司,例如 Gemini 可能支搜索 YouTube、Gmail、Google 網(wǎng)盤(pán)、GoogleMap、Google 文檔、Google 日歷等一系列產(chǎn)品里的信息,現在已支持下方產(chǎn)品。

這些分類(lèi)一般都會(huì )有一些交叉,例如通用 AI 搜索也會(huì )有一些特定領(lǐng)域數據,來(lái)增加自己差異化優(yōu)勢,例如秘塔支持播客搜索,360 改造了原來(lái)的搜索索引庫。

四、可做方向

現在處于百花齊放階段,各個(gè)產(chǎn)品都在通過(guò)不同環(huán)節的優(yōu)化打造出自己的獨特優(yōu)勢,例如支持搜索小紅書(shū)、播客、法律等專(zhuān)業(yè)搜索,結果支持導圖展示,支持深入研究等。

從技術(shù)實(shí)現邏輯三個(gè)步驟我們可以粗略劃分為三個(gè)方向。

1. 獲取結果

意圖識別,輸入改寫(xiě),支持模型切換,選擇便宜的搜索引擎,自建私有數據源,支持多模態(tài)搜索,同時(shí)進(jìn)行中英文搜索,支持深入研究……

2. 結果處理

搜索引擎結果重新排序,知識庫切片……

3. 結果輸出

支持展示摘要,支持復制,支持直接編輯,支持小紅書(shū)式 feed 流,支持左右滑動(dòng)式交互,支持一鍵生成 PPT,生成導圖等……

短時(shí)間來(lái)看,不管哪類(lèi)搜索,不管在哪個(gè)方向優(yōu)化,找到合適的用戶(hù)定位,都有機會(huì )建設起差異化優(yōu)勢。

長(cháng)周期來(lái)看,我比較認同一位即友的觀(guān)點(diǎn),AI 搜索不應該局限在 Summary,更應該關(guān)注整個(gè)任務(wù)鏈,即用戶(hù)意圖、用戶(hù)搜索之后會(huì )做什么,去解決用戶(hù)搜索背后的任務(wù)。

021yin.com/originalPost/6690abf699c7144fd6af42a0

五、AI 搜索主要成本

通過(guò)上面技術(shù)邏輯可看到,主要包括:搜索引擎 API,獲取私有數據,私有數據存儲,調用大模型 API,訓練成本,運營(yíng)成本等。

關(guān)于一次搜索的成本,一次調用搜索引擎的成本,多個(gè)播客中提到的并不一樣,且會(huì )和技術(shù)、時(shí)期等都影響很大,所以這里未展示出來(lái)。

六、商業(yè)模式

目前 AI 搜索商業(yè)模式主要有兩派,我將其稱(chēng)為訂閱派、廣告派。

廣告派:以 360、Google 為主,堅決不向 C 端用戶(hù)收費,還是想辦法向廣告主收費。

訂閱派:通過(guò)次數限制,高級功能限制等方式,付費解鎖。

七、關(guān)于 360

因為聽(tīng)了節 360VP 聊 AI 搜索,涉及些平時(shí)很少有渠道了解的到的信息,所在這里記錄下來(lái)。

1. AI 搜索引擎根據不同業(yè)務(wù)場(chǎng)景,通過(guò)語(yǔ)義識別進(jìn)行場(chǎng)景分流,再根據場(chǎng)景的流程設計,多次調用大小模型,提供最終的解決方案。比如 360VP 梁志輝曾經(jīng)表示,360 一次 AI 搜索有 9 次大模型的調用。

2. 360 將 query 的意圖識別分類(lèi)做到了4000多種,每一種需求配對應的Prompt,工作做得已經(jīng)相當精細,但 360VP 表示這仍然只是很粗顆粒度的匹配。

3. 深入回答

其他產(chǎn)品生成長(cháng)文本的邏輯:先生成大綱,大綱再進(jìn)行擴寫(xiě),但這樣可能會(huì )出現一些問(wèn)題,例如質(zhì)量不可控,重復等。

360 的解決方案:發(fā)現國內外的互聯(lián)網(wǎng)內容是存在一些割裂的,對很多問(wèn)題缺乏專(zhuān)業(yè)網(wǎng)站,所以解決方案是用中文搜索一遍,用英文再搜索一遍,英文搜索時(shí)則多參考一些海外網(wǎng)站。

八、本文未討論但很重要的問(wèn)題

AI 搜索引擎的評價(jià)標準是什么

什么場(chǎng)景適合 AI 搜索,什么場(chǎng)景原來(lái)搜索更有優(yōu)勢,尋址?找資源?解決問(wèn)題?即時(shí)問(wèn)題?簡(jiǎn)短內容?還是生成報告式搜索?

一些垂類(lèi)搜索,AI 搜索+商品,AI 搜索+旅游,AI 搜索+圖片,AI 搜索+小紅書(shū)?

PMF、TPF

AI 搜索什么最重要,技術(shù)?體驗?搜索結果忠于原網(wǎng)頁(yè)?還是定位?

關(guān)于成本、商業(yè)模式、搜索的未來(lái)、市場(chǎng)格局的變化等。

九、最后建議

作為非 AI 搜索從業(yè)者,無(wú)需作為產(chǎn)品蝗蟲(chóng)花太多時(shí)間關(guān)注,大致知道哪些產(chǎn)品有哪些獨特功能、獨特數據源,能夠更高效解決自己生活中的問(wèn)題即可。

例如秘塔可以搜索播客;

例如 kimi 原來(lái)可以搜索小紅書(shū)內容(后來(lái)下線(xiàn)了);

例如 360 能夠展示導圖更結構化查看;

例如通義千問(wèn)可以總結播客;

例如萬(wàn)知可以處理數百頁(yè)的 pdf,并生成 PPT;

例如 Gemini 可以關(guān)聯(lián) Google 全家桶,總結 Gmail 郵件;

例如 GPT 支持 memory;

本文由人人都是產(chǎn)品經(jīng)理作者【Aaron】,*:【曾俊筆記】,原創(chuàng )/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全