蘋(píng)果的AI不是AI,這正是我最期待的地方
蘋(píng)果終于發(fā)布了自己“AI”,盡管它并不是 AI。
把 AI 解釋為 “Apple Intelligence(蘋(píng)果智能)”的縮寫(xiě),總會(huì )讓人回想起當年在上海,杰克馬面對一龍馬,將 AI 釋為“Alibaba Intelligence(阿里智能)”的尷尬時(shí)刻。
過(guò)去這些年,當眾多廠(chǎng)商都在迫不及待地給產(chǎn)品冠以各種“AI”之名時(shí),蘋(píng)果卻從未這么做,它堅持使用“神經(jīng)網(wǎng)絡(luò )”、“機器學(xué)習”等詞語(yǔ),并表示“這樣描述才更準確”——面對“人工智能”這一概念,蘋(píng)果始終保持著(zhù)極大的克制和謹慎。
是 AI,但又不是 AI。盡管來(lái)遲,但不妨礙所有人都將這次發(fā)布會(huì )視為蘋(píng)果邁入 AI 時(shí)代的關(guān)鍵一步。發(fā)布后一周,蘋(píng)果股價(jià)暴漲 10%。
除名字之外,蘋(píng)果這套 AI 系統和其他大模型 AI 項目依然有著(zhù)根本區別。蘋(píng)果的模型參量要小得多,終極目標也不是要訓練出“通用人工智能”。它最關(guān)鍵的任務(wù),是將人們對 AI 的想象,從“洞悉一切的全知神”,變成“了解用戶(hù)的貼身助手”。
Make智能手機智能again
WWDC24 上發(fā)布的蘋(píng)果智能,從功能上可以分為三大部分:文字、圖像和 Siri。
其中,文字和圖像相關(guān)的功能,包括文章改寫(xiě)、總結、語(yǔ)法檢查、生成圖片、智能 P 圖,都是大家很熟悉的生成式 AI 能力。因為這部分功能所使用的端側模型相對較小,不難預見(jiàn),它的效果很可能比不上 GPT-4o 等云端大模型。
蘋(píng)果 AI 真正的革命性變化,在于 Siri。
AI 模型的支持,對 Siri 進(jìn)行了一次“史詩(shī)級加強”。它理解語(yǔ)言的理能力增強了,并且可以跨 app 進(jìn)行信息檢索、調用功能。更重要的是,蘋(píng)果提出了一個(gè)極為關(guān)鍵的概念——“個(gè)人語(yǔ)境”(personal context)。
簡(jiǎn)單來(lái)說(shuō),“個(gè)人語(yǔ)境”包括了你的 iPhone 及其他蘋(píng)果設備上正在發(fā)生的一切。比如接下來(lái)的日歷事項安排、最近拍過(guò)的照片、瀏覽過(guò)的網(wǎng)頁(yè)記錄、朋友發(fā)送給你的鏈接、文件……
蘋(píng)果 AI 會(huì )利用這一切的私人數據,來(lái)構建一個(gè)“私人知識庫”,用戶(hù)則可以通過(guò)自然的對話(huà)交互,獲取自己需要的信息,找到對應的手機功能。
比如在 AA 賬單時(shí),問(wèn)“昨天朋友發(fā)給我的吃飯小票是多少錢(qián)?”;在訂機票時(shí)問(wèn)“我的護照號碼是多少?”,Siri 會(huì )從相冊里找出護照頁(yè)的照片,并提取號碼;
這是 AI 與智能手機結合的焦點(diǎn),是讓 AI 變得“真正有用”的關(guān)鍵鑰匙。目前我們熟知的大模型大都是利用公共的語(yǔ)料數據進(jìn)行訓練,形成的知識也是一種“通識”,但普通人使用計算機和互聯(lián)網(wǎng)時(shí),大部分時(shí)間都是在創(chuàng )造和使用私人信息。
特別是智能手機已普及如此的今天,它幾乎就是我們人生的“記憶庫”,儲存著(zhù)大量的照片、通訊記錄、偶爾靈光一閃寫(xiě)下的筆記……這些數據在堆積之后,逐漸變得越來(lái)越難整理,而 AI 則有可能能夠幫我們重新挖掘、組織這些記憶。
基于“個(gè)人語(yǔ)境”來(lái)構建模型和私人知識庫,以及如何將部分知識與通識模型進(jìn)行結合,將會(huì )是未來(lái)蘋(píng)果 AI 發(fā)展的關(guān)鍵。
一切為了“隱私”
技術(shù)上,蘋(píng)果 AI 分為了三個(gè)大部分,對應三套模型。
首先是運行在手機上的“本地模型”,其次是運行在蘋(píng)果全棧自研服務(wù)器上的“云端模型”,最后它還可以在系統層接入 OpenAI 的 GPT,后續還會(huì )接入更多第三方 AI 模型服務(wù)。
通過(guò)這種方式來(lái)搭建架構,是因為蘋(píng)果需要謹慎而迫切解決的問(wèn)題,是隱私。
根據目前蘋(píng)果放出的技術(shù)資料,蘋(píng)果 AI 首先會(huì )從系統層面收集各種信息,生成一個(gè)“語(yǔ)義目錄”,也就是“個(gè)人語(yǔ)境”的基本數據單位,供模型進(jìn)行理解。第三方 app 里的數據也有對應接口,經(jīng)開(kāi)發(fā)者適配后,可以實(shí)現類(lèi)似效果。
這些數據會(huì )經(jīng)過(guò)語(yǔ)言和圖像兩個(gè)模型進(jìn)行理解,之后如果本地模型的算力不夠,在用戶(hù)需要的時(shí)候,系統則會(huì )整合這部分語(yǔ)義數據,發(fā)送到蘋(píng)果的服務(wù)器上,通過(guò)云端更大的模型進(jìn)行理解。
這一套“語(yǔ)義目錄”包含了用戶(hù)最敏感的個(gè)人數據,其中很多還是在后臺默認采集,才能實(shí)現“Siri 了解了你”的神奇效果,過(guò)程中用戶(hù)可能無(wú)法很明確地知道具體哪些數據被采集了。
所以,為了實(shí)現這部分功能的隱私安全,蘋(píng)果作出了不少努力和犧牲。
蘋(píng)果所部署的本地模型參量雖然比不上云端大模型的千億萬(wàn)億級,但也有約 30 億的參量。所以只有搭載 A17 Pro 芯片的 iPhone 15 Pro 系列,以及 M1 以上芯片的 iPad 和 Mac 才支持這一功能,考慮到大部分用戶(hù)都會(huì )主力通過(guò) iPhone 使用蘋(píng)果 AI,這可能會(huì )極大影響到蘋(píng)果 AI 早期的冷啟動(dòng)。包括本地模型運行時(shí)的負載,可能也會(huì )影響手機的日常發(fā)熱、續航表現。
而針對云端模型和服務(wù)器,蘋(píng)果也拿出了最高級別的隱私安全實(shí)踐。蘋(píng)果承諾不會(huì )在模型服務(wù)器上儲存任何用戶(hù)信息;只有當用戶(hù)主動(dòng)請求時(shí)才會(huì )調用云端模型介入;云端模型所使用的芯片全都是蘋(píng)果自研,沒(méi)有任何第三方芯片;最后,蘋(píng)果表示所有的隱私承諾將經(jīng)過(guò)第三方驗證。
直到這一步,用戶(hù)所有的數據和 GPT 等第三方大模型,都是嚴格隔離的。針對 GPT 的接入,蘋(píng)果則做了產(chǎn)品層面的明顯區分,只有用戶(hù)“主動(dòng)輸入”的信息,才會(huì )以 prompt 的形式發(fā)送到 GPT,且過(guò)程中蘋(píng)果會(huì )進(jìn)行二次確認,提醒用戶(hù)“接下來(lái)將會(huì )跳轉到 GPT”。
考慮到蘋(píng)果已經(jīng)在 iCloud 上儲存了大量的用戶(hù)數據,且多年來(lái)從未出現過(guò)大的泄漏安全事故,蘋(píng)果在 AI 上采取的超高級別的隱私承諾似乎有點(diǎn)夸張。但事實(shí)證明一切還是有必要的,就在發(fā)布會(huì )后不久,Elon Musk 就針對蘋(píng)果 AI 的隱私問(wèn)題展開(kāi)了攻擊,暗示用戶(hù)使用蘋(píng)果 AI 就會(huì )把數據泄露給 OpenAI,盡管這一揣測還沒(méi)有什么真實(shí)依據。
對蘋(píng)果 AI 來(lái)說(shuō),隱私問(wèn)題本身或許還能通過(guò)技術(shù)和產(chǎn)品設計解決,但由隱私問(wèn)題所衍生出這一套分散的模型架構,才是真正的隱患和難題。
如果蘋(píng)果 AI 一直高度依賴(lài)本地算力,考慮到模型規模和性能負載,它采集數據的顆粒度可能就會(huì )受到限制,停留在比較粗糙的層面,難以實(shí)現大模型那么順暢的理解和交互。
目前在蘋(píng)果 AI 的介紹頁(yè)面里,整個(gè)“個(gè)人語(yǔ)境”還只能采集系統自帶官方 app 的信息。第三方開(kāi)發(fā)者要如何適配 AI?會(huì )不會(huì )積極適配 AI?還要打上不少個(gè)問(wèn)號。
過(guò)去,蘋(píng)果推出過(guò)多個(gè)系統內的便捷 API,比如能夠在相冊 app 里直接利用第三方 app 的編輯工具修圖,以及“快捷指令”和“App Clips 小程序”,這些開(kāi)發(fā)套件都沒(méi)有得到第三方開(kāi)發(fā)者的積極適配,因為接入這些便捷功能反而會(huì )影響 app 本身的活躍和留存。類(lèi)似的問(wèn)題,很可能也會(huì )在蘋(píng)果 AI 上重演。
所以,蘋(píng)果 AI 所面臨的隱私問(wèn)題,其實(shí)只是一連串難題的開(kāi)始。與大模型“大力出奇跡”的發(fā)展方法論不同,想要將 AI 與手機結合,就必須重新設計整條技術(shù)鏈路。
從數據如何采集,過(guò)程中保證安全,訓練擬合時(shí)如何追求效率和效果,到輸出時(shí)如何轉化為產(chǎn)品的功能……這和訓練大模型,做一個(gè)“聊天機器人”完全不同。
謹慎地期待,耐心地等待
大模型 AI 落地的主要難題,在于“產(chǎn)品化”。
大模型誕生的過(guò)程,靠的是構建一個(gè)巨大的神經(jīng)網(wǎng)絡(luò ),這個(gè)神經(jīng)網(wǎng)絡(luò )是單一的,難以被 hack,更難拆分。
就像 GPT 目前嚴格來(lái)說(shuō)依然只有 ChatGPT 這一個(gè)應用,大模型是封裝好的單一系統,并不能像傳統的計算機程序一樣,所以就難以定義功能、產(chǎn)品化。
目前圍繞 ChatGPT 所做的那些產(chǎn)品,基本都是通過(guò) prompt 實(shí)現的,并不具備一個(gè)產(chǎn)品所需要的嚴謹性,它依然偶爾會(huì )返回錯誤的結果,致命的地方則在于這些錯誤無(wú)法被 debug。
蘋(píng)果 AI 顯然不是一個(gè)簡(jiǎn)單的“語(yǔ)言模型”。它其中有一部分功能是基于大模型的生成能力做的,但也有另外一部分功能明顯更像是“加強版的機器學(xué)習”,比如 Siri 的搜索能力。只不過(guò)這些功能被裝到了同一個(gè)籃子里,這個(gè)籃子叫“蘋(píng)果智能”。
根據蘋(píng)果放出的技術(shù)文檔,目前蘋(píng)果的云端模型,主要處理的還是文字、圖像相關(guān)的“生成性”任務(wù);而最關(guān)鍵的“個(gè)人語(yǔ)境”構建和 Siri 的優(yōu)化,大部分依然是通過(guò)本地實(shí)現,它的“智能程度”可能很難得到保證。
這不只是蘋(píng)果一家的問(wèn)題。目前還沒(méi)有任何一個(gè) AI 企業(yè)或手機廠(chǎng)商,成功將一個(gè)私人的數據庫,與大模型的公共知識庫成功結合,創(chuàng )造出新的智能體,即想象中的完全了解用戶(hù)的智能助手——解決這個(gè)問(wèn)題的難度,比想象中大得多。
按照蘋(píng)果公布的開(kāi)發(fā)進(jìn)度,至少在明年之前,我們都無(wú)法用上中文版的蘋(píng)果 AI,很顯然,大量的功能代碼和模型訓練工作都還沒(méi)有完成。
過(guò)去一年我們用“涌現”這個(gè)詞來(lái)形容大模型的能力發(fā)展之迅速,但真正到了與實(shí)用場(chǎng)景結合的時(shí)候,事情依然要復雜得多,需要更長(cháng)的等待。
序幕拉開(kāi)了,但表演還沒(méi)有開(kāi)始。
果殼AI組 出品
作者:Jesse
編輯:臥蟲(chóng)
封圖和插圖來(lái)源:蘋(píng)果、Giphy
021yin.com