蘋(píng)果 AI,給手機+AI 打了一個(gè)樣
蘋(píng)果,終于曝光了在 AI 方面的進(jìn)展。
與上個(gè)月谷歌在 I/O 的發(fā)布會(huì )上,一共提起了 AI 這個(gè)詞 121 次不同,當地時(shí)間 6 月 10 日,蘋(píng)果在 WWDC24 的前一個(gè)小時(shí)里,幾乎一次 AI 都沒(méi)有提到。盡管這場(chǎng) WWDC 發(fā)布會(huì ),早已注定要聚焦于 AI。
直到發(fā)布會(huì )進(jìn)度過(guò)半,蘋(píng)果才終于端出了這道主菜,Apple Intelligence。雖然同樣可以簡(jiǎn)寫(xiě)為 AI,但蘋(píng)果最終選擇將自己的 AI 命名為「蘋(píng)果智能」。介紹時(shí),庫克特別強調他們想要打造的,是超越「人工智能」(Artificial Intelligence)的「個(gè)人智能」(Personal Intelligence)。
與其他大模型「大力出奇跡」的發(fā)展理念不同,蘋(píng)果在打造自己的 AI 時(shí),采用了相對謹慎,顆粒度也更細的開(kāi)發(fā)模式,各項功能定義得更加明確清晰,但也顯得不那么「神奇」。
發(fā)布會(huì )上,蘋(píng)果官宣了與 OpenAI 的合作。用戶(hù)將可以通過(guò) Siri,直接調用 GPT-4o 的接口來(lái)進(jìn)行對話(huà),但并沒(méi)有將 GPT 與手機功能做更深的結合。
無(wú)論如何,蘋(píng)果代表的,是十億級的移動(dòng)設備用戶(hù),最高頻的使用場(chǎng)景。這可能是 AI 真正變得「有用」的開(kāi)端。
01
蘋(píng)果智能是什么?
將 AI 與智能手機結合,早已不是新鮮事,蘋(píng)果所采取的思路,與一眾 Android 廠(chǎng)商,依然是類(lèi)似的。
簡(jiǎn)單來(lái)說(shuō),手機廠(chǎng)商要把 AI 的輸入端,從用戶(hù)輸入 prompt,改造成模型主動(dòng)感知手機上「正在發(fā)生的一切」作為 prompt。同時(shí)也把 AI 的輸出端,從單純的輸出信息,變成調用 App,實(shí)現各種行為功能。
蘋(píng)果用了 5 個(gè)詞來(lái)總結 AI 的特性:性能強勁,直覺(jué)易用,功能整合,個(gè)性定制,隱私安全。
功能上,蘋(píng)果主要圍繞文字、圖像和交互三個(gè)模塊,打造了蘋(píng)果智能的功能。
文字功能主要圍繞短信和郵件兩個(gè)場(chǎng)景展開(kāi),用戶(hù)可以選中一段文字,然后進(jìn)行各種 AI 優(yōu)化,包括語(yǔ)法檢查、重寫(xiě),生成總結、要點(diǎn)、列表……用戶(hù)也可以用自然語(yǔ)言描述自己的改寫(xiě)需求,比如改得更簡(jiǎn)略一點(diǎn),將語(yǔ)氣變得友善隨意或專(zhuān)業(yè)一點(diǎn)。
基于這套語(yǔ)言模型,蘋(píng)果也做了電話(huà)錄音、轉文字、生成總結,以及自動(dòng)識別短信、郵件內容,將優(yōu)先級高的內容放到前面顯示。蘋(píng)果會(huì )將這類(lèi)內容標記為「可能重要」。
圖像功能則主要是「生成圖片」。蘋(píng)果智能可以自動(dòng)提取各種場(chǎng)景下的文字作為 prompt,生成圖片。比如發(fā)短信時(shí)根據輸入的文字內容生成圖片、emoji(蘋(píng)果將其命名為 genmoji);在 iPad 上根據用戶(hù)畫(huà)的草圖或寫(xiě)下的文字,提取關(guān)鍵信息生成圖片。以及蘋(píng)果也加入了不少手機廠(chǎng)商已經(jīng)做了的「照片智能消除」功能,可以將照片里無(wú)關(guān)的路人摳掉,并自動(dòng)生成一部分圖像填充空白。
最后,也是相對比較關(guān)鍵的,則是對交互的改進(jìn)。蘋(píng)果表示 AI 將開(kāi)啟 Siri 的全新時(shí)代。Siri 將可以理解更復雜的語(yǔ)言文本,進(jìn)行更自然的交互,而且 Siri 會(huì )自動(dòng)利用設備上的各種信息來(lái)「理解語(yǔ)境」,更好地解讀用戶(hù)的需要。
這部分功能描述起來(lái)比較復雜。比如用戶(hù)不記得自己的身份證號了,問(wèn) Siri,Siri 就可以從相冊里,找出護照的照片,提取號碼,讓用戶(hù)填入。只不過(guò) Siri 能感知的信息將包括日歷、備忘錄、短信、郵件等等……
除此之外,用戶(hù)有不知道怎么操作的功能,也可以直接用自然語(yǔ)言描述給 Siri 聽(tīng),Siri 會(huì )幫忙找到對應的操作方法,這也將極大改變用戶(hù)使用手機的方式。
最后,蘋(píng)果也將 ChatGPT 整合進(jìn)了智能系統。在處理文字和使用 Siri 的過(guò)程中,如果用戶(hù)想要調用性能更強的云端模型,可以切換使用 GPT-4o 來(lái)生成信息,也可以綁定自己的 GPT Plus 賬戶(hù),利用其他模型。
02
把 AI 做細
因為 AI 要利用用戶(hù)最敏感的隱私信息來(lái)作為輸入,蘋(píng)果自然會(huì )把隱私保護視為重中之重。
蘋(píng)果智能的模型是跑在設備本地的,蘋(píng)果沒(méi)有公布關(guān)于這個(gè)端側模型的任何信息,但只有搭載了 A17 Pro 芯片的 iPhone 15 Pro 系列,以及 M1 以上芯片的 Mac 和 iPad 才支持蘋(píng)果 AI,可見(jiàn)它對芯片 NPU 的性能要求很高。
但蘋(píng)果 AI 依然無(wú)法做到 100% 的本地運行,在需要的時(shí)候,它也會(huì )利用云端算力來(lái)進(jìn)行處理。蘋(píng)果表示,這部分處理的過(guò)程中,不會(huì )留存任何用戶(hù)數據,只會(huì )在處理用戶(hù)主動(dòng)請求時(shí)上傳信息,并且通過(guò)可驗證的隱私機制來(lái)保證安全,蘋(píng)果將這套系統稱(chēng)為「私密云計算」(Private Cloud Compute)。
至于調用 GPT 的部分,蘋(píng)果會(huì )在用戶(hù)選擇調用 GPT 之前進(jìn)行詢(xún)問(wèn)確認,并會(huì )提示 GPT 返回的結果不一定事實(shí)正確。
所以,蘋(píng)果AI可以分為蘋(píng)果自研的端側模型、云端模型加上 GPT 三套系統,這套架構本身并不復雜,但依然有很多細節問(wèn)題懸而未決。
比如其中最重要的,就是 AI 要如何利用第三方 App 的問(wèn)題。目前蘋(píng)果已經(jīng)公布了第一批 AI 配套的開(kāi)發(fā)工具,開(kāi)發(fā)者可以利用接口,將自己 App 的功能接入到 AI 系統里。這種開(kāi)發(fā)模式有點(diǎn)類(lèi)似于過(guò)去的「快捷指令」,實(shí)際上開(kāi)發(fā)者,特別是那些大公司,最終可能并不會(huì )很積極地進(jìn)行適配。
舉一個(gè)例子,想要通過(guò)蘋(píng)果的 AI 搜索 iMessage 里的某一條聊天記錄、圖片可能很方便,從 AI 上線(xiàn)第一天就能有很好的支持。但如果用戶(hù)在記日歷的時(shí)候,問(wèn) Siri 昨天某某同事在飛書(shū)、*上跟他約好的時(shí)間是幾點(diǎn),AI 系統很可能就無(wú)法順利獲取這部分信息。
類(lèi)似的問(wèn)題還體現在,這些「私人信息」要如何跨設備流轉?比如用戶(hù)在 Mac 上想要問(wèn) Siri 過(guò)去幾天的運動(dòng)狀況,而運動(dòng)健康信息是儲存在 iPhone 上的。目前蘋(píng)果沒(méi)有公布任何跨設備的信息流轉機制,所以很可能就無(wú)法獲取這部分信息。
大模型最大的革命之處,就在于它擁有一個(gè)「完整的知識庫」。
因為這個(gè)知識庫幾乎無(wú)所不包,所以才體現為大模型能力的涌現,讓人感覺(jué)無(wú)論你問(wèn)它什么,怎么問(wèn),它總能給出答案。而要把這套系統搬到手機上,將用戶(hù)的全部個(gè)人信息整合成一個(gè)「知識庫」,供用戶(hù)隨時(shí)獲取,但同時(shí)又要保證隱私安全,這在產(chǎn)品設計和邏輯上將會(huì )是巨大挑戰。
任何產(chǎn)品想要突破使用率的瓶頸走向普及,就一定要保證交互的成功率,用戶(hù)在得到自己想要的東西。就像語(yǔ)音助手過(guò)去從未真正普及的主要原因還是交互的失敗率太高,而到了 AI 的時(shí)代,它依然要面臨同樣的問(wèn)題。
蘋(píng)果在A(yíng)I上,才剛剛打了一個(gè)地基。
03
國內用戶(hù)能期待什么?
根據蘋(píng)果公布的信息,Apple Intelligence 第一批將僅支持英語(yǔ),且也要等到秋季才會(huì )推送測試版本。目前已經(jīng)推送的第一波開(kāi)發(fā)者版本的新系統,尚未搭載蘋(píng)果的 AI。
蘋(píng)果表示明年會(huì )加入更多功能、語(yǔ)言和平臺。大概率是在蘋(píng)果 AI 的這套系統里,GPT 最終像 Safari 搜索引擎一樣,可以被替換。此前有消息曝出蘋(píng)果與吉印通正在就大模型接口的合作進(jìn)行溝通,應該替換的就是這一部分。
而蘋(píng)果 AI 真正核心的端側模型和云端模型,既然都是蘋(píng)果自研,只要能通過(guò)國內的合規流程,國內用戶(hù)依然有較大希望能順利用上。
利用模型能力,顛覆計算設備的交互界面,并重構個(gè)人的數據組織結構,這是自大模型誕生之初就存在的想象。但大多數做模型和應用的公司,都很難染指計算設備的核心系統,包括過(guò)程中的隱私安全問(wèn)題也讓蘋(píng)果這樣的廠(chǎng)商不得不保持萬(wàn)分謹慎。
但現在,無(wú)論如何,這艘大船已經(jīng)起航。
來(lái)源:極客公園