復旦才女創(chuàng )業(yè) AI 推理,估值超 5 億美元
Fireworks AI 專(zhuān)注于人工智能的推理部分,其工具幫助企業(yè)微調和定制模型以滿(mǎn)足特定需求,允許企業(yè)使用其平臺訪(fǎng)問(wèn) 100 多個(gè)模型。
圖源:Fireworks AI
創(chuàng )始人兼 CEO 喬琳畢業(yè)于復旦,是加利福利亞大學(xué)圣巴巴拉分校的計算機科學(xué)博士,曾是 Meta Pytorch 的負責人,在 LinkedIn 及 IBM 有過(guò)技術(shù)工作經(jīng)驗,團隊成員內大多來(lái)自 Meta、Google 等大廠(chǎng),華人成員超 1/3。
Fireworks AI 選中了小而美的賽道,定制 FireAttention 推理引擎,與開(kāi)源的 vLLM 相比,推理時(shí)間縮短 12 倍,降低使用成本,獲得眾多資本青睞。
Fireworks AI 成立于 2022 年 10 月,于 2024 年 7 月 8 日獲投 5200 萬(wàn)美元 B 輪融資。該輪由紅杉資本領(lǐng)投,Benchmark、NVIDIA、Databricks Ventures、Howie Liu、前 Snowflake CEO Frank Slootman、AMD、Scale AI 首席執行官 Alexandr Wang、前 Meta 首席運營(yíng)官 Sheryl Sandberg、MongoDB 跟投,截至本輪,Fireworks AI 估值 5.52 億美元。
推理速度提升 12 倍
Fireworks AI 認為,人工智能的未來(lái)將是復合 AI 系統,使用各種交互部分(多個(gè)模型、模態(tài)、檢索器、外部工具、數據)來(lái)處理任務(wù)。
例如,電子郵件公司 Superhuman 在其平臺創(chuàng )建的 Ask AI 就是一個(gè)復合 AI 系統,用戶(hù)只需要在收件箱里提出問(wèn)題,不需要猜測關(guān)鍵詞或搜索郵件就能獲得響應。
復合 AI 系統是多模型調用、檢索器與外部工具的系統,也是 Fireworks 致力于達到的目標。
紅杉資本評價(jià):" 專(zhuān)業(yè)地構建高性能推理堆棧、創(chuàng )新地實(shí)現復合 AI 系統,Fireworks AI 正在給開(kāi)發(fā)人員提供以前只有科技巨頭才能獲得的 AI 解決方案。"
一方面,Fireworks 擊中了企業(yè)務(wù)實(shí)的需求。當前,Fireworks 為開(kāi)發(fā)者、企業(yè)提供大模型微調、推理和部署等服務(wù)。在模型推理方面,Fireworks AI 就像一個(gè)專(zhuān)業(yè)團隊為企業(yè)提供成熟的解決方案。
細分場(chǎng)景中,企業(yè)使用的大模型通常需要進(jìn)行一定程度的微調(fine-tuning),提升模型在任務(wù)上的表現。盡管大模型在通用任務(wù)上表現出色,但通過(guò)微調,企業(yè)可以更準確地解決自己的問(wèn)題。
Fireworks AI 平臺中允許用戶(hù)通過(guò) API 訪(fǎng)問(wèn)超過(guò) 100 種不同的模型,包括大語(yǔ)言模型、圖像生成模型、音頻、嵌入和多模態(tài)模型,企業(yè)通過(guò)這些模型進(jìn)行微調和部署,從而將 AI 用于實(shí)際業(yè)務(wù)場(chǎng)景中。
Fireworks AI 能讓各類(lèi)公司,尤其是缺乏 AI 硬件、基礎設施的企業(yè)低成本、高效地利用模型推出產(chǎn)品。在平臺內,企業(yè)用戶(hù)也可以用平臺內有效工具將數據融入多種模型中進(jìn)行產(chǎn)品測試。
另一方面,開(kāi)源的工具和方案雖然免費易得,但 Fireworks AI 能讓部署和推理更具性?xún)r(jià)比。為此,他們提供三個(gè)方面的服務(wù)。
一是無(wú)服務(wù)器(Serverless)模型。他們定制了 CUDA 內核的 FireAttention 推理引擎,在不犧牲質(zhì)量的前提下,使模型推理速度比 vLLM(開(kāi)源的大語(yǔ)言模型推理與服務(wù)引擎)快四倍。FireAttention V2 對于用于 RAG、多輪推理和多模式應用的長(cháng)上下文提升,推理速度提高 12 倍。
圖源:Fireworks,FireAttention 領(lǐng)先 vLLM,在 fp8 模式下約為 12.2 倍
" 可以是現成的開(kāi)源模型,可以是我們調整的模型,也可以是客戶(hù)自行調整的模型,這三種類(lèi)型都可以通過(guò)我們的推理引擎 API 提供服務(wù)," 喬琳描述。
官網(wǎng)顯示,Fireworks AI 為 100 多種模型提供極快的推理速度,及時(shí)推理廣泛使用和特定領(lǐng)域專(zhuān)用的 AI 模型,如 Meta Llama 3.1、Mixtral MoE 8x22b、Stable Diffusion3,針對延遲峰值、吞吐量和上下文長(cháng)度進(jìn)行了優(yōu)化。而且,Fireworks 和英偉達一同成為首批接入零一萬(wàn)物 Yi-Large 大模型的美國主流平臺。
圖源:Fireworks
二是微調。據 TechCrunch,Fireworks AI 并不是從頭開(kāi)始訓練基礎模型,而是幫助微調其他模型以滿(mǎn)足企業(yè)特定需求。2024 年 3 月,Fireworks AI 宣布推出微調服務(wù),可以為包括 Mixtral 在內的 10 種模型提供 LoRA 微調服務(wù)。
此前,Stability AI 使用其分布式推理服務(wù)將 SD3SD3-turbo 推向市場(chǎng),將圖像處理速度提升至 0.37 秒 / 幅。
速度能提到多快?從另一案例來(lái)看,Cursor 公司使用其推測解碼 API 構建了 " 快速應用 "(Fast Apply)功能,通過(guò)部署特定的微調模型結合推測解碼技術(shù),實(shí)現每秒 1000 個(gè) tokens 的處理速度,比傳統方法 Llama-3-70b 快了約 13 倍,比 GPT-4 推測編輯部署快約 9 倍。
值得注意的是,該平臺將模型大小限制在 70 億至 130 億參數之間,減少計算資源的消耗,從而降低使用成本。盡管小模型沒(méi)有大模型的知識范圍廣泛,但更適合處理特定場(chǎng)景的企業(yè)。因為其可以通過(guò)定制化的數據集和模型優(yōu)化提升精確度。
喬琳表示:" 類(lèi)似規模的模型(70 億到 1000 億參數的模型)在質(zhì)量上可能會(huì )趨同,未來(lái)的關(guān)鍵在于,如何根據個(gè)人使用場(chǎng)景和工作負載定制這些模型。定制化將成為區分不同 AI 解決方案的主要因素,而不是模型的規模 "。
8 月的公告稱(chēng),該公司與 Cursor、Superhuman 等個(gè)別客戶(hù)合作,根據具體用例定制量化方案。
三是按需部署,讓客戶(hù)在 Fireworks 私有的 GPU 上運行文本模型,按秒計費。
它將自己定位為生產(chǎn)級基礎設施,已通過(guò) SOC 2 Type II 和 HIPAA 的合規性評估,用戶(hù)可在其中按需使用。
據官網(wǎng) Blog,他們推出按需(專(zhuān)用)部署,讓開(kāi)發(fā)人員可以配置自己的 GPU,這些 GPU 在專(zhuān)有的 Fireworks 服務(wù)堆棧(FireAttention)上運行,能讓一個(gè) H100 相當于三個(gè) H100 在 vLLM 的吞吐量,同時(shí)速度提高約 60%。
速度上去了,價(jià)格下來(lái)了。Fireworks AI 強調,在相同配置的情況下,提速的同時(shí),使用成本大幅降低,他們能給客戶(hù)更具競爭力的價(jià)格。如,同樣的 Mixtral 8x7b 模型中,通過(guò)減少 GPU 總數,切換到 7.79 美元的 Fireworks H100,該平臺能節約 53% 左右的費用。
圖源:Fireworks,在 Fireworks 運行 GPU 與使用 vLLM 配置 GPU 的成本對比
于開(kāi)發(fā)者而言,Fireworks AI 提供了一種更靈活的方式,讓他們能使用定制、小規模的模型,而不是資源密集型的完整版。正如他們的口號:" 從通用 AI 到專(zhuān)業(yè) AI。"(Go from generic to specialized AI)
它可以被視為一個(gè)模型托管平臺。開(kāi)發(fā)人員可以接入 API 使用選定的模型來(lái)訓練數據,添加生成式 AI 功能。6 月初,Fireworks AI 推出定制模型,允許開(kāi)發(fā)者導入和使用來(lái)自 Hugging Face 的預訓練模型,利用平臺優(yōu)化。
據悉,Fireworks 提供了許多開(kāi)源項目所不具備的自動(dòng)化服務(wù),包括自動(dòng)調整復雜性和性能優(yōu)化,簡(jiǎn)化開(kāi)發(fā)過(guò)程。
以上這系列生成式 AI 服務(wù)都需付費,除了企業(yè)方案外,從 Serverless 文本模型推理、圖像生成、微調服務(wù)到按需的 GPU 推理等 Fireworks 都將按需收費。其中,開(kāi)發(fā)人員可以最多部署 100 個(gè)模型。
7 月 11 日在獲得 B 輪融資時(shí),Fireworks 表示,他們與 vLLM 相比推理時(shí)間縮短 12 倍,與 GPT-4 相比縮短 40 倍,平臺每天處理 1400 億個(gè)令牌,API 正常運行時(shí)間為 99.99%。合作伙伴有初創(chuàng ) Cursor、Liner,也有數字巨頭 DoorDash、Quora 等。
Fireworks 供應商包含 MongoDB、Meta、Mistral、NVIDIA、AMD、AWS、Google 和甲骨文 Oracle Cloud,其中多數也是本輪的投資者。
復旦才女領(lǐng)隊,華人超 1/3
在震撼的 Mixtral MoE 8x7B 正式發(fā)布前 2 天,Fireworks 就是第一個(gè)托管它的平臺,給大模型的朋友圈留下深刻印象。憑借優(yōu)化性能的成果和開(kāi)發(fā)者推薦的技術(shù)積累,Fireworks 在行業(yè)中的地位逐漸提升。8 月 15 日,Fireworks 登上福布斯 " 下一個(gè)十億美元創(chuàng )業(yè)公司 " 榜單。
其背后的技術(shù)團隊實(shí)力不容小覷,只有 27 人,多數來(lái)自 Meta、Google、AWS、Zillow、Wayfair、Plaid 等公司,其吉印通人面孔占相當比例,超過(guò) 1/3。并且,創(chuàng )始團隊及工程師是前 Meta Pytorch、Google Vertex AI 的核心成員,其中就包括前 Vertex AI 主管趙晨宇。
創(chuàng )始人及首席執行官喬琳(Lin Qiao)曾任 Pytorch 的負責人。她本碩畢業(yè)于復旦大學(xué)計算機科學(xué)專(zhuān)業(yè),是加州大學(xué)圣巴巴拉分校 CS 博士。
圖源:領(lǐng)英
喬琳擁有優(yōu)秀的工作履歷和出色的軟件工程經(jīng)驗,她在 IBM 硅谷實(shí)驗室擔任過(guò)顧問(wèn)軟件工程師,曾任 LinkedIn 技術(shù)主管,也是前 Meta 的高級工程總監,領(lǐng)導過(guò) 300 多名 AI 框架和平臺的世界級工程師。
她在創(chuàng )立 Fireworks 前 5 年,一直與現公司吉印通創(chuàng )始人兼 CTO Dmytro Dzhulgakhov 共事。Dmytro 在哈爾科夫理工學(xué)院讀研期間兩次入圍 ACM ICPC 世界決賽,是前 Meta 的技術(shù)主管,Pytorch 的核心維護者以及 Caffe2 深度學(xué)習框架的核心開(kāi)發(fā)人員。
在 Meta 從業(yè),喬琳明顯能感受到的挑戰是簡(jiǎn)化復雜性。喬琳在領(lǐng)英中描述這段職業(yè)經(jīng)歷是:" 我們已在所有 Facebook 數據中心、數十億移動(dòng)設備和數百萬(wàn) AR/VR 設備中廣泛構建部署了 Caffe2 和后來(lái)的 Pytorch"。不同類(lèi)型設備的部署方式完全不同,所以在她看來(lái),哪怕一秒鐘的數據延遲都將帶來(lái)極大影響。
Pytorch 是 Meta 推出的深度學(xué)習框架,已成為主流,被用于訓練計算機視覺(jué)的 AI 模型如特斯拉的自動(dòng)輔助駕駛、SD 生圖和 OpenAI 的 Whisper 等。與 Pytorch 一樣,Caffe2 也是一個(gè)兼具靈活性和可擴展性的深度學(xué)習框架。這兩類(lèi)框架與 Fireworks 能簡(jiǎn)化開(kāi)發(fā)流程、提升效率密切相關(guān)。
在紅杉的訪(fǎng)談中,喬琳回憶,她曾清楚地看到了 Pytorch 的 " 漏斗效益 ",從最初作為研究人員的工具,變?yōu)楦嗤ㄓ?AI 模型的運行框架。
在 Meta 時(shí),她與團隊在尋求一種方法,讓用戶(hù)體驗變得簡(jiǎn)單,隱藏起在后端復雜的內容。她與團隊延續理想主義的想法,Pytorch 前端 +Caffe2 后端,搭建了 PyTorch 1.0。原以為將 Pytorch 替換其他框架作為庫是一個(gè)簡(jiǎn)單的半年項目,而這實(shí)際花費了喬琳團隊 5 年時(shí)間。
考慮到高效的數據加載和有效的 Pytorch 分布式推理、擴展訓練,他們必須從頭開(kāi)始重建整個(gè)堆棧。" 它每天維持超過(guò) 5 萬(wàn)億次推理,是一個(gè)巨大的規模 ",最終在喬琳團隊離開(kāi)時(shí),Pytorch 成效顯著(zhù)。
Pytorch 因簡(jiǎn)單易用且功能強大為開(kāi)發(fā)者所喜愛(ài)。有開(kāi)發(fā)人員解釋?zhuān)? 簡(jiǎn)單理解深度學(xué)習,就是用算法將數據訓練到模型里存起來(lái)。自己用 C 語(yǔ)言寫(xiě)可以實(shí)現,用 Pytorch、TensorFlow 這樣的框架也可以實(shí)現。這 Pytorch 就是 Python 的庫,開(kāi)發(fā)者要訓練模型,只需要去調用一個(gè)一個(gè)‘方法’即可,不用自己實(shí)現復雜的算法。"
與 Pytorch 的設計思路類(lèi)似,Fireworks 旨在做到為用戶(hù)提供創(chuàng )新的復合 AI 系統,一種 " 開(kāi)箱即用 " 的開(kāi)放式模型,能通過(guò)微調和自定義部署實(shí)現定制能力,減少用戶(hù)需考慮的復雜性。
據介紹,復合 AI 系統的 agent 使用 LLM 來(lái)完成單個(gè)任務(wù),并共同解決復雜問(wèn)題,這種方式允許開(kāi)發(fā)者用最少的編碼創(chuàng )建多回合、多任務(wù)的 AI 代理工作流,降低成本和復雜性。
喬琳表示:"Pytorch 花了 5 年時(shí)間,而 Fireworks 的使命是加速整個(gè)行業(yè)的產(chǎn)品上市周期,將其從 5 年壓縮到 5 周,甚至是 5 天。"
此外,她在 2022 年創(chuàng )立 Fireworks 時(shí)就意識到:" 我們看到了 AI 行業(yè)中正在經(jīng)歷第一次轉型的公司,無(wú)論規模大小都正承受痛苦,源于沒(méi)有合適的人才、專(zhuān)業(yè)知識不足、缺乏軟件堆棧集、升級 GPU 的窘迫。" 她想要打破這一矛盾。
在她看來(lái),低延遲、高質(zhì)量反饋是眾多客戶(hù)的要求。早期階段的 GenAI 公司找不到契合市場(chǎng)的產(chǎn)品,而隨時(shí)間推移,已經(jīng)有一個(gè)明確的趨向,那就是定制化的小模型,從大模型到專(zhuān)業(yè)模型的演變。
GenAI 與傳統 AI 有顯著(zhù)不同,它不需要從頭訓練模型,使得通過(guò)小規模、高質(zhì)量的數據集進(jìn)行模型調整成為可能。資源消耗降低,更多公司和個(gè)人可以使用這項技術(shù),從而 GenAI 的普及度也得到提高。
于是喬琳創(chuàng )立 Fireworks,將其作為一個(gè) SaaS 平臺用于 AI 推理和高質(zhì)量調優(yōu),實(shí)時(shí)應用程序使用其小模型堆??梢垣@得低延遲,企業(yè)也可在其中定制高質(zhì)量服務(wù)。
她表示,Fireworks 在未來(lái) 5 年想要構建一個(gè)提供全面知識訪(fǎng)問(wèn)的 API。目前他們已經(jīng)提供超 100 個(gè)模型,涵蓋大語(yǔ)言模型、圖像生成、音頻生成、視頻生成等,而這些模型所涵蓋的數據有限,大量信息隱藏在無(wú)法訪(fǎng)問(wèn)的公共 API 之后。為克服這一限制,Fireworks 致力于創(chuàng )建一個(gè)層來(lái)混合不同模型的公有 / 私有 API,實(shí)現對知識的全面訪(fǎng)問(wèn)。
喬琳打了個(gè)比方:"OpenAI 正在提供專(zhuān)家的混合體,它有一個(gè)路由器,坐在幾個(gè)非常強大的專(zhuān)家之上,每個(gè)專(zhuān)家各司其職。而我們的愿景是,建立一個(gè)混合專(zhuān)家,它能接觸到數百名小專(zhuān)家,但他們更敏捷、解決特定問(wèn)題的質(zhì)量更高。"
" 掘金賣(mài)鏟 " 的百億市場(chǎng)
喬琳在攻破 " 專(zhuān)注于簡(jiǎn)單性 " 的大關(guān)前,Meta 有三個(gè)不同的深度學(xué)習框架,Caffe2(用于移動(dòng)設備)、ONNX(用于服務(wù)器端)以及 Pytorch(用于研究),2018 年 5 月,Facebook(現 Meta)正式公布 Pytorch1.0,允許開(kāi)發(fā)人員從研究轉向生產(chǎn)而無(wú)需遷移。
這三類(lèi)框架與另一位 AI 大神關(guān)系匪淺,那就是 Facebook 之前的 AI 工程開(kāi)發(fā)主管賈揚清。
"Caffe 之父 " 賈揚清是 Pytorch1.0 共同負責人之一,同時(shí)也是神經(jīng)網(wǎng)絡(luò )標準 ONNX 的創(chuàng )始人。從重合的履歷線(xiàn)來(lái)看,2018 年他與喬琳在三類(lèi)框架成功的基礎上,共同領(lǐng)導創(chuàng )建了 PyTorch 1.0。
在《人物》的訪(fǎng)談中,賈揚清提到,可擴展性、輕便、增強計算模式、模塊化設計這四個(gè)因素是 Facebook 深度學(xué)習領(lǐng)域努力的方向。另外,他表示,AI 工程化的本質(zhì)就包括了云原生化、規?;蜆藴势栈莼?。正如他加強開(kāi)源框架的普適性和易用性,加速框架對實(shí)際應用的效果。
" 未來(lái)可能不會(huì )出現大一統的深度學(xué)習框架,曾經(jīng) TensorFlow 的出現解決了大規模系統的問(wèn)題,而當超大規模系統用起來(lái)不方便時(shí),開(kāi)發(fā)者就會(huì )思考如何用更像 Python、更容易迭代的方式做算法開(kāi)發(fā)和迭代,Pytorch 應運而生," 賈揚清說(shuō)," 解決上層 AI 應用、科研時(shí)的問(wèn)題才是更為重要的一點(diǎn) ",解決 GenAI 應用復雜問(wèn)題,加速開(kāi)發(fā)。這與喬琳 Fireworks 的創(chuàng )業(yè)思路如出一轍。碰巧的是,他們的創(chuàng )業(yè)公司走入的也是同一賽道。
2023 年 7 月,Meta 的前 Pytorch 工程主管 Soumith Chintala 發(fā)推表示,他發(fā)現 Pytorch 前員工創(chuàng )辦了一家機器學(xué)習基礎架構公司 Fireworks AI。同時(shí),他艾特了賈揚清,表示他離開(kāi)了阿里也創(chuàng )辦了另一家 ML Infra 公司。
圖源:Twitter
Soumith、賈揚清、Dmytro 三人曾共同參與 2017 的機器學(xué)習頂會(huì ) NIPS,分別講演 Meta 的三個(gè)深度學(xué)習框架。有人以為會(huì )是賈揚清創(chuàng )業(yè)和 Dmytro 造一個(gè) Caffe3,沒(méi)想到的是,Dmytro 去了 Fireworks,賈揚清和 ONNX 的聯(lián)創(chuàng )、etcd 的創(chuàng )始人成立了 Lepton AI。
在 ChatGPT 引起 AI 浪潮的年頭,賈揚清沒(méi)有選擇大模型,而是選擇了它背后的生意,幫企業(yè)部署模型。跟 Fireworks 一樣,Lepton AI 提供算力、模型和服務(wù),包括通用模型的 API、平臺服務(wù)、對模型微調和部署的服務(wù)。
Lepton AI 的產(chǎn)品經(jīng)理魚(yú)哲強調,他們的定價(jià)目的是確保用戶(hù)直接購買(mǎi)現成的解決方案比自己做更劃算。從單項價(jià)格來(lái)看,相同模型的服務(wù),Lepton AI 甚至優(yōu)惠一些。
圖源:Fireworks、Lepton AI 定價(jià)頁(yè)面對比
有分析指出,AI Infra 做的就是 " 掘金賣(mài)鏟 " 的生意,給大模型訓練、部署和應用時(shí)提供的基礎設施。AI 應用的市場(chǎng)有多大,AI Infra 的機會(huì )就有多大。
據 Precedence Research 數據,AI Infra 的市場(chǎng)規模還將不斷增長(cháng),預計亞太地區增速最快,在 2024 年亞太地區達到 139 億美元的市場(chǎng)規模,而北美地區則占據最大的市場(chǎng)份額。
圖源:Precedence Research
未來(lái),隨著(zhù)各行業(yè)公司領(lǐng)略到 AI 提升生產(chǎn)力的優(yōu)勢,將會(huì )有更多強大的 AI Infra 來(lái)服務(wù)他們應用的開(kāi)發(fā)。
來(lái)源:創(chuàng )業(yè)邦