“AI原生”時(shí)代來(lái)臨 基礎設施如何建設
[ 訓練和推理是大模型生命周期中不可或缺的兩個(gè)階段,都需要強大的算力資源來(lái)支撐。然而,相比國際上模型層與芯片層呈現的“雙頭壟斷”格局,中國的模型層與芯片層表現得“百花齊放”,尤其是在芯片層。 ]
打開(kāi)水龍頭前,我們不需要知道水是從哪條河里來(lái)的。同理,未來(lái)我們用各種AI應用時(shí),也不會(huì )知道它調用了哪些基座模型,用到了哪種加速卡的算力。
在業(yè)內人士看來(lái),這就是最好的AI Native(AI原生)基礎設施。
如何高效整合異構算力資源
在2024世界人工智能大會(huì )(WAIC)暨人工智能全球治理高級別會(huì )議上的一場(chǎng)AI基礎設施論壇上,業(yè)內專(zhuān)家熱議這種被稱(chēng)為AI Native的概念。它是指將人工智能融入到各個(gè)產(chǎn)品、業(yè)務(wù)和服務(wù)中,從而實(shí)現更高效和智能化的運作方式。
“AI Native我們也把它叫做AI原生,這就像是互聯(lián)網(wǎng)原生的概念,但不同的是,互聯(lián)網(wǎng)是由流量驅動(dòng)的,AI是由算力驅動(dòng)的。”無(wú)問(wèn)芯穹吉印通創(chuàng )始人、清華大學(xué)電子工程系副研究員顏深根表示,“AI時(shí)代要求我們構建新的生態(tài),以適應算力驅動(dòng)的需求。”
顏深根表示,AI基礎設施應該“向上對接應用,向下對接芯片設計與制造工藝”,從而讓算力能夠更為充分地發(fā)揮出來(lái),提升算力的使用效率。
針對如何構建適應多模型與多芯片格局的AI Native基礎設施,無(wú)問(wèn)芯穹吉印通創(chuàng )始人兼CEO夏立雪對第一財經(jīng)記者表示:“我們需要提供高效整合異構算力資源的算力平臺,以及支持軟硬件吉印通優(yōu)化與加速的中間件,讓異構芯片真正轉化為大算力。”
訓練和推理是大模型生命周期中不可或缺的兩個(gè)階段,都需要強大的算力資源來(lái)支撐。然而,相比國際上模型層與芯片層呈現的“雙頭壟斷”格局,中國的模型層與芯片層表現得“百花齊放”,尤其是在芯片層。
異構的芯片之間存在一種“生態(tài)豎井”,即硬件生態(tài)系統封閉且互不兼容。用了A卡的開(kāi)發(fā)者,無(wú)法輕易遷移至B卡上展開(kāi)工作,也難以同時(shí)使用A卡和B卡完成大模型訓練或推理,這導致如果一個(gè)算力集群中存在兩種或以上的芯片,算力使用方會(huì )面臨一系列技術(shù)挑戰。
在今年的WAIC大會(huì )上,無(wú)問(wèn)芯穹發(fā)布了全球首個(gè)可進(jìn)行單任務(wù)千卡規模異構芯片混合訓練的平臺,具備萬(wàn)卡擴展性,支持包括AMD、華為昇騰、天數智芯、沐曦、摩爾線(xiàn)程、英偉達六種異構芯片在內的大模型混合訓練,千卡異構混合訓練集群算力利用率最高達到97.6%。
算力分散且利用效率不高是目前制約國內人工智能技術(shù)發(fā)展的一個(gè)瓶頸。中科加禾創(chuàng )始人兼中科院計算技術(shù)研究所研究員崔慧敏表示:“我們必須承認,目前在國內,中間層的AI基礎設施仍然落后于上層的應用以及下層的芯片。”她也認為,算力優(yōu)化非常重要,也就是做到在不降低算法精度的情況下,提升算力的性能。
崔慧敏提出,通過(guò)構建基礎的軟件平臺層,就能讓底下的芯片層以及上面的模型層隨意切換。這就像是提供了一個(gè)中間的編譯平臺,讓模型、應用可以在不同的硬件平臺之間自由移植,同時(shí)優(yōu)化性能,從而補齊AI產(chǎn)業(yè)生態(tài)的缺位,降低上層應用在國產(chǎn)芯片平臺上的落地門(mén)檻和成本,提升多種異構算力的利用和適配效率。
如何打造自主可控的AI生態(tài)
隨著(zhù)國內大模型的發(fā)展,構建AI產(chǎn)業(yè)生態(tài)成為業(yè)內高度關(guān)注的話(huà)題。上海算豐信息總經(jīng)理顧萌指出:“在基礎設施建設領(lǐng)域,英偉達生態(tài)不可攻破,存在壓倒性的優(yōu)勢,這對于我們的AI基礎設施如何服務(wù)于A(yíng)I發(fā)展,以及AI發(fā)展如何反哺AI基礎設施的建設提出挑戰。”
科大訊飛董事長(cháng)劉慶峰在大會(huì )上表示:“國產(chǎn)大模型的底座能力決定了企業(yè)在這條路上到底能走多遠,我們要以長(cháng)期主義來(lái)打造中國真正自主可控的AI產(chǎn)業(yè)生態(tài)。在國產(chǎn)化的底座下,能為行業(yè)帶來(lái)更高的話(huà)語(yǔ)權與安全性。”
在提到AI基礎設施建設時(shí),劉慶峰對第一財經(jīng)記者表示:“我們希望通過(guò)一些技術(shù)的創(chuàng )新方法,來(lái)提升算力的使用效率,從而彌補我們在算力上的某些不足。”
長(cháng)期以來(lái),云端大模型和基礎設施一直是AI領(lǐng)域的投資重點(diǎn)。劉慶峰說(shuō)道:“未來(lái),云、邊、端結合軟硬一體化一定是大模型發(fā)展的一個(gè)趨勢。”
顏深根認為,在互聯(lián)網(wǎng)時(shí)代,平臺占據強勢地位,比如吉印通、阿里、美團這些大平臺是流量的主要入口,而未來(lái),隨著(zhù)人工智能的發(fā)展,端側智能的能力會(huì )迅速增強,平臺的收益將會(huì )向設備側轉移,這會(huì )給端側帶來(lái)更加豐厚的利潤。
“我們也希望在端側做一些優(yōu)化,比如芯片的IP等,但在技術(shù)上要實(shí)現還面臨一定的挑戰,一方面是現在模型本身的規模還比較大,內存方面的問(wèn)題沒(méi)有解決,另一方面是要發(fā)展端側,在芯片層面也還有欠缺,國內對大模型的支持還沒(méi)有理想的解決方案。”顏深根表示。