在生成式人工智能時(shí)代,數據中心冷卻的下一步是什么?
生成式人工智能時(shí)代已經(jīng)真正到來(lái)。據 JLL 稱(chēng),它是預計對房地產(chǎn)產(chǎn)生最大影響的三大技術(shù)之一,2022 年人工智能房地產(chǎn)技術(shù) (PropTech) 的投資額已達到創(chuàng )紀錄的 40 億美元。
JLL 的 2024 年報告還發(fā)現,人工智能能源需求(范圍從 300-500MW 以上)將需要大量更節能的數據中心設計。
從行業(yè)角度來(lái)看,這些數字確實(shí)令人震驚。TD Cowen 的分析師表示,人工智能浪潮已導致美國數據中心租賃量增加約 2.1GW,而 CBRE 的《2024 年歐洲房地產(chǎn)市場(chǎng)展望》發(fā)現,數據中心提供商將看到與人工智能 (AI) 需求相關(guān)的容量請求增加,其中大部分預計來(lái)自服務(wù)提供商和 AI 初創(chuàng )公司,而不是超大規模和云社區的成員。
現在,隨著(zhù)人工智能滲透到技術(shù)產(chǎn)品、服務(wù)和解決方案的各個(gè)方面,許多人都在問(wèn)數據中心行業(yè)是否真正準備好滿(mǎn)足其要求。對于許多運營(yíng)商來(lái)說(shuō),答案是否定的。
冷卻未來(lái)的 AI 工作負載
如今,作為高性能計算 (HPC) 和 AI 領(lǐng)域的全球領(lǐng)先權威機構,N(xiāo)vidia 估計負責超過(guò) 95% 的機器學(xué)習工作負載,并且仍然是 GPU 加速技術(shù)的主要制造商。
去年,該公司分享了獲得 500 萬(wàn)美元資助的消息,用于重新設計數據中心格局并構建先進(jìn)的液體冷卻系統,以解決傳統數據中心(包括本地、企業(yè)和較舊的主機托管設施)面臨的許多挑戰。
COOLERCHIPS 計劃由美國能源部資助,被定位為業(yè)界有史以來(lái)最雄心勃勃的項目之一,此時(shí),隨著(zhù)摩爾定律和數據中心設計達到物理極限,處理器的發(fā)熱量和功率能力正在飆升。
一些人預計,傳統的風(fēng)冷數據中心技術(shù)可能很快就會(huì )過(guò)時(shí),尤其是隨著(zhù)人工智能的采用和超級計算的進(jìn)步,N(xiāo)vidia 的冷卻系統可能比風(fēng)冷方法成本降低約 5%,運行效率提高 20%。該公司還預計,冷卻技術(shù)可能開(kāi)始達到其極限,因為超過(guò) 40 瓦/平方厘米的熱負荷將在未來(lái)面臨重大挑戰。
這不足為奇,最新的 Nvidia SuperPOD 每個(gè)系統最多可容納 8 個(gè) H100 GPU,并且全部通過(guò) Nvidia NVLink 連接。每個(gè) DGX H100 預計將提供高達 32 petaflops 的 AI 性能,大約是其前身 DGX A100 的六倍,而 DGX A100 已經(jīng)限制了傳統數據中心的功能。
從設計和能源的角度來(lái)看,N(xiāo)vidia SuperPOD 最多可以包含 32 個(gè) DGX H100 系統以及相關(guān)的 InfiniBand 連接基礎設施,每個(gè)機架最多可消耗 40.8kW 的電力。按照今天的標準,這可能被認為是驚人的處理能力和 AI 能力,但機架和功率密度預計只會(huì )增加。
有趣的是,N(xiāo)vidia的新Blackwell GPUs將使企業(yè)能夠構建和運行實(shí)時(shí)生成的人工智能應用程序和大型語(yǔ)言模型,成本和能耗比其前身低25倍,為人工智能數據中心鋪平了新的道路。問(wèn)題仍然是,數據中心需要如何發(fā)展才能適應人工智能的冷卻要求,以及哪些組織將在這場(chǎng)比賽中獲勝?
數據中心冷卻的未來(lái)
關(guān)于冷卻方法的討論仍然是業(yè)內最具爭議的話(huà)題之一。 一方是那些提倡空氣冷卻系統的人,他們認識到自由空氣冷卻優(yōu)于液體冷卻方法——后者通常需要大量資本支出,對傳統數據中心架構進(jìn)行改造。
另一方是已經(jīng)在進(jìn)行概念驗證 (POC) 項目并部署混合環(huán)境的所有者和運營(yíng)商——他們正在開(kāi)發(fā)高性能基礎設施系統,這些系統經(jīng)過(guò)精心設計,可以適應工業(yè)規模的計算密集型應用程序。
液體冷卻的好處
隨著(zhù)機架密度現在有望超過(guò)100千瓦,液體冷卻顯然將越來(lái)越受歡迎。
對于那些接受這項技術(shù)的人來(lái)說(shuō),好處是顯著(zhù)的。當今的許多液體冷卻解決方案利用水和其他液體的高傳熱特性來(lái)冷卻高密度機架,比傳統措施更加高效和有效。
Iceotope和Meta等組織的研究也加強了此類(lèi)方法,這些研究證實(shí)了精確液體冷卻在滿(mǎn)足超大規模飛行器冷卻要求方面的實(shí)用性、效率和有效性,其中液體冷卻在社區成員中已經(jīng)獲得了某種偏見(jiàn)。
對于DTC液體冷卻,70-75%的機架設備產(chǎn)生的熱量通過(guò)水排出,其余25-30%通過(guò)空氣排出。因為從傳熱角度來(lái)看,直接到芯片冷卻更有效,因此它能夠支持更高的CPU和GPU密度,同時(shí)提供顯著(zhù)的熱量再利用能力。
行業(yè)內的組織還預測,液體冷卻的效率比使用空氣冷卻高3000倍,所有這些都表明液體冷卻有可能成為未來(lái)的首選冷卻架構,并且對于滿(mǎn)足數據中心可持續發(fā)展要求至關(guān)重要。
生成式人工智能的未來(lái)既令人興奮又未知,但如果摩爾定律達到其物理極限,那么所有道路都將走向液體冷卻,這是未來(lái)GPU驅動(dòng)計算的唯一選擇。
作者:Paul Finch 是 Kao Data 的首席技術(shù)官兼首席運營(yíng)官