阿里云AI基礎設施升級亮相 模型算力利用率提升超20%
9月20日,2024云棲大會(huì )現場(chǎng),阿里云全面展示了全新升級后的AI Infra系列產(chǎn)品及能力。通過(guò)全棧優(yōu)化,阿里云打造出一套穩定和高效的AI基礎設施,連續訓練有效時(shí)長(cháng)大于99%,模型算力利用率提升20%以上。
“AI創(chuàng )新需要新形態(tài)的云基礎設施。”阿里云副總裁、彈性計算及存儲產(chǎn)品線(xiàn)負責人吳結生表示,阿里云整合底層的計算、存儲、網(wǎng)絡(luò )等資源,實(shí)現了統一調度和軟硬一體優(yōu)化,以滿(mǎn)足模型訓練和推理的爆發(fā)式AI算力需求。
基于全新的CIPU2.0,阿里云新推出磐久AI服務(wù)器,實(shí)現單機16卡、顯存1.5T以上,支持Solar RDMA互聯(lián)。磐久AI服務(wù)器采用超鈦金電源實(shí)現97%以上的高能效,并可通過(guò)AI算法預測GPU故障,準確率達92%,保障AI算力的性能和穩定性。
在存儲方面,阿里云并行文件存儲CPFS實(shí)現端到端全鏈路性能提升,單客戶(hù)端吞吐達25GB/s,高性能數據流動(dòng)達到100GB/s,為AI智算提供指數級擴展存儲能力。
為AI設計的高性能網(wǎng)絡(luò )架構HPN7.0,性能和穩定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端訓練性能提升10%以上。
通過(guò)底層計算、存儲、網(wǎng)絡(luò )等基礎設施的升級,阿里云靈駿集群可提供超大規模、超強性能的智能算力,萬(wàn)卡規模性能線(xiàn)性度超過(guò)96%,并行存儲吞吐20TB/s,萬(wàn)卡規模下網(wǎng)絡(luò )帶寬利用率超過(guò)99%,可支持單集群十萬(wàn)卡級別AI算力規模。
面向AI業(yè)務(wù),阿里云計算產(chǎn)品也大幅演進(jìn)更新。本次云棲大會(huì )上,容器服務(wù)ACK面向AI實(shí)現重磅升級,大模型應用冷啟動(dòng)延遲降低85%,并可提供15000個(gè)超大規模節點(diǎn)支持。同時(shí),容器計算服務(wù)ACS即將推出 GPU容器算力。(李記)
來(lái)源:光明網(wǎng)