當前位置:首頁(yè) > 百科 > 正文內容

AI 3D生成天花板再拉升!清華團隊煉成3D Scaling Law

瀘州名片加急l1個(gè)月前 (09-14)百科9
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

衡宇 西風(fēng) 發(fā)自 凹非寺

量子位 | * QbitAI

《黑神話(huà)·悟空》的火爆,帶火的不僅是3D游戲本身,還有背后暗潮洶涌的AI 3D生成技術(shù)。

一直以來(lái),外界對3D大模型賽道的關(guān)注度都稍遜于語(yǔ)言模型和視頻模型。然而,全球3D大模型選手們則都在暗中較量、默默發(fā)力,從a16z押注的Yellow,到李飛飛的World Labs,3D大模型的迭代速度是沒(méi)落下一點(diǎn)。

就在剛剛,國內3D大模型頭部玩家VAST更新了旗下的大模型Tripo,是基于千萬(wàn)級高質(zhì)量原生自有數據庫訓出來(lái)的那種超強版本。

而3D生成新工具的玩法也更進(jìn)一步,文字、單圖、多圖都能作為輸入。

至于幾何精細度和圖片還原度等方面的效果嘛,先小放一段用新工具生成3D模型的視頻,大家直觀(guān)感受一下:

在官宣新品之余,VAST又帶來(lái)另一則重磅消息,即公司連續完成了數億元融資,這也是3D大模型賽道的最大融資金額。

當然,融資方面的引領(lǐng),也只是技術(shù)實(shí)力的展現。因為VAST的技術(shù)和應用場(chǎng)景,確實(shí)夠頂。

快速生成無(wú)瑕疵,效果驚艷

再次拉升AI 3D天花板的模型叫做Tripo 2.0。

Tripo 2.0先在幾秒內生成形狀幾何預覽,再接著(zhù)幾秒內為其“貼上皮膚”,?成紋理及PBR。

目前Tripo 2.0已正式上線(xiàn),大批網(wǎng)友已經(jīng)開(kāi)啟了實(shí)測。

量子位也在第一時(shí)間湊上了熱鬧。

Tripo 2.0支持文生3D、單圖生3D;Tripo 1.4版本也支持多圖生3D。

輸入一個(gè)prompt,一次能生成4個(gè)3D模型。

根據輸入的不同,量子位的上手實(shí)測結果在下面分為兩個(gè)部分,即:

文生3D模型

圖生3D模型

Tripo 2.0文生3D模型實(shí)測

話(huà)不多說(shuō),直接先來(lái)看一波文生3D效果。

第一步,生成幾何形狀「動(dòng)漫少女的半身形象」。

就復雜結構生成效果來(lái)看,細節還是很足的:

接下來(lái)給它貼好皮膚。

在不超過(guò)20秒的生成時(shí)間里獲得精細的紋理和層次;普通水平的人工建模要達到這種細節,耗時(shí)可能要上千倍。

換一道題!用Tripo 2.0生成卡通形象的全身形象試試看。

先生成個(gè)卡通小矮人試試~

出來(lái)的效果,那是相當可愛(ài)(發(fā)出宋丹丹的聲音),belike:

我們又生成了一個(gè)小怪物,并且把單個(gè)生成的模型放大來(lái)看。

360度旋轉,肉眼沒(méi)有發(fā)現bug和瑕疵。要知道,怪物后背密密麻麻的尖刺細節,是人工建模師的噩夢(mèng),一般都會(huì )規避這種繁復的設計,但是對tripo來(lái)說(shuō)毫無(wú)壓力。

加大難度,再復雜一些3D模型生成任務(wù)也同樣能駕馭。

透視結構理解過(guò)去一直是生成式AI的卡點(diǎn),以生圖模型的手指問(wèn)題為代表。3D模型空間結構極為重要,我們可以看到Tripo強大的透視結構理解能力,完美生成了復雜結構的模型任務(wù)。

最后再放個(gè)厲害的,下面這個(gè)購物車(chē)什么難度都不用多說(shuō)了:

Tripo 2.0圖生3D模型實(shí)測

再來(lái)看一波圖生3D的效果。

單圖生3D模型的算法最考察對圖片的空間信息理解和還原度,這次我們橫向對比一些市場(chǎng)的其他玩家效果。

友情提示,下面每張展示圖中的最后一個(gè)3D模型,都由Tripo 2.0生成。

來(lái),上一支玫瑰花的圖生模型對比展示!

對比可以清晰看到,只有它生成的幾何形狀360度無(wú)死角,花朵和枝葉完整度最高:

貼圖之后,在還原原圖的顏色、質(zhì)感這一塊,也是效果最好的:

測完植物生成效果,我們又測試了無(wú)生命物體的圖生模型。

丟給模型一個(gè)俄羅斯復活節彩蛋圖片作為輸入,Tripo 2.0的輸出效果最有“浮雕感”,對比來(lái)看,紋理細節都是最精致的:

進(jìn)行多次測試后,不難發(fā)現Tripo 2.0在全方位的生成表現上都有顯著(zhù)差異。

比如生成的PBR材質(zhì)具有?保真度,保留了原圖表?屬性和視覺(jué)效果:

再比如,不管側面、背面,每個(gè)面都能捕捉復雜的原圖特征:

Tripo 2.0不僅生成質(zhì)量讓人眼前一亮,更高的可控性也是一大特點(diǎn)。

輸入不僅支持多模態(tài),當選擇文生3D模型模式時(shí),還支持輸入負向prompt(就是不讓生成模型中帶有什么元素)。

對輸出模型姿態(tài)的控制性也很絕。

既能自定義所生成3D模型頭、腿、手臂等比例。

還能“A-pose”“T-pose”兩個(gè)姿勢隨便選,秒秒鐘設定大長(cháng)腿:

生成好的3D模型還可以一鍵綁定骨骼、風(fēng)格化。

3D模型人擁有自己的樂(lè )高!

更多玩法大家可以慢慢探索,歡迎大家評論區共創(chuàng )~

Tripo 2.0效果如此哇塞,所以——

Tripo 2.0如何煉成?

從技術(shù)上層層解剖,Tripo 2.0在實(shí)現過(guò)程中打滿(mǎn)了一個(gè)詞:3D Scaling Law。

首先,Tripo 2.0基于海量千萬(wàn)級3D?質(zhì)量數據庫,采?概率性的?成式建模?法,通過(guò)學(xué)習捕捉?規模數據中的?何和材質(zhì)分布。

由此,Tripo 2.0更好地保證了輸出的質(zhì)量、增強了模型的魯棒性和泛化能?。

其次,它采用了DiT和U-Net模型的復雜混合架構。

DiT擅?捕捉3D結構中的全局上下?和?距離依賴(lài)關(guān)系,而U-Net精于保留精細的細節和局部特征,Tripo 2.0正是融合了這兩種架構的優(yōu)勢。

再者,采?最先進(jìn)的訓練算法,Tripo 2.0?何和材質(zhì)?成模型均基于最先進(jìn)的?規模流模型,擁有數?億參數。

同時(shí)采?了guidance distillation和step distillation,通過(guò)蒸餾提?效率,在不犧牲質(zhì)量的前提下?幅優(yōu)化了性能。

種種技術(shù)加持下,在3D生成形狀、紋理質(zhì)量、細節表現、輸?條件的遵循性以及輸出多樣性??,Tripo 2.0拿下新SOTA,成為新晉“五邊形”戰士:

之前,Tripo 2.0背后團隊還與其他團隊合作,推出了一籮筐學(xué)術(shù)成果,被Siggraph、CVPR、ICLR、ECCV等頂會(huì )接收。

比如Wonder3D,通過(guò)一個(gè)跨域擴散模型生成一致性的多視圖法線(xiàn)貼圖和相應的彩色圖像,然后利用一種新穎的法線(xiàn)融合算法快速、高質(zhì)量地重建3D幾何體。

與現有的基于分數蒸餾采樣(SDS)的方法相比,Wonder3D在效率、一致性和細節上都有顯著(zhù)提升,能夠在2-3分鐘內完成重建。

再比如TGS:Triplane Meets Gaussian Splatting,同樣被CVPR 2024收錄。

這項技術(shù)利用Transformer網(wǎng)絡(luò )和一種新穎的Triplane-Gaussian混合表示,使得從單張圖片中重建3D模型變得更加高效和精確。

更多細節,感興趣的童鞋可以自行查閱。

總之,Tripo 2.0并非一蹴而就,背后有眾多技術(shù)積累。

3D世界的Scaling Law

最后,我們來(lái)正式認識一下Tripo 2.0背后的公司。

VAST,去年3月成立,是一家專(zhuān)注于在3D大模型研發(fā)的AI公司。

公司目標是“通過(guò)打造?眾級別的3D內容創(chuàng )作?具,建?3D的UGC內容平臺,讓基于3D的空間成為用戶(hù)體驗、內容表達、提升新質(zhì)?產(chǎn)?的關(guān)鍵要素。”

公開(kāi)資料顯示,該公司的CEO、CTO都是商湯出身:

創(chuàng )始人兼CEO宋亞宸,曾在商湯落地過(guò)多個(gè)從零到一的AI項目,曾參與大模型六小強之一MiniMax的創(chuàng )立;CTO梁鼎,清華本碩博,師從戴瓊海院士,曾任商湯通用模型負責人。

成立一年半以來(lái),這家公司動(dòng)作頻頻。

首先在今年年初,亮相了自家首個(gè)3D大模型Tripo 1.0。

Tripo 1.0參數量數十億,用上它,從單圖/文字生成3D網(wǎng)格模型僅需要8秒。

△3D建模經(jīng)典之「牛油果扶手椅」,Tripo 1.0生成

上線(xiàn)半年內,Tripo 1.0全球用戶(hù)生成的3D模型超過(guò)了500萬(wàn)個(gè)。

500萬(wàn)個(gè)是什么概念呢?約為全球前三大3D模型數據庫總和。

到了今年3月初,VAST又吉印通Stable Diffusion背后的Stability AI,共同推出了開(kāi)源的3D基礎模型TripoSR。

因其能夠達成“0.5秒完成單圖生成3D模型”的成就,在3D生成領(lǐng)域的開(kāi)源屆廣受歡迎,至今GitHub上攬星4.3k。

現在,Tripo 2.0又問(wèn)世了,已經(jīng)在線(xiàn)可玩。

得益于3D Scaling Law帶來(lái)的效果提升,Tripo的這三次更新時(shí)間跨度僅僅有9個(gè)月。

而且有速度也有質(zhì)量,效果在業(yè)內外頗受認可。

拿一則新消息來(lái)佐證一下:不久前,世界最大在線(xiàn)游戲開(kāi)發(fā)平臺Roblox官宣入局AI 3D生成,但截至目前,Tripo都是Roblox玩家最風(fēng)靡的3D建模的趁手工具。

接下來(lái)的VAST會(huì )帶著(zhù)Tripo去向什么方向?

量子位尋回的答案是,至少在技術(shù)方面,VAST會(huì )持續追尋3D生成式AI的Scaling Law研究模型規模、數據量和生成質(zhì)量之間關(guān)系的基本原理,同時(shí)尋找數據、表征和模型架構的可擴展范式。

既致力于推動(dòng)3D生成式AI的邊界,也會(huì )不斷探索更整體的(Holistic)3D生成。

就還挺令人期待的。

在語(yǔ)言模型和視頻模型帶給這個(gè)世界一點(diǎn)小小震撼過(guò)后,人們也希望3D生成賽道能滋養出屬于自己的ChatGPT時(shí)刻。

畢竟3D的AI生成與其它AI生成賽道相比,情況比較特殊,不僅AI生成后人工二改技術(shù)難度大,如果模型效果表現不好,想要僅憑增加抽卡次數來(lái)達到滿(mǎn)意度,不如趁早自己畫(huà)(不是)。

好在3D生成行業(yè)深孚眾望,一路前行著(zhù)——

回顧過(guò)去的兩年時(shí)間,尤其在2023年末到2024年間,3D生成技術(shù)得到了快速發(fā)展。

不僅在效果、速度方面均有提升,還實(shí)現了“效率高、成本低、創(chuàng )新性強和可定制性強”的特點(diǎn)。

技術(shù)飛快進(jìn)步的同時(shí),整個(gè)行業(yè)的人才密度都在不斷增大。

國內,以VAST為代表,初創(chuàng )公司多來(lái)自全球知名高校和科研機構;放眼國外,AI教母李飛飛首次創(chuàng )業(yè)成立的空間智能公司W(wǎng)orld Labs,也著(zhù)眼于3D生成世界,宣布長(cháng)期目標是構建大世界模型(LWM)來(lái)感知、生成3D世界并與之交互。

眾人拾柴火焰高嘛。

可以說(shuō),因為人才與技術(shù)、效果與場(chǎng)景的清晰和進(jìn)步,現在A(yíng)I 3D生成這個(gè)賽道,漸漸走進(jìn)了更多人的視野之中。

而3D Scaling Law或將帶來(lái)的突破性進(jìn)展,似乎已經(jīng)預示了人工智能領(lǐng)域下一個(gè)焦點(diǎn)的方向。

—完—

點(diǎn)這里??關(guān)注我,記得標星哦~

一鍵三連「分享」、「點(diǎn)贊」和「在看」

科技前沿進(jìn)展日日相見(jiàn) ~

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全