對話(huà)|騰訊云陳磊:小樣本數智人12小時(shí)就能造出來(lái),成本降至千元
(騰訊云小樣本數智人)
出品 | 搜狐科技
作者 | 潘琭玙
4月25日,騰訊云智能小樣本數智人生產(chǎn)平臺首次對外發(fā)布,平臺具有訓練樣本小、生產(chǎn)效率高、自動(dòng)化生產(chǎn)等特性,可以輕松實(shí)現“自助式”數智人生產(chǎn)制作。據騰訊云智能數智人產(chǎn)品總經(jīng)理陳磊介紹,小樣本數智人12小時(shí)就能夠出來(lái)demo,并且成本已降至千元級別。
陳磊表示,以前做一個(gè)數智人是幾個(gè)月,去年是以幾周為單位,“今年我們做一些2D小樣本數智人已經(jīng)達到小時(shí)級”。據悉,此前爆火的虛擬人“美妝達人柳夜熙”,3-4分鐘的視頻制作周期為一個(gè)多月,視頻制作成本高達幾十萬(wàn)。
高成本、長(cháng)周期以及難以逾越人腦的AI技術(shù)也限制了數字人、虛擬人的大規模落地。
目前騰訊小樣本數智人的生成需采集3分鐘真人口播視頻、100句語(yǔ)音素材,之后通過(guò)音頻、文本多模態(tài)數據輸入,能夠實(shí)現實(shí)時(shí)建模并生成高清人像,制作周期縮短至24小時(shí)。
陳磊表示,小樣本數智人支持半身、全身形象展示,手勢動(dòng)作會(huì )根據內容靈活調整,也支持錄制背景任意更換,適用于直播帶貨等更廣泛的商用場(chǎng)景。與2D真人精品數字人相比,小樣本數智人所需素材簡(jiǎn)單,成本較低,同時(shí)可根據文本設計手勢,唇動(dòng)、口型、表情復現真人風(fēng)格。
成本降至千元,2D視頻背后是3D人像做支撐
據騰訊優(yōu)圖實(shí)驗室研究總監汪鋮杰介紹,“小樣本數智人從直觀(guān)上感受是2D視頻,背后其實(shí)是3D人像在做支撐?!?/p>
他介紹,騰訊數智人技術(shù)包含語(yǔ)音、視覺(jué)、自然語(yǔ)言處理等技術(shù),“最近半年我們聚焦在加入人像編輯與3D技術(shù)。我們的核心追求,一個(gè)是如何做得更高效,另外是把數智人做得更逼真?!?/p>
在會(huì )后與搜狐科技在內的媒體對話(huà)中,汪鋮杰也表示,以前行業(yè)做的數智人效果未必好,有的一看就知道特別假;現在的數智人看一眼,還要猜測它們到底是真還是假。
數據顯示,自2021年7月至今,我國虛擬人、數字人賽道融資總金額已超過(guò)8億人民幣,自2021年起,數智人市場(chǎng)因部分技術(shù)低門(mén)檻已開(kāi)始陷入同質(zhì)化競爭。但對此,汪鋮杰表示,當下正處于“以一種模式置換另外一種模式的過(guò)程”。數智人將帶來(lái)新生產(chǎn)模式的出現,而在此之后大家會(huì )找到自己的定位。
在成本方面,陳磊透露,小樣本數智人成本現在主要是千元級別,隨著(zhù)技術(shù)發(fā)展,成本的門(mén)檻會(huì )越來(lái)越低。但是,3D超寫(xiě)實(shí)、高精定制等高技術(shù)要求的數智人仍要求高成本,以及具體針對客戶(hù)需求進(jìn)行定制。
陳磊也進(jìn)一步解釋?zhuān)粲械统杀净蚴瞧栈莼姆绞?,?huì )是騰訊數智人的追求方向。但目前,3D傳統的建模,從原畫(huà)設計、建模、驅動(dòng)、綁定等,一條鏈路上有很多傳統美術(shù)的路徑,成本較難迅速降低。
3D 建模數字人精美度高,但因過(guò)高的成本和制作周期在商業(yè)化應用上存在一定難度,更適用于大企業(yè)服務(wù)。小樣本2D數智人則開(kāi)拓了市場(chǎng)空間較大的直播帶貨、短視頻制作、偶像娛樂(lè )工業(yè)、游戲和客服等使用場(chǎng)景,能夠很大程度降低時(shí)間成本、提升效率并且可控性高。
對于大規模落地的可能性,陳磊指出,時(shí)間成本、金錢(qián)成本與穩定性是眼前的阻礙,“這三方面如果都解決了,對個(gè)人而言做自己的數智分身都是觸手可及的?!?/p>
在騰訊數智人的構想中,未來(lái)將以自助式為主,客戶(hù)自己開(kāi)賬號,下單,購買(mǎi),上傳素材并自己訓練,最終輸出效果,未來(lái)將是獨立式生成的一站式模式。
朝著(zhù)AIGC生成的框架升級
元宇宙概念退潮后,數字人作為元宇宙的“原住民”并未熄火。速途元宇宙研究院數據顯示,2022年虛擬人市場(chǎng)規模同比增長(cháng)64.5%,增速達到近三年峰值。在A(yíng)IGC技術(shù)的浪潮下,數字人也再次乘上風(fēng)口。
根據國盛證券報告,在當前以 2D 仿真數字人為主的情況下,AIGC 可以提高皮套生成的效率,并且疊加 NLP 模型后,有望實(shí)現 AI 驅動(dòng)的數字人。
陳磊也透露,騰訊云數智人正朝著(zhù)AIGC生成的框架去做改動(dòng),做一些生成技術(shù)的更新?!癆IGC在我們數智人的技術(shù)中有挺多的,包括口型生成、人臉生成等,在3D數智人也朝生成式的方向去走?!?/p>
據悉,在文字生成之外,騰訊數智人也將融合不同的模態(tài)。在語(yǔ)音和視覺(jué)圖像生成建模上,也會(huì )基于A(yíng)IGC技術(shù)進(jìn)行改動(dòng)升級。另外,陳磊也透露在“卡脖子”的算力方面,數智人產(chǎn)品業(yè)務(wù)并不會(huì )受到影響,“囤貨還是蠻多的”。
陳磊直言,在元宇宙過(guò)去幾年成立了幾萬(wàn)家數智人公司,傳統美術(shù)公司或是科技公司都在干同樣的事情,很過(guò)熱?!钡鞔_,騰訊將基于服務(wù)行業(yè)的角度,專(zhuān)注做厚aPaaS數智人平臺,以API接口形式向合作伙伴開(kāi)放“產(chǎn)、銷(xiāo)、服”一體化服務(wù)。
他表示,騰訊的數智人追求的是兩個(gè)方向,一個(gè)是通過(guò)AI技術(shù),能夠提升智能性,更智慧。第二個(gè)是更懂行,我們進(jìn)入到各種各樣的行業(yè)和場(chǎng)景,做深入的場(chǎng)景集成。