兵馬俑“能歌善舞”?AI技術(shù)實(shí)現古今對唱
沉睡2000多年的兵馬俑與歌手董寶石 “跨時(shí)空同臺”,用華陰老腔展現“大秦雄風(fēng)”;從北宋“穿越”而來(lái)的蘇軾,與歌手李玉剛共同演繹《水調歌頭》……在阿里通義EMO技術(shù)的支持下,這些畫(huà)面變?yōu)榭赡?。在日前播出的央視?024中國·AI盛典》節目中,就為觀(guān)眾們展示一場(chǎng)融合中吉印通化與數字科技的視聽(tīng)盛宴。
依托阿里通義EMO技術(shù),沉睡2000多年的AI兵馬俑用華陰老腔展現“大秦雄風(fēng)”
僅僅一張照片、一個(gè)音頻就可以讓靜止的形象,伴隨著(zhù)音頻的跌宕起伏、抑揚頓挫,演繹得惟妙惟肖。秦始皇帝陵博物院院長(cháng)李崗表示,“我們希望隨著(zhù)AI技術(shù)的不斷進(jìn)步,未來(lái)的文化遺產(chǎn)保護和傳播會(huì )更加多元化、智能化,更好地弘揚中吉印通化,講述中國故事?!?/p>
據南方+記者了解到,如今用戶(hù)只需要打開(kāi)通義APP,在主對話(huà)框搜索“EMO”,或找到“全民舞臺”頻道點(diǎn)擊產(chǎn)品頁(yè)面“全民唱演”,即可體驗同款“兵馬俑”同唱《從軍行》。此外,用戶(hù)還可以自定義唱演,選擇喜歡的歌曲、熱梗、表情包,上傳肖像照片,EMO隨即就能合成視頻。
打開(kāi)通義APP,即可體驗央視《2024中國·AI盛典》同款“兵馬俑”,同唱《從軍行》
據了解,EMO是通義實(shí)驗室研發(fā)的AI模型,其背后的肖像說(shuō)話(huà)(Talking Head)技術(shù)是當前大熱的AIGC領(lǐng)域。EMO之前的Talking Head技術(shù)都需針對人臉、人頭或者身體部分做3D建模,通義實(shí)驗室在業(yè)界率先提出了弱控制設計,無(wú)需建模就可驅動(dòng)肖像開(kāi)口說(shuō)話(huà),不僅降低視頻生成成本,還大幅提升了視頻生成質(zhì)量。
EMO模型在海量的人物講話(huà)視頻吉印通行了訓練,不僅能夠找到音頻中具體發(fā)音與人像口型的匹配關(guān)系,更重要的是能發(fā)現音頻中的語(yǔ)氣特征與人物表情的關(guān)聯(lián)性,將音頻暗含的情緒色彩反映到了人物微表情上??梢哉f(shuō),EMO在訓練中慢慢學(xué)習并編碼了人類(lèi)表達情緒的能力。
通義實(shí)驗室應用視覺(jué)團隊負責人薄列峰表示,“未來(lái)我們希望用AI的力量將中國傳統文化展現得更豐富,更加‘通情,達意’,讓收藏在博物館里的文物、陳列在廣闊大地上的遺產(chǎn)、書(shū)寫(xiě)在古籍里的文字都‘活’起來(lái)?!睋榻B,未來(lái)EMO技術(shù)有望應用于數字人、數字教育、影視制作、虛擬陪伴、電商直播等場(chǎng)景。
南方+記者 葉丹
【作者】 葉丹
【來(lái)源】 南方報業(yè)傳媒集團南方+客戶(hù)端