搜狗與新華社新媒體中心聯(lián)合發(fā)布全球首個(gè)站立式AI合成主播,你怎么看?
在過(guò)去的2018年,人工智能成為了最火熱的技術(shù)之一,AI技術(shù)不斷發(fā)展,讓越來(lái)越多的人開(kāi)始擔心,未來(lái)自己的工作會(huì )不會(huì )被機器人所代替,這種擔憂(yōu)看似很遙遠,但是對于一些職業(yè),變革已經(jīng)悄然來(lái)臨……
新華社聯(lián)合搜狗公司開(kāi)發(fā)的AI主播再次升級,新聞主播已經(jīng)開(kāi)始和人工智能競爭了。
就在昨天,新華社同搜狗公司召開(kāi)了戰略合作簽署儀式,雙方共同推動(dòng)媒體行業(yè)的創(chuàng )新發(fā)展,在儀式上,雙方共同發(fā)布了全新的站立式AI主播——“新小浩”和全球首個(gè)AI女主播——“新小萌”。
升級后的AI主播仍以新華社主播邱浩為原型,之前發(fā)布的AI主播只能保持坐姿,表情相對僵硬,神態(tài)與播報內容結合不夠貼切。而本次升級之后,“新小浩”不僅可以坐著(zhù)播報,更能站起來(lái),加入更多的肢體動(dòng)作,帶著(zhù)各種手勢及姿態(tài),聲情并茂的播報新聞,看起來(lái)更加真實(shí),更加智能。
本次升級也實(shí)現了技術(shù)上的重大突破,在聲音模型、圖像模型方面,成果顯著(zhù),并且對“搜狗分身”技術(shù)有了巨大的提升與完善。
針對文字與聲音的轉換,以及對聲音的模擬,都是基于聲音模型完成的,本次升級采用了領(lǐng)先的波形建模技術(shù)生成音頻,通過(guò)直接為音頻信號的原始波形建模,一次為一種音頻樣本建模,來(lái)改變這種范式。
與聽(tīng)起來(lái)更為自然的語(yǔ)音相同,使用原始波形意味著(zhù)其能夠為任意類(lèi)型的音頻建模。經(jīng)過(guò)這一技術(shù)合成的聲音,更富有情感,表現力得到極大提升。
圖像方面,本次升級在肢體動(dòng)作方面下足了功夫,使用了海量手勢數據,為其肢體動(dòng)作模型進(jìn)行學(xué)習,實(shí)現了“新小浩”豐富的肢體動(dòng)作,并且根據主播原型邱浩的播報行為習慣進(jìn)行數據分析,歸納手部動(dòng)作的習慣,讓動(dòng)作和播報內容相結合,不再“尬舞”。
關(guān)鍵點(diǎn)標記順序
除了肢體動(dòng)作,在唇部動(dòng)作方面,也對唇形合成模型進(jìn)行優(yōu)化,對于唇部動(dòng)作的關(guān)鍵點(diǎn)標記有了新的方案,唇部共計標注20個(gè)關(guān)鍵點(diǎn),外唇12個(gè),內唇8個(gè),提高了動(dòng)作捕獲的準確性。經(jīng)過(guò)一系列優(yōu)化,AI主播的聲音和口型配合將更加自然,更加流暢。
除了站立式AI主播,本次的另一個(gè)亮點(diǎn)是首個(gè)AI女主播,基于A(yíng)I男主播的開(kāi)發(fā)經(jīng)驗,AI合成女主播“新小萌”的定制周期大幅度縮短,播報效果和穩定性極大提升,AI女主播將于今年的全國兩會(huì )報道上正式亮相,加入新聞報道隊伍。此外合成AI女主播標志著(zhù)“搜狗分身”技術(shù)的更加成熟,為更廣泛的“復制”奠定了基礎。
截止目前,AI主播已發(fā)稿3400余條,累計時(shí)長(cháng)達10000多分鐘,參與了如第五屆世界互聯(lián)網(wǎng)大會(huì )、首屆進(jìn)博會(huì )、2019春運、農歷豬年春節等重要報道,不久的將來(lái)可實(shí)現量產(chǎn)。
將視野放寬,其實(shí)虛擬人物生成技術(shù)可應用領(lǐng)域較為廣泛,AI主播只是其中最初級的嘗試。在技術(shù)成熟,并且可以實(shí)現低成本復制之后,將應用于娛樂(lè )、醫療、健康、教育、法律、金融等多個(gè)領(lǐng)域,通過(guò)提供個(gè)性化的行業(yè)解決方案。
人工智能的發(fā)展,正在讓我們的生活變得更加美好,但是與此同時(shí),又會(huì )讓多少人失去工作?和人工智能比起來(lái),我們該如何凸顯核心競爭力,這一問(wèn)題值得深思。