對話(huà)海外AI配音產(chǎn)品LipDub締造者:我沒(méi)有看到中國這類(lèi)AI產(chǎn)品的競爭對手
(圖片來(lái)源:unsplash)
近日,AI領(lǐng)域播客創(chuàng )作者Craig Smith,與締造海外AI語(yǔ)音產(chǎn)品LipDub背后的創(chuàng )業(yè)公司Monsters Aliens Robots Zombies(MARZ)吉印通創(chuàng )始人馬特·佩諾西斯(Matt Penousis)進(jìn)行近一小時(shí)的對話(huà),探討 AI 視覺(jué)與音頻領(lǐng)域的發(fā)展狀況與落地效果。
Matt表示,觀(guān)看《魷魚(yú)游戲》后,團隊意識到可以解決口型與音頻不同步的問(wèn)題,于是開(kāi)發(fā)了LipDub,旨在自動(dòng)同步口型與新的配音音軌。而截至目前,LipDub不僅服務(wù)于好萊塢,還擴展到廣告、在線(xiàn)教育、YouTube這類(lèi)在線(xiàn)視頻等多個(gè)領(lǐng)域。
對于中國市場(chǎng),Matt認為,中國是一個(gè)巨大的市場(chǎng),尤其是考慮到中國擁有眾多的方言和語(yǔ)言,這為L(cháng)ipDub技術(shù)提供了廣闊的應用空間。但他也認為,中國在A(yíng)I音頻技術(shù)上的迅猛進(jìn)步,最終導致其在這一領(lǐng)域也在與美國等國家進(jìn)行積極的探索和競爭。
Matt提到,除了幫助英語(yǔ)內容進(jìn)入非英語(yǔ)市場(chǎng)外,LipDub也可以幫助中文內容進(jìn)入英語(yǔ)和其他語(yǔ)言市場(chǎng),打破文化和語(yǔ)言障礙。比如,有一些中國公司展示了讓特朗普說(shuō)中文的視頻,雖然當時(shí)只是聲音克隆,但這也顯示了中國在這一領(lǐng)域的技術(shù)實(shí)力。
Matt強調,AI 音頻技術(shù)具有廣闊場(chǎng)景,需要市場(chǎng)不斷加大對AI音頻技術(shù)的關(guān)注。“我們絕對認為,LipDub 是一款很棒的產(chǎn)品,它在世界上為我們占有一席之地。隨著(zhù)公司的發(fā)展,我們將進(jìn)行大量新產(chǎn)品開(kāi)發(fā),我們的重點(diǎn)是讓個(gè)人可以參與并發(fā)揮這種創(chuàng )造力。盡管我們有一些很酷的想法,但確實(shí)在努力保持專(zhuān)注,至少現在是這樣,LipDub不會(huì )是我們推出的最后一個(gè)產(chǎn)品。”
以下是Craig Smith與Matt Penousis的對話(huà)速記:
Craig:好的。那么馬特,請先自我介紹一下呢?請告訴我們一些您的背景以及您是如何加入 LipDub 的。
Matt:當然。我叫馬特·佩諾西斯 (Matt Penousis),是Monsters Aliens Robots Zombies吉印通創(chuàng )始人。
此前我是一名律師,開(kāi)始了我的第一次。在法學(xué)院畢業(yè)之后,如今進(jìn)入了軟件企業(yè)。所以,我學(xué)習的知識與我們今天在這里所做的工作無(wú)關(guān)。此前創(chuàng )立了一家名為Acto的電子學(xué)習公司,花了五年的時(shí)間。
后來(lái),在A(yíng)cto上的工作就結束了。然后,我現在的合伙人的兩個(gè)合伙人創(chuàng )辦了一家視覺(jué)效果公司,我對此很感興趣。我對這個(gè)空間一無(wú)所知。我們是如何到達 LipDub 的?
第一階段是我們所處的階段,我們正在為一家視覺(jué)效果公司工作,我們看到了好萊塢對更快、更便宜的視覺(jué)效果的需求。因此,我們開(kāi)始問(wèn)自己,怎樣才能以更快的速度、更好的價(jià)格、并且不犧牲質(zhì)量來(lái)進(jìn)行視覺(jué)特效工作或視覺(jué)效果工作。我們很早就認識了。
早在 2018 年,我們就開(kāi)始考慮,如果我們要做出改變,或者為好萊塢提供真正差異化的產(chǎn)品,我們就需要投資于創(chuàng )新,而考慮到這些目標,當時(shí) AI 似乎是我們值得信賴(lài)的正確創(chuàng )新。做出決定后,我們就開(kāi)始尋找應用。因為當你與好萊塢合作時(shí),你會(huì )做很多不同的事情。你可能正在為《怪奇物語(yǔ)》制作一個(gè)生物,或者你可能正在讓多倫多的天際線(xiàn)看起來(lái)像紐約的天際線(xiàn),或者你可能正在使某人變老,或者你可能正在創(chuàng )建一個(gè)波浪模擬。
視覺(jué)效果是一個(gè)如此廣泛、如此籠統的術(shù)語(yǔ),如果你想在這個(gè)領(lǐng)域嘗試和創(chuàng )新,那么你真正選擇一個(gè)你想要自動(dòng)化的應用是非常重要的。我們正在尋找廣泛應用,因為好萊塢的 AI 產(chǎn)品研發(fā)工作非常密集,你當然不想花費數年時(shí)間來(lái)構建和自動(dòng)化幾乎不出現或出現的用例十分之一的項目。您確實(shí)在尋找出現在絕大多數項目中的用例。
隨后,我們決定投資的第一個(gè)應用程序叫做Vanity AI(虛榮)。我們喜歡它的原因是,數字化妝和抗衰老確實(shí)出現在絕大多數好萊塢項目中。與此同時(shí),我們覺(jué)得Vanity AI 顯然早于今天所處的新一輪 AI 熱潮,但我們覺(jué)得技術(shù)已經(jīng)足夠好以適應這種用例。
因此,我們MARZ建立并使用了一個(gè)內部 AI 工具,它可以縮短視覺(jué)特效藝術(shù)家進(jìn)行數字化妝或去老化鏡頭所需的時(shí)間。因此,以前五秒的鏡頭可能需要視覺(jué)特效藝術(shù)家半天的時(shí)間,根據客戶(hù)的要求以及你要改變臉部的程度,可能需要藝術(shù)家兩三天的時(shí)間。所以 Vanity 將平均每次拍攝時(shí)間縮短為 25 分鐘。
所以這是我們的第一次嘗試,基本上我們已經(jīng)在處理臉部,他們稱(chēng)之為深度面部編輯。
不久之后,《Squid Game》(魷魚(yú)游戲)就問(wèn)世了。我們大多數人都觀(guān)看了這個(gè)系列,這是一個(gè)精彩的故事,但顯然,嘴唇和音頻之間缺乏同步,使我們脫離了體驗。
因此,我們認為,這可能是一個(gè)需要解決的非常有趣的問(wèn)題。而今天,我們通過(guò)LipDub創(chuàng )建這種高度自動(dòng)化的視覺(jué)效果應用程序。而唇音配音背后的最初論點(diǎn)是,通過(guò)自動(dòng)將唇音與輸入系統的任何新配音音軌同步,讓好萊塢配音第一次看起來(lái)真實(shí)。
這就是我們開(kāi)始做LipDub的原因,顯然現在我們已經(jīng)進(jìn)入市場(chǎng)了。就我們如何實(shí)現這一目標而言,這就是一種演變歷史。
Craig:是的。當你說(shuō)這是一個(gè)需要解決的問(wèn)題時(shí),其實(shí)還有其他技術(shù)和解決方案。我想到了 Rask AI,但它們并不那么精確。從我對唇配音和好萊塢的理解來(lái)看,更精確的解決方案是你們與其他公司的不同之處嗎?
Matt:是的。所以對我們來(lái)說(shuō),就像好萊塢一樣,顯然你要解決的質(zhì)量標準是盡可能高的。因此,很多東西需要在一定水平上工作才能可用。所以顯然,銜接必須是完美的。紋理的保真度和您操作的分辨率必須是。好萊塢級別,現在通常是 4k,紋理的保真度必須非常出色。如果你有胡子,如果我們對你進(jìn)行口型配音,我們將在這里做,我們希望能夠看到你胡子上的每一縷頭發(fā)。因此,我們解決這個(gè)問(wèn)題的一個(gè)重要要求是面部的清晰度、紋理和紋理保真度。
另一個(gè)明顯的事實(shí)是,在好萊塢,很少有事情只是單一身份看著(zhù)屏幕,而是人們跑過(guò),逃離燃燒的建筑物,以及有 10 個(gè)角色說(shuō)話(huà)而人們將頭轉向的場(chǎng)景。側面和燈光正在變化。因此,我們投入大量研發(fā)工作的真正原因不僅是能夠做出出色的清晰度和高分辨率、高保真度紋理,而且還能夠制作困難的內容,或者我們在內部稱(chēng)之為動(dòng)態(tài)內容。
因此,當您考慮市場(chǎng)上的其他工具時(shí),Rask 就是一個(gè)例子,有趣的是,這些工具是從音頻方面開(kāi)始的,因此它們的最初目的是自動(dòng)化方程式的配音方面,而我們從不擔心這一點(diǎn),因為之前好萊塢為我們提供音軌,具有更多的高級音頻效果。
現在,一些音頻公司已經(jīng)開(kāi)始努力進(jìn)行口型同步。因此,我們提供一應俱全的本地化解決方案,但我們的區別在于,當您使用 LipDub 時(shí),您將獲得市場(chǎng)上最好的清晰度、市場(chǎng)上最好的分辨率,并且您的創(chuàng )造力不受限制。您可以使用 LipDub 做任何事情。你可以做人移動(dòng),你可以做人以側面姿勢說(shuō)話(huà),你可以做物體干擾,物體經(jīng)過(guò)臉部。而且,老實(shí)說(shuō),我認為這些都是大問(wèn)題。無(wú)論您做什么,無(wú)論您的視頻內容涉及什么,您都不受限制。而大多數此類(lèi)消費級系統甚至連基本功能都難以解決。
Craig:是的,那么您的解決方案或您的平臺如何與現有的配音解決方案集成?顯然我認為Eleven Labs 是目前的領(lǐng)導者或者 DeepDub,那么,您談到了這些全面的解決方案,對于更高的消費級產(chǎn)品,您是否打算將配音、部分添加到您的平臺上?
Matt:是的。這當然是我們經(jīng)常談?wù)摰氖虑?。因此,今天我們大多數好萊塢以外的客戶(hù),以及廣告商客戶(hù),他們要么為自己的員工提供在線(xiàn)教育,要么比方說(shuō)在 YouTube 頻道、廣告代理商上銷(xiāo)售課程,我們意識到其中有很多,很多這些用戶(hù)確實(shí)也需要解決音頻問(wèn)題。
廣告在某種程度上是一個(gè)例外。他們仍然利用真實(shí)的配音,但你可以看到他們實(shí)際上開(kāi)始轉向這些真正經(jīng)濟的解決方案我們今天與現有客戶(hù)的方法是去購買(mǎi) Deep Dub,去購買(mǎi) Eleven Labs,然后使用我們。
我認為,我們未來(lái)的發(fā)展方向是我們可能會(huì )成為一種工具,但還沒(méi)有決定到底是哪一個(gè)。然而,我們有很多客戶(hù)要求一站式服務(wù),并不是說(shuō)使用兩個(gè)軟件,因此我們這一套方案是對市場(chǎng)有利的。
Craig:那么,用于匹配嘴唇運動(dòng)或操縱視頻中像素的算法的流程、技術(shù)流程是什么?產(chǎn)品本身是如何工作的?
Matt:無(wú)法透露太多,因為我們所做的很多事情以及使我們與眾不同的原因,過(guò)去兩年多的時(shí)間里,我們公司做了很多技術(shù)和專(zhuān)業(yè)工作,它的運作方式類(lèi)似于 Dropbox。
如果你就擁有了一份原創(chuàng )文件,假設其是用英語(yǔ)制作的,而您希望以普通話(huà)為目標。這正是我們在這個(gè)播客中要做的事情。Liptub上的產(chǎn)品過(guò)程非常簡(jiǎn)單。您可以在media上傳后,系統要做的第一件事是實(shí)際檢測并跟蹤在媒體中找到的所有面孔。然后,它會(huì )提示用戶(hù)繼續標記所找到的面孔,一旦標記完畢,LipDub 就會(huì )了解身份。對于一個(gè)小時(shí)的內容來(lái)說(shuō),上傳媒體和標記的過(guò)程可能需要大約 20 分鐘的預處理時(shí)間。
一旦你有了經(jīng)過(guò)處理的視頻,你所要做的就是在中間進(jìn)行一個(gè)訓練步驟。所以,我們的系統所做的就是實(shí)際訓練,得到增強的配音效果和匹配效果,這是我們計算過(guò)程中最長(cháng)的部分。而過(guò)去需要10個(gè)小時(shí)的時(shí)間,現在我們已經(jīng)減少到2小時(shí),并且我們將繼續努力縮短時(shí)間。最后,將新的音頻文件與這些揚聲器相關(guān)聯(lián),這是一個(gè)簡(jiǎn)單的拖放操作。
對我來(lái)說(shuō)也是如此。這就是平臺上的一般流程。
Craig:這個(gè)平臺正在做的是逐幀操作的音視頻對齊,那么這是用補丁完成的嗎?如何替換大面積的像素,以及它如何與音頻中嘴唇的閉合或張開(kāi)相關(guān)聯(lián)?
Matt:是的。所以我們生成的幾乎是眼睛下方的所有東西。這是基于音頻的重建,隨著(zhù)時(shí)間的推移,我們不斷進(jìn)行修改,并且不斷發(fā)展。就系統的工作原理而言,大多數人都能弄清楚其中的一些顯現層面,再說(shuō)一次,音素的數量是有限的,然后是與這些音素相關(guān)的雙音素正完成映射。但這才是真正開(kāi)始。
我們很早就認識到口腔內部結構的重要性。我們說(shuō)話(huà)的大部分內容,實(shí)際上不是我們的嘴唇,而是我們的舌頭,而是我們的牙齒。有些單詞幾乎完全是由我們的舌頭產(chǎn)生的,所以你可能有兩個(gè)非常相似的嘴形。但不同的舌頭和牙齒位置會(huì )產(chǎn)生不同的聲音。這對我們來(lái)說(shuō)是一個(gè)巨大的挑戰,我們要弄清楚如何正確地處理口腔內部結構?然后就是如何個(gè)性化?你如何確保我正在重建的內容不只是看起來(lái)像任何一組嘴唇或隨機的一組嘴唇或嘴唇的代理,你如何使它看起來(lái)完全像說(shuō)話(huà)者,然后你就繼續前進(jìn)解決這個(gè)問(wèn)題的長(cháng)尾問(wèn)題。
Craig:是的。我們討論了現有的消費級產(chǎn)品。我們要用中文來(lái)做這件事,我在中國有觀(guān)眾。中國人有類(lèi)似的解決方案嗎?因為很多時(shí)候,他們正在與美國的解決方案進(jìn)行最前沿的競爭。
Matt:是的,現在有相當多的產(chǎn)品,它對我們來(lái)說(shuō)是有效的,因為。我們覺(jué)得從很多方面來(lái)說(shuō),我們都是這個(gè)類(lèi)別的開(kāi)創(chuàng )者。有一家公司在口型同步方面比我們早,但他們并不專(zhuān)注于自動(dòng)化,這對我們來(lái)說(shuō)非常重要,不是為了自動(dòng)化而自動(dòng)化,但我們總覺(jué)得即使我們可以口型同步,如果需要太長(cháng)時(shí)間或者如果成本太高,就會(huì )限制大多數用例的可訪(fǎng)問(wèn)性。
因此,就全球第一批真正實(shí)現在這種質(zhì)量水平上運行的東西的自動(dòng)化而言,就像我們真的覺(jué)得我們推出了這個(gè)類(lèi)別一樣,是的,當然現在我們看到一群人進(jìn)來(lái)并稱(chēng)他們?yōu)榭焖僮冯S者公司。不同之處在于,這些公司中的大多數只是包裝者。
他們只是圍繞開(kāi)源和中國市場(chǎng)。當然,它們本質(zhì)上受到開(kāi)源以及開(kāi)源所能帶來(lái)的限制。兩年前,我們開(kāi)始使用開(kāi)源,但剛剛意識到它甚至沒(méi)有讓我們接近我們需要達到的目標。但目前,我們沒(méi)有看到任何中國的競爭對手。
Craig:我問(wèn)起中國的原因是,有一個(gè)著(zhù)名的視頻,我認為這是感知時(shí)間或我飛行科技。我不記得是哪一個(gè)了。中國公司推出了特朗普用中文說(shuō)話(huà)的內容,這讓當時(shí)的所有人都感到震驚,這是一個(gè)聲音克隆,但口型同步并不存在。所以我想知道,中國人是否已經(jīng)解決了假唱部分。對于您口型同步的視頻的每一分鐘或一小時(shí),這個(gè)過(guò)程需要多長(cháng)時(shí)間,或者像您所說(shuō)的那樣,根據場(chǎng)景的動(dòng)態(tài)程度而變化,需要多少分鐘或幾小時(shí)?
Matt:是的,粗略地說(shuō),您想要在平臺上生成的每一分鐘新內容,現在可能需要10-20分鐘。雖然它不是線(xiàn)性的。這并不是說(shuō)您在系統中運行一小時(shí)的內容,隨著(zhù)內容的移動(dòng),速度會(huì )變得更快。但因為我們以可擴展的方式構建了一切。所有這些過(guò)程。可以并行進(jìn)行。
舉個(gè)例子,如果我們將這次對話(huà)口譯成十種語(yǔ)言。您可以在云端同時(shí)生成所有 10 個(gè)新視頻,并且您可能會(huì )猜測,是的,它可能會(huì )在一個(gè)小時(shí)內平均達到每分鐘 10 分鐘左右。不包括培訓。訓練是這樣的,你必須做兩個(gè)小時(shí),你做一次。您不必針對每種語(yǔ)言執行此操作。您只需執行一次即可真正了解紋理。然后,是的,您看到的可能是每分鐘 10 分鐘左右。
Craig:是的。成本擺在那里,你如何定價(jià)?是訂閱模式嗎?還是說(shuō)按分鐘收費或如何收費?
Matt:是的,你說(shuō)得完全正確。所以這是一種訂閱模式。
它的工作原理是您在平臺上預先購買(mǎi)積分。您可以每月購買(mǎi)積分,也可以每年購買(mǎi)積分。如果您每月購買(mǎi)積分,這是一種“使用或丟失”模型,您將獲得當月分配的積分,而未使用的積分將在月底到期。如果您每年支付積分,您將預先獲得所有年度積分,并且可以在一年中隨時(shí)需要時(shí)靈活地使用這些積分。信用的價(jià)格是 1 美元。不同之處在于您消耗的積分數量取決于您在平臺上運行的活動(dòng)。
例如,生成 1080p 輸出視頻將比生成 4K 視頻消耗更少的積分。
Craig:那誰(shuí)是主要用例?你們?yōu)楹萌R塢打造了這個(gè)。但在我看來(lái),隨著(zhù)語(yǔ)音克隆和實(shí)時(shí)翻譯的發(fā)展,各個(gè)領(lǐng)域對這種解決方案的需求將會(huì )越來(lái)越高。
Matt:是的,這就是我們興奮的原因。 LipDub 很有價(jià)值,需要有一些你想要關(guān)聯(lián)的新配音音頻,而從歷史上看,配音一直是一個(gè)非常手動(dòng)、非常昂貴的過(guò)程,實(shí)際上大多數情況下只有好萊塢和廣告商使用。
現在,配音正在成為一項非常負擔得起、非常容易實(shí)現的任務(wù)。世界上有多少內容即將被配音。目前,世界上只有 1% 的視頻內容經(jīng)過(guò)配音。但同樣,這是基于這樣一個(gè)想法:配音一直是一項非常手動(dòng)、非常昂貴的任務(wù)。如果現在每分鐘配音只需幾美分,那么全球互聯(lián)網(wǎng)內容的配音比例將達到多少?我們強烈認為,任何配音的東西都應該對口型。那么回到你最初的問(wèn)題,誰(shuí)是用戶(hù)?這是一場(chǎng)持續不斷的對話(huà)。
YouTube市場(chǎng)讓我非常興奮,真的非常非常興奮。目前有很多證據表明這一點(diǎn)。來(lái)自那些早期采用者、創(chuàng )新的《野獸先生》(MrBeast)YouTuber選擇進(jìn)行配音。為期兩年的實(shí)驗得出的統計數據表明,全球對這種內容有巨大的需求。
Craig:是的,實(shí)際上,我沒(méi)有意識到MrBeast為他的視頻選擇 AI 配音。他配音成什么語(yǔ)言?
Matt:他一開(kāi)始是 15 個(gè),他會(huì )增加到 30 個(gè)。而他在人工智能音頻技術(shù)出現之前就開(kāi)始了他的實(shí)驗。因此,最初他付錢(qián)給傳統的配音工作室來(lái)做這項工作,他并沒(méi)有發(fā)布他所有的績(jì)效指標,但他發(fā)布了某些月份作為例子,并且他 50% 以上的觀(guān)點(diǎn)是通過(guò)配音得到的。
Craig:您是否正在與他合作,或者 YouTube 是否可以將其集成到 YouTube 工作室中,以便人們只需單擊按鈕即可對口型配音音頻。
Matt:是的,所以我們正在與MrBeast合作。而且,我們開(kāi)始探索一些唇形同步的工作。我們最近還為該平臺引入了許多其他主要的 YouTube 主播。這些人要么是已經(jīng)配音了內容,要么只是看到了趨勢,想要立即開(kāi)始本地化他們的頻道。因為確實(shí)如此。
相對而言,它確實(shí)代表了LipDub的成果。本地化是實(shí)現這一目標的好方法。這不是唯一的市場(chǎng),但我對這個(gè)市場(chǎng)特別興奮,因為我真的像世界一樣相信,我們沒(méi)有理由只看說(shuō)我們語(yǔ)言的有影響力的人。
我認為人們到處都在制作有趣的內容。你只要縱觀(guān)整個(gè)媒體領(lǐng)域,就會(huì )發(fā)現有這種需求。我現在就是一個(gè)例子,我真的很喜歡幕府將軍,我認為這太棒了。魷魚(yú)游戲太棒了。我們現在還與一些 YouTuber 合作,他們是世界其他地區的主要影響者,他們確實(shí)有興趣首次進(jìn)軍北美市場(chǎng)。
而且,字幕是歷史上所做的方式,只是它不是很吸引人,現在突然間您就可以擁有一個(gè) YouTube 頻道,您可以在其中提供世界上每個(gè)國家的語(yǔ)音效果、一流的觀(guān)看體驗,就像是為您量身定做的一樣。我對此感到非常興奮。
同時(shí),現在正在傾斜的市場(chǎng)是廣告,無(wú)論是數字營(yíng)銷(xiāo)還是電視廣播,都是一個(gè)非常大的市場(chǎng)。許多簽約客戶(hù)要么是廣告公司,要么是他們的視頻制作公司。我們剛剛做了一個(gè)電視廣告,可能是我最喜歡的科技品牌。很快就會(huì )出來(lái)。我們很快就能討論這個(gè)問(wèn)題,但這確實(shí)令人興奮。
另外,在線(xiàn)教育也是重要的覆蓋領(lǐng)域,無(wú)論是針對您的員工,假設您是一家在世界各地擁有員工的跨國公司,能夠與您的國際員工或銷(xiāo)售課程的人員進(jìn)行溝通進(jìn)入新市場(chǎng),對嗎?我們現在有一些人擁有有意義的課程負擔,非常成功的公司,但只在他們的地區取得成功。現在,他們將 LipDub 視為進(jìn)入新市場(chǎng)和發(fā)展業(yè)務(wù)的一種機制。
我認為這是一種令人興奮的發(fā)展方式。
Craig:這是雙向的。有些人用英語(yǔ)制作內容,希望進(jìn)入非英語(yǔ)市場(chǎng),但內容數量巨大。我在中國的大部分時(shí)間都是用中文度過(guò)的,這是英語(yǔ)世界從未見(jiàn)過(guò)的。坦率地說(shuō),這就是我認為兩國之間存在理解差距的原因之一,因為人們只是沒(méi)有接觸到中文,從您的角度來(lái)看,大部分內容、大部分市場(chǎng)都是將英語(yǔ)內容翻譯成其他語(yǔ)言,您認為原因是什么?
Matt:確實(shí)兩者都是。無(wú)論哪種方式,我都沒(méi)有看到主導趨勢。對于好萊塢來(lái)說(shuō),特別是他們最初的用例,他們最感興趣的是外國英語(yǔ),可能只是因為我們作為說(shuō)英語(yǔ)的人,我們已經(jīng)沒(méi)有耐心了。其他市場(chǎng)例如德國或法國,都是靠配音成長(cháng)起來(lái)的。
所以嘴唇不同步的想法是它并不理想或最佳,但至少他們是伴隨著(zhù)它長(cháng)大的。然而我們缺乏耐心,而且當出現這個(gè)問(wèn)題時(shí)我們非常適應。所以好萊塢當然對英語(yǔ)的外國文化感興趣,但是當涉及到廣告、在線(xiàn)教育、YouTube 時(shí),我們真的看到了這一切。
查看所有主要歐洲語(yǔ)言:德語(yǔ)、法語(yǔ)、意大利語(yǔ)。看到很多印度語(yǔ)言,比如印地語(yǔ),普通話(huà)是一大類(lèi)。所以我們確實(shí)發(fā)現我們還沒(méi)有看到任何一種特定的趨勢突出。只是感覺(jué)每個(gè)人都想更好地與每個(gè)人溝通。
Craig:實(shí)時(shí)性如何?是否可以想象,最終您將能夠同步和配音實(shí)時(shí)流媒體內容,但會(huì )有一些延遲。
Matt:是的,這當然是可以想象的。在實(shí)時(shí)工作時(shí),通常面臨的挑戰是您通常會(huì )做出一些質(zhì)量權衡。
但現在很多時(shí)候,隨著(zhù)技術(shù)的發(fā)展,舊的權衡消失了。因此,我們當然對此感興趣,作為未來(lái)開(kāi)發(fā)的未來(lái),因為顯然如果你可以實(shí)時(shí)進(jìn)行,你就會(huì )開(kāi)辟很多有趣的用例。到那時(shí),它就真正成為通用翻譯機中的一個(gè)重要齒輪。我可以與中國的同事交談,并以一種我以前從未做過(guò)的方式與那個(gè)人建立聯(lián)系,這一想法顯然非常有趣。然后你就擁有了很多本質(zhì)上是實(shí)時(shí)內容的內容。
很多廣播都是現場(chǎng)直播的。盡管我們確實(shí)看到該平臺上有一些廣播用例。舉個(gè)例子,現在有幾家公司正在對印度所有不同的官方語(yǔ)言進(jìn)行板球分析。但這些,是的,我認為這真的很酷。印度是一個(gè)巨大的市場(chǎng)。
印度就像最好的市場(chǎng)之一,因為有很多方言。通常,您要么必須為每種方言創(chuàng )建內容,要么某些方言無(wú)法獲得出色的內容觀(guān)看體驗。因此非??春糜《鹊倪@項技術(shù)。
Craig:挑戰之一不僅僅是嘴唇的張合或牙齒或舌頭的位置,還有措辭,因為翻譯中的某些內容可能比英語(yǔ)中的表達時(shí)間更長(cháng),反之亦然。你怎么處理那件事呢?
Matt:是的,這是一個(gè)很好的觀(guān)點(diǎn)。我認為這兩個(gè)是大多數人工智能音頻軟件的限制因素。所以首先是翻譯的準確性。有些語(yǔ)言的翻譯準確率比其他語(yǔ)言高得多,我認為這是一個(gè)需要解決的問(wèn)題。
另一個(gè)更難解決的是。口語(yǔ)和俚語(yǔ)。但我有信心,這是翻譯準確性問(wèn)題的一個(gè)子集,這兩件事都是真正的問(wèn)題。這就是大多數人工智能音頻系統中的原因,對嗎?您可以進(jìn)入并編輯重定向的腳本,但這需要會(huì )說(shuō)該語(yǔ)言的人進(jìn)入并為此工作,這只會(huì )使系統更難以從中獲取價(jià)值,對吧?
如果為了讓我將視頻完美地翻譯成 10 種語(yǔ)言,如果我需要每種目標語(yǔ)言的演講者,來(lái)審查這些音頻平臺的翻譯,這并不是說(shuō)這是不可行的。這只是有點(diǎn)煩人和邏輯上的挑戰。
因此,這肯定是當今平臺和使用 AI 音頻的人們所存在的一個(gè)問(wèn)題,他們中的大多數人都在竭盡全力。真正做這項工作并讓人們了解這些語(yǔ)言。您提到的另一個(gè)問(wèn)題是時(shí)間,它是系統中的限制因素。如果您正在聽(tīng)一段音頻,感覺(jué)該音頻的一部分加快了速度,然后又減慢了速度。可接受的觀(guān)看體驗和最終完全分散您注意力的東西之間只有一線(xiàn)之隔。不過(guò),解決這個(gè)問(wèn)題的方法還是回到腳本編輯部分。如果你有,如果你有英語(yǔ)內容要翻譯成西班牙語(yǔ),開(kāi)箱即用的西班牙語(yǔ)音頻是 15 秒,但英語(yǔ)是 10 秒。
當然,你可以依靠自動(dòng)減速、加速,或者你可以實(shí)際進(jìn)入并調整西班牙語(yǔ)腳本,取出一些單詞,稍微調整一下。順便說(shuō)一句,這正是好萊塢所做的。但話(huà)又說(shuō)回來(lái),這太麻煩了。
Craig:但這聽(tīng)起來(lái)像是可以自動(dòng)化的語(yǔ)言和翻譯。
Matt:是的,我認為這可能是一種有趣的方式。我認為可以捕捉一些原始腳本內容的迭代。這個(gè)更短,更適合您的視頻,這個(gè)是逐字記錄的,但太長(cháng)了。我并不是說(shuō)這些都是無(wú)法解決的問(wèn)題。這些只是當今一些人走進(jìn)平臺并期望完美的限制。
AI音頻軟件非常神奇,但神奇并不意味著(zhù)完美,神奇也不意味著(zhù)不需要任何工作。
Craig:顯而易見(jiàn)的問(wèn)題是音頻隱私和濫用的可能性。那么你們對此有何看法?或者您是否正在考慮在平臺中內置這些控件或任何東西來(lái)監管這種濫用行為?
Matt:這是我們經(jīng)常談?wù)摰氖虑?。我們建立這個(gè)項目是為了最終幫助世界更好地溝通,所以我們做了一些事情。我們做的一件事是,我們確保無(wú)論您是誰(shuí),只要在平臺上單擊一下,您實(shí)際上就有權使用 LipDub 那個(gè)人。
我們還抽查通過(guò)平臺運行的所有內容。如果我們發(fā)現濫用。如果我們看到某個(gè)名人正在宣傳我們知道他們沒(méi)有宣傳過(guò)的東西,那么您將被終身禁止使用該平臺。
這些努力非常耗時(shí),但我們認為是必要的。我認為這在很大程度上最終將取決于那些促進(jìn) AI 生成內容的人之間的良好合作,以及該內容的分發(fā)平臺,有多種方法可以用元數據標記這些內容,確保任何人工智能生成的視頻內容都會(huì )被貼上這樣的標簽。
我認為這很重要,因為就你的觀(guān)點(diǎn)而言,確實(shí)如此。如果我們不這樣做,如果每個(gè)人不開(kāi)始共同努力,那么我認為所有這些新一代 AI 技術(shù)的負面影響將是真實(shí)的,可能對社會(huì )非常有害。我認為沒(méi)有人愿意這樣,新的能力可以完成他們永遠無(wú)法想象的事情,從而賦予個(gè)人權力。
Craig:我知道,通過(guò)數字水印或在人眼不可見(jiàn)的像素中嵌入一些圖案,以防止音頻濫用。那你們正在與研究人員討論此類(lèi)解決方案嗎?
Matt:這正是我所指的數字水印。我不是我們團隊中真正推動(dòng)這些討論的人,因為我不是工程師,而且這種技術(shù)遠遠不夠。如果我們希望這些數字水印是永久性的,它就非常重要。
Craig:是否有人們可以查看的用例?有使用過(guò)您的技術(shù)的好萊塢示例或 YouTube 示例嗎?我猜你說(shuō)的是MrBeast。
Matt:是的,老實(shí)說(shuō),現在在好萊塢,我們在 LipDub 所做的大部分工作都是他們所說(shuō)的 ADR。我們的軟件通??赡苄枰M(jìn)行非常昂貴的拍攝,這就是我們今天與好萊塢合作的工作。坦率地說(shuō),該產(chǎn)品需要一個(gè)適合好萊塢完成這項工作的成本結構。
其他業(yè)務(wù)層面,我們的許多 YouTuber現在才剛剛起步,因此您很快就會(huì )在平臺上看到他們,并且您會(huì )開(kāi)始看到他們的內容彈出。然后還有廣告,對吧?我們剛剛為樂(lè )事做了一個(gè)很棒的大衛·貝克漢姆的廣告。我們在哪里進(jìn)行了更改,在哪里進(jìn)行了本地化,本地化為不同的語(yǔ)言。
我剛才提到,我們剛剛針對八種語(yǔ)言進(jìn)行了三項營(yíng)銷(xiāo)活動(dòng)。我們的一些客戶(hù)再次代表品牌開(kāi)展工作,無(wú)論是為了他們的數字營(yíng)銷(xiāo)還是電子學(xué)習工作。這些指標非常驚人。就收視率和參與率而言,但這些并不是我們必須分享的指標。
Craig:你是如何組建團隊來(lái)做到這一點(diǎn)的?創(chuàng )始人是誰(shuí)?起源故事是什么?你是一名律師,為何會(huì )做軟件?
Matt:我也很驚訝。所以這不僅僅是你,是的,這一切都是從我以前的軟件公司開(kāi)始的,我們沒(méi)有做人工智能工作。
在建立團隊的過(guò)程中,我很快就學(xué)到了一件事,就像這個(gè)團隊的第一次迭代一樣。這當然不是一個(gè)質(zhì)量勝過(guò)數量的游戲。有很多人是研究人員。你可以雇一個(gè)滿(mǎn)是普通研究人員的房間,你會(huì )得到 100 個(gè)理由來(lái)解釋為什么問(wèn)題無(wú)法解決。而你可以聘請一位令人難以置信的研究人員,他們會(huì )給你問(wèn)題的答案。在 MARZ AI 成立之后,我很快意識到這將是一個(gè)嚴肅的項目。如果我們要開(kāi)發(fā)世界一流的產(chǎn)品,我們就需要世界一流的研究,事實(shí)確實(shí)如此。
在這其中,找到丹尼爾·科恩-奧(DanielCohen-Or). 是關(guān)鍵的一步。丹尼爾是世界上 SIGGRAPH 發(fā)表最多的貢獻者第一。他在特拉維夫大學(xué)的實(shí)驗室享譽(yù)世界。他們加快了 30 年前作為圖形實(shí)驗室起步的步伐,但 10 年前,他們是全球第一批開(kāi)始問(wèn)自己這樣問(wèn)題的團隊之一:深度學(xué)習將如何影響圖形?
從那時(shí)起,他們的實(shí)驗室發(fā)布的論文和團隊都在做 AI 技術(shù)研發(fā),包括很多優(yōu)秀的加拿大教授。通過(guò)成立顧問(wèn)委員會(huì )方式,與全球 AI 音頻領(lǐng)域的專(zhuān)家進(jìn)行漫長(cháng)地聯(lián)系,從而找到一些真正優(yōu)秀的候選人。
最終,我真的把目光投向了丹尼爾,花了八個(gè)月的時(shí)間才簽下他,擔任公司首席科學(xué)家。但我認為他對這個(gè)愿景感到興奮,因為它與他實(shí)驗室的工作非常一致。
另外,我還找了阿里·馬達維·阿米里,擔任我們的研究總監。他是北美頂尖的圖形計算學(xué)校、加拿大 SFU 的助理教授。一旦我們有了這些人,你就擁有了一個(gè)研發(fā)環(huán)境,與全球范圍內一些最有才華的人一起在這個(gè)領(lǐng)域進(jìn)行研究,然后它就開(kāi)始自我發(fā)展。
Craig:你們是在召集顧問(wèn)委員會(huì )之前籌集資金,還是之后再籌集資金?
Matt:我們在籌集資金之前就召集了顧問(wèn)委員會(huì )。然后,我們按照這些思路推出一些東西。我們絕對認為,LipDub 是一款很棒的產(chǎn)品。
我們認為它在世界上為我們占有一席之地,這是一個(gè)成長(cháng)起點(diǎn)。
我認為,隨著(zhù)公司的發(fā)展,我們將進(jìn)行大量新產(chǎn)品開(kāi)發(fā),一直以來(lái),用戶(hù)如何從創(chuàng )意的角度賦予個(gè)人權力,讓他們能夠訪(fǎng)問(wèn)使用過(guò)的不同視覺(jué)特效應用程序采取藝術(shù)家團隊。我們的重點(diǎn)是讓個(gè)人可以參與并發(fā)揮這種創(chuàng )造力。像這些事情我們當然還沒(méi)有完成。
對于改變,我們有一些很酷的想法,我們正在四處尋找,但我們確實(shí)在努力保持專(zhuān)注,至少現在是這樣。比如,研發(fā)的這個(gè) LipDub還遠遠未結束,它也不會(huì )是我們推出的最后一個(gè)產(chǎn)品,這是肯定的。
(本文首發(fā)于鈦媒體App)