達摩院跨入 AIGC 深水區,發(fā)布一站式 AI 視頻創(chuàng )作平臺「尋光」
年初,OpenAI 推出文本-視頻生成模型 Sora,只需輸入提示文本描述,或輸入一張圖片,Sora 就能生成類(lèi)似電影大片的逼真場(chǎng)景視頻,前所未有的新奇觀(guān)感,讓大眾直呼「現實(shí)不存在了」。
驚嘆之余,Sora 所展現出的神奇「魔法」,也讓業(yè)界意識到 AI 視頻生成在高清晰度、高保真度、高質(zhì)量方面的巨大潛力與價(jià)值。
此后,AI 視頻生成模型搖身一變成為科技圈新的寵兒,并一改之前大語(yǔ)言模型一家獨大的格局為兩者的分庭抗禮。
「Sora熱」開(kāi)始席卷全球,直到現在,國內外相關(guān)的 AI 視頻生成模型或產(chǎn)品工具都將 Sora 奉為業(yè)界標桿,沿著(zhù)一條類(lèi) Sora、比肩 Sora、超越 Sora 的道路狂奔。
但不可否認,相較于大語(yǔ)言模型的「狂飆」,目前 AI 視頻生成技術(shù)還處于早期階段,距離「ChatGPT」式的爆發(fā)仍有一段距離。即便強大如 Sora,也并非完美,在技術(shù)端依舊存在著(zhù)許多未解的問(wèn)題與挑戰。
為此,在當下, 如何利用大模型技術(shù)的強大能力,破解 AI 視頻生成領(lǐng)域的難題,更大程度上地釋放 AI 生產(chǎn)力,助推 AI 視頻生成再往前進(jìn)一步,是業(yè)界在不斷思考和探索的重心。
前幾天,在世界人工智能大會(huì )上,阿里達摩院發(fā)布了一站式 AI 視頻創(chuàng )作平臺——尋光,似乎為 AI 視頻生成的發(fā)展帶來(lái)了新的范式。
可控編輯、一致性難以實(shí)現,現有 AI 工作流亟待重塑
關(guān)注 Sora 的業(yè)界從業(yè)者應該都知道幾個(gè)月前的著(zhù)名「打假貼」事件。
簡(jiǎn)單來(lái)說(shuō),當時(shí) Sora 一經(jīng)發(fā)布,OpenAI 為了展示其強大能力和維持話(huà)題熱度,邀請了一些專(zhuān)業(yè)創(chuàng )作者、行業(yè) KOL 等試用 Sora,并時(shí)不時(shí)放出雙方合作生成的創(chuàng )意視頻,吸引大眾目光。
其中,有一個(gè)合作方是來(lái)自于多倫多的 Shy Kids 團隊,他們使用 Sora 制作的《Air Head(氣球人)》短片,因為創(chuàng )意新穎、將藝術(shù)與 AI 技術(shù)的完美結合,得到了大眾的一致贊美,更有甚者將之稱(chēng)為「Sora 史上最佳短片作品」。
可是令人意想不到的是,后來(lái)制作團隊發(fā)文稱(chēng),《Air Head》并非由 Sora 一鍵生成,在實(shí)際的制作過(guò)程中,有大量的視覺(jué)效果是經(jīng)過(guò)人工后期編輯而成,才呈現出最終效果。
據他們介紹,整個(gè)短片是由多個(gè)視頻片段組成的,但是在生成不同的視頻片段時(shí),很難保證主角始終是個(gè)長(cháng)著(zhù)黃色氣球腦袋的人,有時(shí)候氣球上會(huì )自動(dòng)「長(cháng)出」一張人臉,或者依照常識給主角安裝一個(gè)不符合劇情的腦袋,等等,bug多到創(chuàng )作人員頻頻吐槽「生成過(guò)程很難控制」。
另外,還有角色對象一致性的問(wèn)題。
在短片中,主角的衣服和那頂標志性的黃色氣球腦袋充斥著(zhù)劇情的始終,「絲滑」到看不出這是由多個(gè)視頻片段組成的。但實(shí)際上,Sora 并不能夠保證不同分鏡頭之間的主體一致性,僅僅依靠輸入提示詞,就想讓主角的衣服和氣球顏色保持一致根本不可行。這也是為什么后期需要那么多的人工參與。
彼時(shí)新聞一出,業(yè)界在感到震驚之余,也意識到,即便是 Sora,生成內容都需要大量的人工參與,難以為這些問(wèn)題提供良好的解決方案,那么可想而知在整個(gè)領(lǐng)域中這些問(wèn)題的普遍性。
的確如此。
據達摩院視覺(jué)技術(shù)實(shí)驗室高級算法專(zhuān)家陳威華介紹,在尋光平臺的研發(fā)過(guò)程中,團隊對當下的一眾現有視頻創(chuàng )作工具進(jìn)行了大量的調研,并走訪(fǎng)了許多視頻創(chuàng )作者,對目前業(yè)界存在的問(wèn)題匯總、分析之后發(fā)現,當前在 AI 視頻生成領(lǐng)域,對于生成內容的可控編輯、一致性等問(wèn)題是創(chuàng )作過(guò)程中的重要需求,也是當前算法面臨的最大挑戰。
「現有 AI 工作流亟待重塑。」
在他看來(lái),如今各種視頻生成大模型已經(jīng)讓大家感受到了 AI 技術(shù)帶來(lái)的福利,給短視頻制作提供了各種各樣的素材。而在素材齊全之后,接下來(lái)要做的就是進(jìn)一步提升視頻制作的效率,解決視頻后期編輯中存在的各種問(wèn)題。
而這也正是達摩院推出尋光平臺的初衷。
據雷峰網(wǎng)了解,此次達摩院發(fā)布的尋光平臺,定位為 PUGC 一站式 AI 視頻創(chuàng )作平臺,能夠解決 AI 視頻編輯不夠精準可控的痛點(diǎn),可支持接入多種視頻生成模型,并在行業(yè)首次落地基于圖層的視頻編輯,為復雜視頻創(chuàng )作提供了更高效、易用的 AI 工作流。
「我們的目標是用 AI 能力去重塑傳統視頻制作的整個(gè)流程,打造 AI 時(shí)代的全新視頻工作流。尋光視頻創(chuàng )作平臺,最大的特點(diǎn)是讓用戶(hù)實(shí)現對視頻內容的精準控制,同時(shí)可以保持多個(gè)視頻中角色和場(chǎng)景的一致性。」陳威華說(shuō)道。
「讓編輯像操作PPT一樣簡(jiǎn)潔直觀(guān),容易上手」
在發(fā)布現場(chǎng),陳威華形容尋光平臺的推出,會(huì )對當前的視頻創(chuàng )作工作流進(jìn)行優(yōu)化,使得 AI 視頻生成的工作范式發(fā)生新的變革,「讓編輯像操作 PPT 一樣簡(jiǎn)潔直觀(guān),容易上手」。
那么,尋光平臺具體是怎么做到的呢?其實(shí)可以通過(guò)幾個(gè)關(guān)鍵詞來(lái)認識它。
一個(gè)是「一站式 AI 視頻創(chuàng )作平臺」,如何理解?
大家都知道,當前市面上存在各種各樣的 AI 視頻生成工具,但是仔細看下來(lái),當創(chuàng )作者想要創(chuàng )作一個(gè)視頻時(shí),可能需要不同的工具來(lái)生成文字、圖片、分鏡頭等素材,最后再把它們匯總放在一起,生成最終的視頻。但在這個(gè)過(guò)程中,創(chuàng )作者往往需要在不同工具間流轉,獲取不同的素材,不僅耗時(shí),而且容易出錯,對創(chuàng )作者來(lái)說(shuō)十分不友好。
而有了尋光平臺,直接可以一步到位,不再需要再多個(gè)平臺中間來(lái)回「轉場(chǎng)」。
比如,用戶(hù)在創(chuàng )作時(shí),從劇本創(chuàng )作、分鏡生成到素材編輯等全套操作,都可以在尋光平臺上完成。另外,通過(guò)工作流整合提升了創(chuàng )作全流程的效率,支持對生成及上傳素材進(jìn)行豐富的 AI 編輯,提供人物控制、場(chǎng)景控制、風(fēng)格遷移、運鏡控制、目標新增/消除/修改等十多種 AI 編輯功能,讓視頻中的元素和對象精準可控。
舉例來(lái)說(shuō),對于視頻中的分鏡頭,用戶(hù)可以選擇在平臺上通過(guò)劇本自動(dòng)生成,也可以選擇自己上傳原始視頻素材,由算法切分成多個(gè)分鏡頭。
另外,在創(chuàng )作空間中,如果用戶(hù)在查看分鏡頭的時(shí)候,發(fā)現有些細節需要完善,那么就可以通過(guò)編輯工具欄對分鏡頭做進(jìn)一步的編輯,不再像傳統的視頻制作過(guò)程那樣,需要專(zhuān)門(mén)的工具來(lái)制作,然后再進(jìn)行復制粘貼等操作。
可以說(shuō),一站式的工作流程,體現了尋光在用戶(hù)交互上面的友好,而這正是它的一大亮點(diǎn)所在。
據了解,尋光平臺是目前業(yè)界首個(gè)一站式 AI 視頻創(chuàng )作平臺。
第二個(gè)關(guān)鍵詞是首創(chuàng )「基于圖層的視頻編輯」。
前面在 Sora 的案例中提到,AI 視頻生成創(chuàng )作中,多個(gè)分鏡頭之間的場(chǎng)景與人物的一致性是至關(guān)重要的,其中的一個(gè)關(guān)鍵因素就在于分鏡頭中的視頻圖層,如果能夠基于圖層,在語(yǔ)義層面而不是像素層面實(shí)現可控編輯,是不是就能保證內容的一致性呢?尋光就是這樣做的。
具體來(lái)看,尋光平臺是通過(guò)把視頻圖層相關(guān)的各項能力以一個(gè)系統性的方式完整地呈現給用戶(hù),讓用戶(hù)基于圖層進(jìn)行視頻的編輯、創(chuàng )作,主要包括前景圖層的生成、圖層拆解、圖層融合等環(huán)節,從而保證視頻的一致性。
比如,尋光平臺上有個(gè)前景圖層功能,用戶(hù)可以通過(guò)輸入文本生成符合文本描述的、并且具有透明背景的視頻圖層。
另外,尋光平臺還提供圖層拆解功能,即如果用戶(hù)想從自己的已有視頻素材中提取需要的圖層,那么就可以使用拆解功能,算法就會(huì )把整段視頻中對應物體的內容拆解出來(lái),然后形成一個(gè)獨立的帶透明背景的視頻圖層。
獲得了視頻圖層后,針對不同的創(chuàng )作需求,用戶(hù)就可以通過(guò)尋光平臺上的「圖層融合」功能,將前景圖層與不同的背景進(jìn)行融合,從而生成各種各樣的視頻。
比如,以「小和尚練功」的視頻為例。
在原視頻中,小和尚正在練功,背景環(huán)境中有寺廟、竹林。那么,如果想要讓小和尚在不同的背景環(huán)境中練功,就可以通過(guò)尋光平臺的圖層拆解功能,將小和尚作為一個(gè)整體圖層拆解出來(lái),然后根據具體的創(chuàng )作需求,將小和尚與不同的背景環(huán)境融合,生成新的視頻。
寫(xiě)在最后
看到尋光平臺居然可以實(shí)現這么強大的功能,是不是有被震撼到?原來(lái) AI 視頻生成也可以這么簡(jiǎn)單。
如今,類(lèi) Sora 產(chǎn)品層出不窮。在世界人工智能大會(huì )上,不少?lài)鴥葟S(chǎng)商的視頻生成模型也展示出令人驚艷的效果。但不可否認的是,它們距離廣泛應用還有很長(cháng)的距離,原因就在于A(yíng)I視頻編輯流程復雜、門(mén)檻高,并不是人人都可以流暢玩轉。
而達摩院推出的尋光平臺,定位為解決當前業(yè)界類(lèi) Sora 產(chǎn)品涌現之后的編輯與創(chuàng )作問(wèn)題,聚焦該如何滿(mǎn)足人類(lèi)日益增長(cháng)的想象力與 AI 生產(chǎn)力之間的需求,希望借此真正釋放 AI 生產(chǎn)力。
按照官方所展示的功能,尋光平臺將對傳統視頻制作的整個(gè)流程進(jìn)行重塑,在不久的將來(lái),每個(gè)人都擁有、并熟練使用 AI 視頻生成工具將變成可能。到那時(shí)候,我們或許會(huì )距離 AI 視頻生成迎來(lái)「ChatGPT」式爆發(fā)再近一步。
「我們希望尋光視頻創(chuàng )作平臺就是每一個(gè)人手中的利器,是 AIGC 時(shí)代,每一個(gè)人的專(zhuān)屬視頻工作室。」陳威華說(shuō)。
據雷峰網(wǎng)了解,尋光平臺將于近期開(kāi)放內測,感興趣的創(chuàng )作者們可以來(lái)試用!
021yin.com/