當前位置:首頁(yè) > 百科 > 正文內容

達摩院跨入 AIGC 深水區,發(fā)布一站式 AI 視頻創(chuàng )作平臺「尋光」

福建名片加急4個(gè)月前 (07-10)百科11
印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

年初,OpenAI 推出文本-視頻生成模型 Sora,只需輸入提示文本描述,或輸入一張圖片,Sora 就能生成類(lèi)似電影大片的逼真場(chǎng)景視頻,前所未有的新奇觀(guān)感,讓大眾直呼「現實(shí)不存在了」。

驚嘆之余,Sora 所展現出的神奇「魔法」,也讓業(yè)界意識到 AI 視頻生成在高清晰度、高保真度、高質(zhì)量方面的巨大潛力與價(jià)值。

此后,AI 視頻生成模型搖身一變成為科技圈新的寵兒,并一改之前大語(yǔ)言模型一家獨大的格局為兩者的分庭抗禮。

「Sora熱」開(kāi)始席卷全球,直到現在,國內外相關(guān)的 AI 視頻生成模型或產(chǎn)品工具都將 Sora 奉為業(yè)界標桿,沿著(zhù)一條類(lèi) Sora、比肩 Sora、超越 Sora 的道路狂奔。

但不可否認,相較于大語(yǔ)言模型的「狂飆」,目前 AI 視頻生成技術(shù)還處于早期階段,距離「ChatGPT」式的爆發(fā)仍有一段距離。即便強大如 Sora,也并非完美,在技術(shù)端依舊存在著(zhù)許多未解的問(wèn)題與挑戰。

為此,在當下, 如何利用大模型技術(shù)的強大能力,破解 AI 視頻生成領(lǐng)域的難題,更大程度上地釋放 AI 生產(chǎn)力,助推 AI 視頻生成再往前進(jìn)一步,是業(yè)界在不斷思考和探索的重心。

前幾天,在世界人工智能大會(huì )上,阿里達摩院發(fā)布了一站式 AI 視頻創(chuàng )作平臺——尋光,似乎為 AI 視頻生成的發(fā)展帶來(lái)了新的范式。

可控編輯、一致性難以實(shí)現,現有 AI 工作流亟待重塑

關(guān)注 Sora 的業(yè)界從業(yè)者應該都知道幾個(gè)月前的著(zhù)名「打假貼」事件。

簡(jiǎn)單來(lái)說(shuō),當時(shí) Sora 一經(jīng)發(fā)布,OpenAI 為了展示其強大能力和維持話(huà)題熱度,邀請了一些專(zhuān)業(yè)創(chuàng )作者、行業(yè) KOL 等試用 Sora,并時(shí)不時(shí)放出雙方合作生成的創(chuàng )意視頻,吸引大眾目光。

其中,有一個(gè)合作方是來(lái)自于多倫多的 Shy Kids 團隊,他們使用 Sora 制作的《Air Head(氣球人)》短片,因為創(chuàng )意新穎、將藝術(shù)與 AI 技術(shù)的完美結合,得到了大眾的一致贊美,更有甚者將之稱(chēng)為「Sora 史上最佳短片作品」。

可是令人意想不到的是,后來(lái)制作團隊發(fā)文稱(chēng),《Air Head》并非由 Sora 一鍵生成,在實(shí)際的制作過(guò)程中,有大量的視覺(jué)效果是經(jīng)過(guò)人工后期編輯而成,才呈現出最終效果。

據他們介紹,整個(gè)短片是由多個(gè)視頻片段組成的,但是在生成不同的視頻片段時(shí),很難保證主角始終是個(gè)長(cháng)著(zhù)黃色氣球腦袋的人,有時(shí)候氣球上會(huì )自動(dòng)「長(cháng)出」一張人臉,或者依照常識給主角安裝一個(gè)不符合劇情的腦袋,等等,bug多到創(chuàng )作人員頻頻吐槽「生成過(guò)程很難控制」。

另外,還有角色對象一致性的問(wèn)題。

在短片中,主角的衣服和那頂標志性的黃色氣球腦袋充斥著(zhù)劇情的始終,「絲滑」到看不出這是由多個(gè)視頻片段組成的。但實(shí)際上,Sora 并不能夠保證不同分鏡頭之間的主體一致性,僅僅依靠輸入提示詞,就想讓主角的衣服和氣球顏色保持一致根本不可行。這也是為什么后期需要那么多的人工參與。

彼時(shí)新聞一出,業(yè)界在感到震驚之余,也意識到,即便是 Sora,生成內容都需要大量的人工參與,難以為這些問(wèn)題提供良好的解決方案,那么可想而知在整個(gè)領(lǐng)域中這些問(wèn)題的普遍性。

的確如此。

據達摩院視覺(jué)技術(shù)實(shí)驗室高級算法專(zhuān)家陳威華介紹,在尋光平臺的研發(fā)過(guò)程中,團隊對當下的一眾現有視頻創(chuàng )作工具進(jìn)行了大量的調研,并走訪(fǎng)了許多視頻創(chuàng )作者,對目前業(yè)界存在的問(wèn)題匯總、分析之后發(fā)現,當前在 AI 視頻生成領(lǐng)域,對于生成內容的可控編輯、一致性等問(wèn)題是創(chuàng )作過(guò)程中的重要需求,也是當前算法面臨的最大挑戰。

「現有 AI 工作流亟待重塑。」

在他看來(lái),如今各種視頻生成大模型已經(jīng)讓大家感受到了 AI 技術(shù)帶來(lái)的福利,給短視頻制作提供了各種各樣的素材。而在素材齊全之后,接下來(lái)要做的就是進(jìn)一步提升視頻制作的效率,解決視頻后期編輯中存在的各種問(wèn)題。

而這也正是達摩院推出尋光平臺的初衷。

據雷峰網(wǎng)了解,此次達摩院發(fā)布的尋光平臺,定位為 PUGC 一站式 AI 視頻創(chuàng )作平臺,能夠解決 AI 視頻編輯不夠精準可控的痛點(diǎn),可支持接入多種視頻生成模型,并在行業(yè)首次落地基于圖層的視頻編輯,為復雜視頻創(chuàng )作提供了更高效、易用的 AI 工作流。

「我們的目標是用 AI 能力去重塑傳統視頻制作的整個(gè)流程,打造 AI 時(shí)代的全新視頻工作流。尋光視頻創(chuàng )作平臺,最大的特點(diǎn)是讓用戶(hù)實(shí)現對視頻內容的精準控制,同時(shí)可以保持多個(gè)視頻中角色和場(chǎng)景的一致性。」陳威華說(shuō)道。

「讓編輯像操作PPT一樣簡(jiǎn)潔直觀(guān),容易上手」

在發(fā)布現場(chǎng),陳威華形容尋光平臺的推出,會(huì )對當前的視頻創(chuàng )作工作流進(jìn)行優(yōu)化,使得 AI 視頻生成的工作范式發(fā)生新的變革,「讓編輯像操作 PPT 一樣簡(jiǎn)潔直觀(guān),容易上手」。

那么,尋光平臺具體是怎么做到的呢?其實(shí)可以通過(guò)幾個(gè)關(guān)鍵詞來(lái)認識它。

一個(gè)是「一站式 AI 視頻創(chuàng )作平臺」,如何理解?

大家都知道,當前市面上存在各種各樣的 AI 視頻生成工具,但是仔細看下來(lái),當創(chuàng )作者想要創(chuàng )作一個(gè)視頻時(shí),可能需要不同的工具來(lái)生成文字、圖片、分鏡頭等素材,最后再把它們匯總放在一起,生成最終的視頻。但在這個(gè)過(guò)程中,創(chuàng )作者往往需要在不同工具間流轉,獲取不同的素材,不僅耗時(shí),而且容易出錯,對創(chuàng )作者來(lái)說(shuō)十分不友好。

而有了尋光平臺,直接可以一步到位,不再需要再多個(gè)平臺中間來(lái)回「轉場(chǎng)」。

比如,用戶(hù)在創(chuàng )作時(shí),從劇本創(chuàng )作、分鏡生成到素材編輯等全套操作,都可以在尋光平臺上完成。另外,通過(guò)工作流整合提升了創(chuàng )作全流程的效率,支持對生成及上傳素材進(jìn)行豐富的 AI 編輯,提供人物控制、場(chǎng)景控制、風(fēng)格遷移、運鏡控制、目標新增/消除/修改等十多種 AI 編輯功能,讓視頻中的元素和對象精準可控。

舉例來(lái)說(shuō),對于視頻中的分鏡頭,用戶(hù)可以選擇在平臺上通過(guò)劇本自動(dòng)生成,也可以選擇自己上傳原始視頻素材,由算法切分成多個(gè)分鏡頭。

另外,在創(chuàng )作空間中,如果用戶(hù)在查看分鏡頭的時(shí)候,發(fā)現有些細節需要完善,那么就可以通過(guò)編輯工具欄對分鏡頭做進(jìn)一步的編輯,不再像傳統的視頻制作過(guò)程那樣,需要專(zhuān)門(mén)的工具來(lái)制作,然后再進(jìn)行復制粘貼等操作。

可以說(shuō),一站式的工作流程,體現了尋光在用戶(hù)交互上面的友好,而這正是它的一大亮點(diǎn)所在。

據了解,尋光平臺是目前業(yè)界首個(gè)一站式 AI 視頻創(chuàng )作平臺。

第二個(gè)關(guān)鍵詞是首創(chuàng )「基于圖層的視頻編輯」。

前面在 Sora 的案例中提到,AI 視頻生成創(chuàng )作中,多個(gè)分鏡頭之間的場(chǎng)景與人物的一致性是至關(guān)重要的,其中的一個(gè)關(guān)鍵因素就在于分鏡頭中的視頻圖層,如果能夠基于圖層,在語(yǔ)義層面而不是像素層面實(shí)現可控編輯,是不是就能保證內容的一致性呢?尋光就是這樣做的。

具體來(lái)看,尋光平臺是通過(guò)把視頻圖層相關(guān)的各項能力以一個(gè)系統性的方式完整地呈現給用戶(hù),讓用戶(hù)基于圖層進(jìn)行視頻的編輯、創(chuàng )作,主要包括前景圖層的生成、圖層拆解、圖層融合等環(huán)節,從而保證視頻的一致性。

比如,尋光平臺上有個(gè)前景圖層功能,用戶(hù)可以通過(guò)輸入文本生成符合文本描述的、并且具有透明背景的視頻圖層。

另外,尋光平臺還提供圖層拆解功能,即如果用戶(hù)想從自己的已有視頻素材中提取需要的圖層,那么就可以使用拆解功能,算法就會(huì )把整段視頻中對應物體的內容拆解出來(lái),然后形成一個(gè)獨立的帶透明背景的視頻圖層。

獲得了視頻圖層后,針對不同的創(chuàng )作需求,用戶(hù)就可以通過(guò)尋光平臺上的「圖層融合」功能,將前景圖層與不同的背景進(jìn)行融合,從而生成各種各樣的視頻。

比如,以「小和尚練功」的視頻為例。

在原視頻中,小和尚正在練功,背景環(huán)境中有寺廟、竹林。那么,如果想要讓小和尚在不同的背景環(huán)境中練功,就可以通過(guò)尋光平臺的圖層拆解功能,將小和尚作為一個(gè)整體圖層拆解出來(lái),然后根據具體的創(chuàng )作需求,將小和尚與不同的背景環(huán)境融合,生成新的視頻。

寫(xiě)在最后

看到尋光平臺居然可以實(shí)現這么強大的功能,是不是有被震撼到?原來(lái) AI 視頻生成也可以這么簡(jiǎn)單。

如今,類(lèi) Sora 產(chǎn)品層出不窮。在世界人工智能大會(huì )上,不少?lài)鴥葟S(chǎng)商的視頻生成模型也展示出令人驚艷的效果。但不可否認的是,它們距離廣泛應用還有很長(cháng)的距離,原因就在于A(yíng)I視頻編輯流程復雜、門(mén)檻高,并不是人人都可以流暢玩轉。

而達摩院推出的尋光平臺,定位為解決當前業(yè)界類(lèi) Sora 產(chǎn)品涌現之后的編輯與創(chuàng )作問(wèn)題,聚焦該如何滿(mǎn)足人類(lèi)日益增長(cháng)的想象力與 AI 生產(chǎn)力之間的需求,希望借此真正釋放 AI 生產(chǎn)力。

按照官方所展示的功能,尋光平臺將對傳統視頻制作的整個(gè)流程進(jìn)行重塑,在不久的將來(lái),每個(gè)人都擁有、并熟練使用 AI 視頻生成工具將變成可能。到那時(shí)候,我們或許會(huì )距離 AI 視頻生成迎來(lái)「ChatGPT」式爆發(fā)再近一步。

「我們希望尋光視頻創(chuàng )作平臺就是每一個(gè)人手中的利器,是 AIGC 時(shí)代,每一個(gè)人的專(zhuān)屬視頻工作室。」陳威華說(shuō)。

據雷峰網(wǎng)了解,尋光平臺將于近期開(kāi)放內測,感興趣的創(chuàng )作者們可以來(lái)試用!

021yin.com/

收藏0
標簽: SoraAI成模型

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全