當前位置:首頁(yè) > 百科 > 正文內容

讓貓咪包餃子?AI視頻生成“翻車(chē)”:有的貓爪變人手 有的“偷感”十足

印刷廠(chǎng)直印●彩頁(yè)1000張只需要69元●名片5元每盒-更多報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

智譜清影文生視頻模型生成的視頻中,貓爪像人手。

海螺AI生成的視頻基本理解做菜指令。

通義生成的視頻,貓咪“只看不做菜”。

即夢(mèng)生成的視頻,貓咪像在嗅聞。

Vidu生成的視頻,突然出現人手。

“甄嬛在后宮大吃漢堡”“等我老了依靠小貓養老”……近期,用AI大模型制作的視頻走紅網(wǎng)絡(luò )。利用AI,有人將經(jīng)典電視劇《甄嬛傳》變成了“舌尖上的中國”,有人持續推出AI萌系寵物視頻快速在社交媒體上成為寵物博主。 

這些視頻的背后,是“中國版Sora”的快速崛起。今年年初,Sora在發(fā)出60秒視頻一鳴驚人后,遲遲不上線(xiàn)變成了遙不可及的“期貨”。在這期間,多家中國廠(chǎng)商搶先入場(chǎng),推出多款視頻大模型產(chǎn)品,包括字節、快手、阿里云、吉印通萬(wàn)維、美圖在內的互聯(lián)網(wǎng)廠(chǎng)商,以及Minimax、智譜、愛(ài)詩(shī)科技與生數科技等大模型初創(chuàng )廠(chǎng)商都在快速跟進(jìn)。

中國版Sora哪家強?近期,南都記者對8家熱門(mén)視頻大模型進(jìn)行了測評,在文生視頻方面發(fā)現生成效果參差不齊,而圖生視頻領(lǐng)域,大部分的產(chǎn)品還有很大提升空間。

快手、字節圍攻Sora“期貨”  

今年春節期間,Sora的橫空出世投下了一枚炸彈,瞬間讓卷“文生文”“文生圖”的大模型廠(chǎng)商開(kāi)啟了“視頻的ChatGPT時(shí)代”。不過(guò),Sora一鳴驚人后卻遲遲未上線(xiàn),被外界稱(chēng)為“期貨”。

幾天前的10月5日,Meta搶在OpenAI之前推出對標Sora的Meta Movie Gen。據悉,這款應用可創(chuàng )建不同寬高比的高清長(cháng)視頻,支持1080p,不但可以通過(guò)文本輸入生成視頻,還可以通過(guò)文本對現有視頻進(jìn)行編輯修改。此外,它還能生成配套的背景音樂(lè )和音效、根據文本指令編輯視頻,以及根據用戶(hù)上傳的圖像生成個(gè)性化視頻,號稱(chēng)逼真程度超越Sora。

其實(shí),Meta動(dòng)作并不算快,中國企業(yè)早已迫不及待,搶先布局。

◎今年3月底,字節跳動(dòng)旗下剪映團隊研發(fā)的AI創(chuàng )作平臺“即夢(mèng)AI”開(kāi)放內測,8月6日,該應用移動(dòng)版正式上架至蘋(píng)果應用商店,目前已擁有文生圖、文生視頻、圖生視頻等功能。

◎6月13日,美圖推出基于美圖奇想大模型、聚焦短片創(chuàng )作的平臺MOKI。創(chuàng )作者在平臺上僅需經(jīng)過(guò)前期設定、內容生成和后期制作,即可打造動(dòng)畫(huà)短片、網(wǎng)文短劇、故事繪本和MV,南都記者測試后發(fā)現制作出來(lái)的視頻時(shí)長(cháng)能到2分鐘。

◎6月21日,快手旗下的可靈推出了圖生視頻功能。7月24日,可靈宣布基礎模型再次升級,在畫(huà)面質(zhì)量、運動(dòng)表現方面均有所提升。

◎9月19日,阿里云通義萬(wàn)相發(fā)布全新視頻生成模型,上線(xiàn)文生視頻和圖生視頻功能。在文生視頻功能中,用戶(hù)輸入任意文字提示詞,即可免費生成一段高清視頻。  

大模型初創(chuàng )企業(yè)布局視頻生成  

大模型初創(chuàng )企業(yè)方面,Minimax、智譜、愛(ài)詩(shī)科技與生數科技均在視頻大模型方面有所布局。

◎早在今年1月,愛(ài)詩(shī)科技就正式發(fā)布AI視頻生成產(chǎn)品PixVerse,能夠免費生成4K高清視頻。到7月24日,愛(ài)詩(shī)科技正式發(fā)布視頻生成產(chǎn)品PixVerse V2,一次生成多個(gè)視頻片段,可實(shí)現單片段8秒和多片段40秒的視頻生成。

值得一提的是,愛(ài)詩(shī)科技創(chuàng )始人王長(cháng)虎曾在2017年加入字節跳動(dòng)擔任AI Lab總監,從0到1支撐了抖音與TikTok等國民級視頻產(chǎn)品的建設和發(fā)展。他曾公開(kāi)表示,中國公司在短視頻賽道做出了10億級別的國民級產(chǎn)品抖音、TikTok,視頻應用在中國有用戶(hù)基礎和生長(cháng)土壤,且在A(yíng)I生成視頻這條賽道上有機會(huì )誕生大的巨頭公司。

◎今年4月,同為大模型初創(chuàng )企業(yè)的生數科技發(fā)布了視頻生成模型Vidu,支持最長(cháng)16秒、最高1080P分辨率視頻的生成。兩個(gè)月后,視頻時(shí)長(cháng)升級為最長(cháng)32秒。不過(guò),生數科技7月底上線(xiàn)的Vidu官網(wǎng)僅提供4秒和8秒兩種時(shí)長(cháng)選擇。

◎7月26日,大模型初創(chuàng )企業(yè)智譜AI宣布AI生成視頻模型清影(Ying)正式上線(xiàn)智譜清言。南都記者關(guān)注到,應用清影生成6秒視頻只需要30秒的時(shí)間,該功能不僅支持文生視頻、圖生視頻,也支持視頻生成視頻。

◎9月2日,MiniMax發(fā)布了視頻模型abab-video-1,并透露該模型壓縮率高、文本響應好、風(fēng)格多樣,支持原生高分辨率、高幀率視頻等特點(diǎn),能媲美電影質(zhì)感。

實(shí)測一

測評指令:左邊白貓包餃子 右邊黑貓切韭菜

近期,大批用AI制作的寵物視頻在社交媒體上傳播。以此為例,南都記者以“一只白貓和一只黑貓在廚房,左邊的白貓在包餃子,右邊的黑貓在切韭菜”為提示詞對8款產(chǎn)品進(jìn)行測試,效果參差不齊。 

生成結果

通義貓咪“只看不做菜”,生數科技貓爪變人手

對于視頻生成的時(shí)長(cháng),生數科技CEO唐家渝曾對外介紹,生成時(shí)長(cháng)的能力,本質(zhì)上與模型對物理世界和對語(yǔ)義輸入的理解相關(guān)。南都記者對上述8家企業(yè)進(jìn)行測評后發(fā)現,目前各家廠(chǎng)商推出的視頻大模型中,能生成的時(shí)長(cháng)最長(cháng)可到2分鐘,最短的3秒鐘。 

南都記者在測評中從第一性原理出發(fā),C端用戶(hù)用AI大模型做視頻,追求的是效率的提升,或許還夾雜著(zhù)對新科技的未知期待。從這一點(diǎn)看,本次測評要考量的首先是AI大模型能否達到用戶(hù)的基本要求,這一點(diǎn)可以從輸入指令后得出的視頻來(lái)逐一測評是否達到基本效果,同時(shí)也對比輸出視頻的時(shí)長(cháng)。

其次,從用戶(hù)對新科技的未知期待上,南都記者在測評時(shí)也將觀(guān)察,某些視頻大模型能否做出讓人意向不到的附加效果,比如運鏡、視頻風(fēng)格上能否在完成基本需求的情況下有所突破。

海螺AI 基本理解貓咪做菜指令

Minimax的海螺AI基本理解了提示詞中想讓貓咪擬人化進(jìn)行做菜的指令。兩只貓在包餃子、剁菜時(shí)的畫(huà)面都十分了得,白貓雖然邊“包餃子”邊壓抑不住本性想湊上前聞餃子,但還是把一個(gè)個(gè)餃子完好地包了出來(lái),黑貓也真的拿起菜刀開(kāi)始“切韭菜”。

通義 兩只貓“只看不做菜”

阿里云通義生成后兩只貓并沒(méi)有實(shí)現包餃子、切韭菜,而是看著(zhù)一把刀對韭菜和餃子隨意切了起來(lái)。

即夢(mèng) 呈現效果“偷感”十足

字節即夢(mèng)生成的視頻中,兩只貓試圖伸爪子“參與”到包餃子和切韭菜活動(dòng)中,但像是在躡手躡腳地嗅聞,“偷感”十足。

PixVerse

“翻車(chē)”,“做菜”變吃菜

愛(ài)詩(shī)科技視頻大模型PixVerse中,黑貓和白貓沒(méi)有理解“做菜需求”,直接“上手”吃餃子皮、啃韭菜,出現“翻車(chē)”。 

可靈

兩只貓角色“互換”

快手大模型可靈文生視頻模型理解了讓貓“擬人化”做菜的需求,貓能用爪子包餃子,但是黑貓不切韭菜,直接拿起了刀切餃子。

智譜清影

實(shí)現各司其職

智譜清影文生視頻模型讀懂了讓貓擬人化做菜的需求,同時(shí)黑貓和白貓實(shí)現了各司其職,一只在包餃子,一只在切韭菜。

南都記者在測試時(shí)還勾選了“電影感、鏡頭推進(jìn)、緊張刺激”等風(fēng)格、運鏡方式、氛圍方面的要求,測試出來(lái)的視頻基本都能符合要求。

Vidu

貓爪突變成“人手”

生數科技Vidu視頻大模型理解了讓貓擬人化做菜的需求,在生成的視頻中,兩只貓處在一個(gè)現代化的廚房中,白貓學(xué)會(huì )了包餃子,黑貓雖然做出了切韭菜的動(dòng)作,但畫(huà)面中并沒(méi)有刀,黑貓只能做出“撓爪子”的動(dòng)作。 

不過(guò),生數科技的Vidu視頻在生成的視頻中還出現了一個(gè)畫(huà)面轉換的鏡頭。該鏡頭將韭菜放進(jìn)包好的餃子中間,不過(guò)放置韭菜的手變成了“人手”。 

美圖MOKI

將提示詞擴寫(xiě)成完整腳本

在美圖MOKI視頻平臺中輸入同一提示詞,該視頻大模型首先將提示詞擴寫(xiě)成了完整腳本,同時(shí)依照選定風(fēng)格生成了兩個(gè)角色,隨后會(huì )生成逐幀視頻,用戶(hù)可以在其中修改圖片、移動(dòng)位置,最后生成了一個(gè)視頻,而用戶(hù)可以選擇后期對運鏡、音樂(lè )等進(jìn)行加工。

實(shí)測二

圖生視頻比文生視頻更易“翻車(chē)”

南都記者還做了圖生視頻的嘗試。

當輸入一張有兩只貓的照片,并輸入提示詞“兩只貓在廚房,左邊的貓在包餃子,右邊的貓在切韭菜,兩只貓互相瞪了對方一眼,鏡頭聚焦到包餃子的貓手上,它包得特別快”,字節即夢(mèng)、快手可靈的圖生視頻功能中,照片中的兩只貓在生成的視頻中僅僅能實(shí)現上下左右晃頭、時(shí)不時(shí)動(dòng)動(dòng)爪子,并沒(méi)有實(shí)現包餃子、切韭菜等功能。 

阿里云通義視頻大模型實(shí)現了切韭菜的動(dòng)作,不過(guò)韭菜和刀在畫(huà)面中憑空出現。智譜清影也出現了搟餃子皮、包餃子的動(dòng)作,不過(guò)從輸入兩只貓的圖片到生成搟餃子皮視頻的過(guò)程中,視頻畫(huà)面銜接非常生硬,搟餃子皮的手也突然從提示詞中要求的“貓爪子”變成了人的手。 

在愛(ài)詩(shī)科技PixVerse中輸入一張圖片和上述提示詞,圖片中的貓動(dòng)起來(lái)但并沒(méi)有實(shí)現包餃子,而是在嬉戲吃餃子。 

可以看到,相較于文生視頻功能,目前大多數視頻模型的圖生視頻功能仍有很大提升空間。大多數視頻模型只能粗淺表現讓照片中的兩只貓動(dòng)起來(lái),能理解提示詞并在視頻中加入新物品、加入轉場(chǎng)效果的視頻模型并不多,也更容易出現“翻車(chē)”現象。  

采寫(xiě):南都記者 林文琪

圖片均為AI生成視頻截圖

收藏0

發(fā)表評論

訪(fǎng)客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀(guān)點(diǎn)。
中文字幕在线永久91_国产一级AV不卡毛片_亚洲日本中文字幕在线四区_日韩黄片在线大全