谷歌DeepMind推出4K視頻模型,正面迎擊Sora
Napoleon Chan / 2024-12-17 16:5054720近日,谷歌Alphabet部門Google DeepMind突然公布Veo 2視頻模型,距離Veo一代發(fā)布僅七個月后,現(xiàn)版本已經(jīng)可以生成最高4K分辨率,長達(dá)兩分鐘以上的視頻。
要知道,OpenAI在一周前剛剛正式推出了Sora視頻模型,同樣經(jīng)過近一年的打磨,Sora卻依舊受限于1080p的最大分辨率。

谷歌在關(guān)于Veo 2的介紹中提到:“低分辨率視頻非常適合移動設(shè)備,但創(chuàng)作者希望看到他們的作品在大屏幕上大放異彩。”顯然,這段發(fā)言直指Sora。
谷歌發(fā)言人表示,Veo 2 的4K剪輯默認(rèn)限制為8秒,但可以延長至2分鐘或更長時間。與之相比,Sora的1080p視頻上限僅為20秒。

拋開以上這些參數(shù),AI視頻模型有個問題繞不過,就是那些“低級”BUG。Sora一經(jīng)推出,很多自媒體都做了測試,壞消息是,各種奇怪的物理和人體表現(xiàn)依舊存在。比如,生成人物可能有許多條腿,或遇到稍微復(fù)雜的運動時,扭曲的身體讓人看得背后發(fā)毛,似乎這是AI現(xiàn)階段難以逾越的大山。
但谷歌部門聲稱,在糾正“幻覺”細(xì)節(jié)(如額外的手指)和展示“現(xiàn)實世界的物理學(xué)以及人類運動和表情”方面取得了重大進(jìn)展。

一些具備相關(guān)學(xué)術(shù)背景的專業(yè)人士對AI所犯的物理錯誤發(fā)表了看法,他們認(rèn)為,只能通過所謂的世界模型來解決,這些模型具有理解和生成3D環(huán)境的“空間智能”。湊巧的是,谷歌本月早些時候推出了自己的Genie 2世界模型,難道這就是《黑客帝國》的訓(xùn)練場?
同時,Veo 2也能更好理解“電影語言”,比如“18mm鏡頭”、“淺景深”等專業(yè)用語。但是,也有很多人對日趨“合理”的視頻模型產(chǎn)生擔(dān)憂,圖像和視頻生成器的輸出越合理,它們被用于邪惡目的的風(fēng)險就越大,防偽技術(shù)的迭代勢在必行。

對于Veo 2來說,DeepMind將不可見的SynthID水印置于Veo 2生成的視頻中。這種“水印”的優(yōu)點是,隱匿的SynthID可能會讓視頻傳播者大意,技術(shù)人員更容易發(fā)現(xiàn)造假視頻的證據(jù)。缺點也很明顯,普通人很難區(qū)分一段視頻是否由AI生成。
相比之下,OpenAI的Sora會在其生成視頻的右下角嵌入一個可見的水印動畫,對于普通人更容易分辨。

不過大家對于AI視頻模型的擔(dān)憂一定不會停止,現(xiàn)階段,各家視頻大模型還是以秒或分鐘來生成,而且相對比較容易分辨。但按照當(dāng)今的發(fā)展速度,未來AI生成的視頻一定會以假亂真,到時候我們將如何面對互聯(lián)網(wǎng)世界?你所喜愛的視頻博主,也許根本不存在。
谷歌DeepMind推出4K視頻模型,正面迎擊Sora














滬公網(wǎng)安備 31010702005758號
發(fā)表評論注冊|登錄