即夢(mèng)AI在其官方社交媒體平臺(tái)上近日發(fā)布了一段引人注目的新功能預(yù)告視頻,揭示了一項(xiàng)名為OmniHuman的創(chuàng)新多模態(tài)視頻生成模型。該模型僅需用戶(hù)輸入一張圖片和一段音頻,即可自動(dòng)生成一段生動(dòng)逼真的AI視頻,這一突破有望極大地提升AI短片的生產(chǎn)效率和視覺(jué)質(zhì)量。
據(jù)即夢(mèng)AI視頻號(hào)發(fā)布的內(nèi)容截圖顯示,OmniHuman是由字節(jié)跳動(dòng)自主研發(fā)的閉源模型。該模型能夠處理包括肖像、半身照及全身照等不同尺寸的圖片輸入,并依據(jù)用戶(hù)提供的音頻內(nèi)容,自動(dòng)為視頻中的人物生成相應(yīng)的動(dòng)作,如演講、歌唱、樂(lè)器演奏以及身體移動(dòng)等。尤為OmniHuman在解決人物視頻生成中常見(jiàn)的手勢(shì)失真問(wèn)題上,相較于現(xiàn)有技術(shù)有了顯著提升。
不僅如此,OmniHuman還支持動(dòng)漫、3D卡通等非真人圖片的輸入,并能保持這些特定風(fēng)格及原有的運(yùn)動(dòng)模式,生成的視頻效果同樣出色。從技術(shù)主頁(yè)上的演示效果來(lái)看,OmniHuman所生成的視頻已經(jīng)具備了高度的自然度和逼真感。
然而,為防止這項(xiàng)技術(shù)被濫用,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)明確表示,OmniHuman將不會(huì)對(duì)外提供下載服務(wù)。即夢(mèng)AI的相關(guān)負(fù)責(zé)人透露,盡管OmniHuman模型已經(jīng)展現(xiàn)出了良好的性能,但在生成達(dá)到影視真實(shí)級(jí)別的視頻方面,仍有待進(jìn)一步提升。因此,該模型支持的多模態(tài)視頻生成功能將首先在即夢(mèng)平臺(tái)上以小規(guī)模內(nèi)測(cè)的形式進(jìn)行調(diào)優(yōu)和完善,并逐步向更廣泛的用戶(hù)開(kāi)放。
為確保AI技術(shù)的正面應(yīng)用和積極影響,即夢(mèng)AI不僅設(shè)置了嚴(yán)格的安全審核機(jī)制,還將在輸出的視頻上標(biāo)注水印以作提醒。這一舉措旨在助力視頻創(chuàng)作者更好地實(shí)現(xiàn)創(chuàng)意表達(dá),同時(shí)確保技術(shù)的使用符合道德和法律規(guī)范。