亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

港科大DreamOmni2開(kāi)源引關(guān)注,多模態(tài)AI生圖編輯能力再升級(jí),海外創(chuàng)作者熱議

   時(shí)間:2025-10-24 03:19 作者:江紫萱

最近,AI圖像生成與編輯領(lǐng)域迎來(lái)了一次重要突破。一款名為DreamOmni2的新模型開(kāi)源發(fā)布,迅速引發(fā)海外創(chuàng)作者社區(qū)的廣泛關(guān)注和討論。這款由香港科技大學(xué)賈佳亞教授團(tuán)隊(duì)研發(fā)的模型,被認(rèn)為有望將多模態(tài)圖像編輯與生成技術(shù)推向新的高度。

隨著谷歌Nano Banana、字節(jié)Seedream4.0和阿里Qwen-Image-Edit-2509等模型的出現(xiàn),圖像編輯領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段。這些模型不僅支持OOTD穿搭生成、文字渲染和電影分鏡制作,還讓創(chuàng)作者無(wú)需掌握復(fù)雜的修圖技巧,就能實(shí)現(xiàn)更具創(chuàng)意和產(chǎn)品價(jià)值的圖像生成。

然而,現(xiàn)有模型在實(shí)際應(yīng)用中仍存在一些局限。例如,語(yǔ)言指令有時(shí)無(wú)法準(zhǔn)確描述需求,需要結(jié)合參考圖像和額外說(shuō)明;在處理抽象概念如發(fā)型、妝容、紋理等時(shí),表現(xiàn)往往不盡如人意。這些問(wèn)題促使研究人員探索更優(yōu)的技術(shù)解決方案。

DreamOmni2的推出正是為了解決這些痛點(diǎn)。該模型基于FLUX-Kontext架構(gòu)訓(xùn)練,不僅保留了原有的指令編輯和文生圖能力,還創(chuàng)新性地增加了多參考圖生成編輯功能,為創(chuàng)作者提供了更高的靈活性和創(chuàng)意空間。據(jù)團(tuán)隊(duì)介紹,無(wú)論是具體物體還是抽象概念的編輯與生成,DreamOmni2的表現(xiàn)都顯著優(yōu)于當(dāng)前最先進(jìn)的開(kāi)源模型,甚至在某些方面超越了Nano Banana。

在實(shí)際測(cè)試中,DreamOmni2展現(xiàn)了強(qiáng)大的能力。當(dāng)要求將一張熊貓圖片的背景替換為另一張圖片時(shí),模型迅速生成了符合要求的證件照,毛發(fā)細(xì)節(jié)處理得當(dāng),效果堪比專業(yè)修圖。更復(fù)雜的是風(fēng)格遷移任務(wù),模型能準(zhǔn)確捕捉參考圖的色調(diào)和氛圍,并將其自然融入原圖。

與GPT-4o和Nano Banana等主流模型的對(duì)比測(cè)試顯示,DreamOmni2在處理復(fù)雜指令時(shí)表現(xiàn)更為出色。例如,在將一張圖片中的夾克替換為另一張圖片中的衣服時(shí),DreamOmni2不僅準(zhǔn)確完成了替換,還自然保留了人物特征,只有衣領(lǐng)部分略有出入。相比之下,GPT-4o生成的結(jié)果顯得不自然,人物比例失調(diào);Nano Banana雖然整體效果不錯(cuò),但衣物顏色和形態(tài)發(fā)生了變化,logo也消失了。

DreamOmni2的另一大亮點(diǎn)是其多模態(tài)生成能力。在測(cè)試中,模型成功將一張圖片中的徽標(biāo)印在另一張圖片的物體上,并自然放置在桌面上,光影效果處理得當(dāng)。更令人印象深刻的是,根據(jù)手繪草圖生成相同姿態(tài)圖片的任務(wù)中,DreamOmni2能準(zhǔn)確捕捉草圖中的姿態(tài)信息,將其轉(zhuǎn)化為自然的人物動(dòng)作。

這些優(yōu)異表現(xiàn)的背后,是賈佳亞團(tuán)隊(duì)在數(shù)據(jù)構(gòu)建、框架設(shè)計(jì)和訓(xùn)練策略上的創(chuàng)新。團(tuán)隊(duì)提出了三階段式數(shù)據(jù)構(gòu)建范式,通過(guò)特征混合、真實(shí)數(shù)據(jù)與模型自生數(shù)據(jù)的結(jié)合,解決了多模態(tài)訓(xùn)練中抽象概念稀缺和缺乏參考圖像條件的問(wèn)題。同時(shí),團(tuán)隊(duì)對(duì)模型框架進(jìn)行了針對(duì)性修改,添加索引編碼到位置通道,有效緩解了復(fù)制粘貼和像素混淆現(xiàn)象。

在訓(xùn)練優(yōu)化方面,團(tuán)隊(duì)提出了VLM和生成模型聯(lián)合訓(xùn)練的機(jī)制,使模型能更好地理解復(fù)雜用戶指令。通過(guò)LoRA方法分別訓(xùn)練編輯與生成模塊,實(shí)現(xiàn)了編輯與生成功能的無(wú)縫融合。這些技術(shù)創(chuàng)新使DreamOmni2在多模態(tài)指令編輯與生成任務(wù)中達(dá)到了新的水平。

開(kāi)源兩周以來(lái),DreamOmni2在GitHub上已獲得1.6k的Star量,受到開(kāi)源社區(qū)的廣泛認(rèn)可。YouTube上也出現(xiàn)了大量介紹和使用經(jīng)驗(yàn)分享的視頻,有創(chuàng)作者稱贊其為"King Bomb",特別肯定了其在抽象概念理解方面的能力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容