滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界 > 行業(yè)動(dòng)態(tài) > 正文內(nèi)容

港科大DreamOmni2開(kāi)源引關(guān)注，多模態(tài)AI生圖編輯能力再升級(jí)，海外創(chuàng)作者熱議

時(shí)間：2025-10-24 03:19 作者：江紫萱

最近，AI圖像生成與編輯領(lǐng)域迎來(lái)了一次重要突破。一款名為DreamOmni2的新模型開(kāi)源發(fā)布，迅速引發(fā)海外創(chuàng)作者社區(qū)的廣泛關(guān)注和討論。這款由香港科技大學(xué)賈佳亞教授團(tuán)隊(duì)研發(fā)的模型，被認(rèn)為有望將多模態(tài)圖像編輯與生成技術(shù)推向新的高度。

隨著谷歌Nano Banana、字節(jié)Seedream4.0和阿里Qwen-Image-Edit-2509等模型的出現(xiàn)，圖像編輯領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段。這些模型不僅支持OOTD穿搭生成、文字渲染和電影分鏡制作，還讓創(chuàng)作者無(wú)需掌握復(fù)雜的修圖技巧，就能實(shí)現(xiàn)更具創(chuàng)意和產(chǎn)品價(jià)值的圖像生成。

然而，現(xiàn)有模型在實(shí)際應(yīng)用中仍存在一些局限。例如，語(yǔ)言指令有時(shí)無(wú)法準(zhǔn)確描述需求，需要結(jié)合參考圖像和額外說(shuō)明；在處理抽象概念如發(fā)型、妝容、紋理等時(shí)，表現(xiàn)往往不盡如人意。這些問(wèn)題促使研究人員探索更優(yōu)的技術(shù)解決方案。

DreamOmni2的推出正是為了解決這些痛點(diǎn)。該模型基于FLUX-Kontext架構(gòu)訓(xùn)練，不僅保留了原有的指令編輯和文生圖能力，還創(chuàng)新性地增加了多參考圖生成編輯功能，為創(chuàng)作者提供了更高的靈活性和創(chuàng)意空間。據(jù)團(tuán)隊(duì)介紹，無(wú)論是具體物體還是抽象概念的編輯與生成，DreamOmni2的表現(xiàn)都顯著優(yōu)于當(dāng)前最先進(jìn)的開(kāi)源模型，甚至在某些方面超越了Nano Banana。

在實(shí)際測(cè)試中，DreamOmni2展現(xiàn)了強(qiáng)大的能力。當(dāng)要求將一張熊貓圖片的背景替換為另一張圖片時(shí)，模型迅速生成了符合要求的證件照，毛發(fā)細(xì)節(jié)處理得當(dāng)，效果堪比專業(yè)修圖。更復(fù)雜的是風(fēng)格遷移任務(wù)，模型能準(zhǔn)確捕捉參考圖的色調(diào)和氛圍，并將其自然融入原圖。

與GPT-4o和Nano Banana等主流模型的對(duì)比測(cè)試顯示，DreamOmni2在處理復(fù)雜指令時(shí)表現(xiàn)更為出色。例如，在將一張圖片中的夾克替換為另一張圖片中的衣服時(shí)，DreamOmni2不僅準(zhǔn)確完成了替換，還自然保留了人物特征，只有衣領(lǐng)部分略有出入。相比之下，GPT-4o生成的結(jié)果顯得不自然，人物比例失調(diào)；Nano Banana雖然整體效果不錯(cuò)，但衣物顏色和形態(tài)發(fā)生了變化，logo也消失了。

DreamOmni2的另一大亮點(diǎn)是其多模態(tài)生成能力。在測(cè)試中，模型成功將一張圖片中的徽標(biāo)印在另一張圖片的物體上，并自然放置在桌面上，光影效果處理得當(dāng)。更令人印象深刻的是，根據(jù)手繪草圖生成相同姿態(tài)圖片的任務(wù)中，DreamOmni2能準(zhǔn)確捕捉草圖中的姿態(tài)信息，將其轉(zhuǎn)化為自然的人物動(dòng)作。

這些優(yōu)異表現(xiàn)的背后，是賈佳亞團(tuán)隊(duì)在數(shù)據(jù)構(gòu)建、框架設(shè)計(jì)和訓(xùn)練策略上的創(chuàng)新。團(tuán)隊(duì)提出了三階段式數(shù)據(jù)構(gòu)建范式，通過(guò)特征混合、真實(shí)數(shù)據(jù)與模型自生數(shù)據(jù)的結(jié)合，解決了多模態(tài)訓(xùn)練中抽象概念稀缺和缺乏參考圖像條件的問(wèn)題。同時(shí)，團(tuán)隊(duì)對(duì)模型框架進(jìn)行了針對(duì)性修改，添加索引編碼到位置通道，有效緩解了復(fù)制粘貼和像素混淆現(xiàn)象。

在訓(xùn)練優(yōu)化方面，團(tuán)隊(duì)提出了VLM和生成模型聯(lián)合訓(xùn)練的機(jī)制，使模型能更好地理解復(fù)雜用戶指令。通過(guò)LoRA方法分別訓(xùn)練編輯與生成模塊，實(shí)現(xiàn)了編輯與生成功能的無(wú)縫融合。這些技術(shù)創(chuàng)新使DreamOmni2在多模態(tài)指令編輯與生成任務(wù)中達(dá)到了新的水平。

開(kāi)源兩周以來(lái)，DreamOmni2在GitHub上已獲得1.6k的Star量，受到開(kāi)源社區(qū)的廣泛認(rèn)可。YouTube上也出現(xiàn)了大量介紹和使用經(jīng)驗(yàn)分享的視頻，有創(chuàng)作者稱贊其為"King Bomb"，特別肯定了其在抽象概念理解方面的能力。

關(guān)鍵是，這樣好用的模型我們還有很多，Kimi、DeepSeek、GLM……都在各自憑實(shí)力全球圈粉。在模型層次，中國(guó)發(fā)展速度極快，有DeepSeek、阿里巴巴的Qwen、Moonshot的Kimi等優(yōu)秀的…

10-24

鴻蒙版抖音小紅書(shū)創(chuàng)作者中心升級(jí)，功能完備助力創(chuàng)作者開(kāi)啟高效創(chuàng)作之旅

最近體驗(yàn)了鴻蒙版抖音和小紅書(shū)的創(chuàng)作者中發(fā)現(xiàn)，像選題靈感、創(chuàng)作工具、流量扶持、收益變現(xiàn)等等這些高頻用到的核心功能都齊了，基本可以滿足日常創(chuàng)作需求。最實(shí)用的就是創(chuàng)作工具這一塊—— 在數(shù)據(jù)中心你可以隨時(shí)掌握賬號(hào)狀…

10-24

溫氏股份、有友食品等在云南新設(shè)創(chuàng)投基金

10-24

金洲管道等在南京成立機(jī)器人科技公司

10-24

中金公司等在蘇州新設(shè)產(chǎn)投基金，出資額10億

10-24

皖通科技等成立智聯(lián)科技合伙企業(yè)

10-24

南礦集團(tuán)等在上海成立泵業(yè)公司

10-24

全球AI眼鏡上半年出貨量大增，企查查：相關(guān)企業(yè)集中華東華南兩地

10-24

信安世紀(jì)新設(shè)科技公司，含信息系統(tǒng)集成服務(wù)業(yè)務(wù)

10-24

中材科技成立新公司，含高性能纖維制造業(yè)務(wù)

10-24

紅墻股份在杭州投資成立新材料公司

10-24

大唐發(fā)電在漳州成立海上風(fēng)電公司

10-24

縱橫股份成立無(wú)人機(jī)科技公司，含地理遙感信息服務(wù)業(yè)務(wù)

10-24

上海臨港投控集團(tuán)等成立質(zhì)芯私募投資基金

10-24

環(huán)旭電子成立光電公司，含集成電路芯片制造業(yè)務(wù)

10-24

點(diǎn)擊查看更多 +

全站最新

溫氏股份、有友食品等在云南新設(shè)創(chuàng)投基金

金洲管道等在南京成立機(jī)器人科技公司

中金公司等在蘇州新設(shè)產(chǎn)投基金，出資額10億

皖通科技等成立智聯(lián)科技合伙企業(yè)

南礦集團(tuán)等在上海成立泵業(yè)公司

全球AI眼鏡上半年出貨量大增，企查查：相關(guān)企業(yè)集中華東華南兩地

熱門內(nèi)容

本欄最新

溫氏股份、有友食品等在云南新設(shè)創(chuàng)投基金

金洲管道等在南京成立機(jī)器人科技公司

中金公司等在蘇州新設(shè)產(chǎn)投基金，出資額10億

皖通科技等成立智聯(lián)科技合伙企業(yè)

南礦集團(tuán)等在上海成立泵業(yè)公司

全球AI眼鏡上半年出貨量大增，企查查：相關(guān)企業(yè)集中華東華南兩地

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來(lái) - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國(guó) · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊(cè)商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 mladies.com.cn All rights reserved. 魯ICP備2022032383號(hào)-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

港科大DreamOmni2開(kāi)源引關(guān)注，多模態(tài)AI生圖編輯能力再升級(jí)，海外創(chuàng)作者熱議

港科大DreamOmni2開(kāi)源引關(guān)注，多模態(tài)AI生圖編輯能力再升級(jí)，海外創(chuàng)作者熱議