人工智能領(lǐng)域再度迎來現(xiàn)象級產(chǎn)品——代號“納米香蕉”的AI圖像工具憑借卓越表現(xiàn)迅速走紅。這款由谷歌研發(fā)的Gemini 2.5 Flash Image模型,上線僅一周就完成超2億次圖像編輯操作,在社交平臺掀起全民創(chuàng)作熱潮??萍紣酆谜?、設(shè)計師群體紛紛曬出創(chuàng)意作品,從跨時空合影到三維地圖重構(gòu),從發(fā)型變換到動態(tài)手辦生成,用戶們用“掌管P圖的神”等稱號表達驚嘆。
AI狂熱者蔡小姐的體驗頗具代表性。她上傳一張拉丁舞服照片后,模型快速生成細節(jié)逼真的三維手辦圖,裙擺褶皺與配飾還原度驚人。更令她驚喜的是自然語言交互功能:“只需說‘讓人物微笑’,系統(tǒng)就能精準調(diào)整表情,生成毫無違和感的陽光笑臉?!边@種“用嘴P圖”的體驗,源于模型對圖像語義的深度理解能力。據(jù)谷歌披露,該模型在連續(xù)20次編輯中保持95%以上的字符一致性,人物表情、角度、背景變換時仍能維持形態(tài)穩(wěn)定。
上海人工智能研究院技術(shù)總監(jiān)方帥指出,模型的核心突破在于理解能力的質(zhì)變。不同于早期文生視頻模型對物理規(guī)則的模糊處理,“納米香蕉”能準確預(yù)測氣球觸碰仙人掌會炸裂的場景。這種進步得益于谷歌將Gemini大模型的知識儲備遷移至圖像領(lǐng)域,使系統(tǒng)既懂視覺邏輯又通物理常識。交互層面,模型支持100余種語言指令,識別準確率達92%,用戶輸入“添加帽子”等簡單指令即可獲得理想效果。
在小紅書等平臺,用戶已將創(chuàng)意轉(zhuǎn)化為商業(yè)價值。有人通過模型生成娃衣、手機殼等設(shè)計圖,借助內(nèi)置店鋪完成銷售閉環(huán)。以15元成本制作的藝術(shù)插畫手機殼,月銷百件即可創(chuàng)造可觀利潤。這種“先測流量后生產(chǎn)”的模式,正在重塑傳統(tǒng)設(shè)計行業(yè)的工作流程。APEX-toy創(chuàng)始人馬力坦言,當前AI雖難完全替代手辦細節(jié)雕刻,但在潮玩設(shè)計領(lǐng)域已展現(xiàn)實用價值。
國內(nèi)科技企業(yè)同樣加速布局。階躍星辰副總裁李璟透露,其5月發(fā)布的開源模型Step1X-Edit已具備同類能力,在語義解析、身份保持、區(qū)域控制等方面表現(xiàn)突出。演示視頻顯示,該模型可通過語音指令修改圖片元素,如將粽子替換為月餅、讓人物年齡增長30歲等操作均輕松實現(xiàn)。李璟強調(diào),多模態(tài)大模型的技術(shù)迭代仍在持續(xù),未來將重點發(fā)展汽車、手機等智能終端的交互助手。
面對激烈競爭,“納米香蕉”團隊明確技術(shù)方向:不僅要提升視覺質(zhì)量,更要追求智能準確性。其終極目標是打造能深度理解用戶意圖的AI系統(tǒng),甚至在某些領(lǐng)域超越人類表現(xiàn)。這場圖像生成領(lǐng)域的競賽,正推動著交互方式與商業(yè)模式的雙重變革。