上海人工智能實(shí)驗(yàn)室(簡稱上海AI實(shí)驗(yàn)室)近期宣布了一項(xiàng)重大進(jìn)展,正式向全球開源其通用多模態(tài)大模型——書生?萬象3.5(InternVL3.5)。此次開源不僅標(biāo)志著InternVL系列在技術(shù)上的全面升級(jí),更預(yù)示著多模態(tài)人工智能領(lǐng)域的一次重要飛躍。
InternVL3.5在推理能力、部署效率及通用性方面均實(shí)現(xiàn)了顯著提升。為了滿足不同場(chǎng)景下的多樣化需求,此次開源涵蓋了從10億到2410億參數(shù)的9種不同尺寸的模型。尤為值得一提的是旗艦?zāi)P虸nternVL3.5-241B-A28B,在多學(xué)科推理基準(zhǔn)MMMU測(cè)試中取得了77.7分的高分,位居所有開源模型之首,其多模態(tài)通用感知能力甚至超越了GPT-5,文本處理能力同樣在主流開源多模態(tài)大模型中領(lǐng)先。
與之前的版本InternVL3.0相比,InternVL3.5在多個(gè)特色任務(wù)上均展現(xiàn)出顯著優(yōu)勢(shì)。特別是在圖形用戶界面(GUI)智能體、具身空間感知以及矢量圖像理解與生成方面,其性能有了質(zhì)的飛躍。在GUI交互測(cè)試中,InternVL3.5在ScreenSpot-v2元素定位任務(wù)中獲得了92.9分的高分,超越了同類模型,并支持Windows和Ubuntu系統(tǒng)的自動(dòng)化操作。在具身智能體測(cè)試中,該模型展現(xiàn)出對(duì)物理空間關(guān)系的深刻理解,規(guī)劃導(dǎo)航路徑的能力在VSI-Bench測(cè)試中超越了Gemini-2.5-Pro。在矢量圖形理解與生成方面,InternVL3.5在SGP-Bench測(cè)試中刷新了開源紀(jì)錄。
InternVL3.5的跨平臺(tái)操作能力尤為引人注目。它能夠在Windows、Mac、Ubuntu、Android等多個(gè)平臺(tái)上識(shí)別界面元素,并自主執(zhí)行鼠標(biāo)和鍵盤操作,實(shí)現(xiàn)諸如恢復(fù)已刪除文件、導(dǎo)出PDF、郵件添加附件等任務(wù)的自動(dòng)化。這一特性極大地拓展了其應(yīng)用場(chǎng)景,使得InternVL3.5在辦公自動(dòng)化、智能機(jī)器人等領(lǐng)域具有廣泛的應(yīng)用潛力。
InternVL3.5還具備更強(qiáng)的grounding能力,能夠在全新的復(fù)雜小樣本具身場(chǎng)景中實(shí)現(xiàn)泛化。配合抓取算法,它支持可泛化的長程物體抓取操作,為機(jī)器人提供了更高效的物品識(shí)別、路徑規(guī)劃與物理交互能力。這一特性使得InternVL3.5在智能制造、倉儲(chǔ)物流等領(lǐng)域同樣具有巨大的應(yīng)用價(jià)值。
作為上海AI實(shí)驗(yàn)室書生大模型體系的重要組成部分,InternVL系列自推出以來便受到廣泛關(guān)注。目前,InternVL全系列的全網(wǎng)下載量已突破2300萬次,顯示出其在全球范圍內(nèi)的廣泛應(yīng)用和深遠(yuǎn)影響。此次開源InternVL3.5,上海AI實(shí)驗(yàn)室旨在進(jìn)一步推動(dòng)多模態(tài)大模型技術(shù)的發(fā)展,促進(jìn)全球科研人員和開發(fā)者之間的合作與創(chuàng)新。
通過提供這一強(qiáng)大的開源工具,上海AI實(shí)驗(yàn)室希望加速人工智能在各個(gè)領(lǐng)域的應(yīng)用進(jìn)程,為解決現(xiàn)實(shí)世界的復(fù)雜問題提供更多可能性。這一舉措無疑將為全球人工智能領(lǐng)域的發(fā)展注入新的活力。