在科技領(lǐng)域的一次重要展示中,群核科技于近日成功舉辦首屆技術(shù)開放日活動,向業(yè)界隆重推出了其在大模型技術(shù)上的最新研發(fā)成果。這次發(fā)布的亮點包括新一代空間語言模型SpatialLM 1.5和空間生成模型SpatialGen,同時,群核科技還分享了關(guān)于新模型未來開源計劃的詳細(xì)安排。
SpatialLM 1.5,作為群核科技在3D室內(nèi)場景理解與生成領(lǐng)域的突破,實現(xiàn)了通過簡單的文本指令即可生成結(jié)構(gòu)化3D場景的功能。這一能力不僅超越了傳統(tǒng)大語言模型對物理世界的理解局限,還能智能匹配家具模型并完成布局,進(jìn)一步支持通過自然語言進(jìn)行后續(xù)的交互與編輯。尤為該模型生成的場景富含物理正確的結(jié)構(gòu)化信息,并能快速批量產(chǎn)出多樣化的符合要求的場景,這對于機(jī)器人訓(xùn)練數(shù)據(jù)的獲取難題提供了有效的解決方案。在現(xiàn)場的演示中,通過輸入“去客廳餐桌拿藥”的指令,SpatialLM 1.5不僅準(zhǔn)確理解了相關(guān)物體對象,還自動規(guī)劃出最優(yōu)行動路徑,展示了其在復(fù)雜家庭環(huán)境中指導(dǎo)機(jī)器人執(zhí)行任務(wù)的巨大潛力。
與此同時,SpatialGen模型的發(fā)布則標(biāo)志著群核科技在“生成與呈現(xiàn)”領(lǐng)域的又一重要進(jìn)展。這款基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型,能夠根據(jù)文字描述、參考圖像以及3D空間布局,生成具有時空一致性的多視角圖像,并進(jìn)一步生成3D高斯場景,支持渲染出可自由漫游的視頻。依托群核科技的海量室內(nèi)3D場景數(shù)據(jù)與多視角擴(kuò)散模型技術(shù),SpatialGen確保了生成的多視角圖像在不同鏡頭下保持準(zhǔn)確的空間屬性和物理關(guān)系,為用戶帶來沉浸式的體驗。
在活動現(xiàn)場,群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚赏嘎叮菊谘邪l(fā)一款深度融合3D能力的AI視頻生成產(chǎn)品,計劃年內(nèi)正式發(fā)布。這款產(chǎn)品有望通過構(gòu)建3D渲染與視頻增強(qiáng)一體化的生成管線,解決當(dāng)前AIGC視頻生成中時空一致性的不足問題,進(jìn)一步推動AI視頻創(chuàng)作的商業(yè)化應(yīng)用。據(jù)他介紹,現(xiàn)有的AI視頻創(chuàng)作中常因視角切換導(dǎo)致物體位置偏移、空間邏輯混亂等問題,而這些問題背后的根源在于多數(shù)視頻生成模型缺乏對3D空間結(jié)構(gòu)和物理法則的理解和推演能力。SpatialGen的推出,正是為了解決這一難題。
群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌在活動現(xiàn)場分享了公司對于空間智能布局的最新思考。他指出,基于酷家樂這一全球最大的空間設(shè)計平臺,群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,通過工具沉淀數(shù)據(jù)、數(shù)據(jù)加速模型訓(xùn)練、模型提升工具體驗的良性循環(huán),不斷推動技術(shù)進(jìn)步。截至2025年6月30日,群核科技已擁有超過4.41億個3D模型及超過5億個結(jié)構(gòu)化3D空間場景,這些數(shù)據(jù)為空間大模型的訓(xùn)練提供了堅實的基礎(chǔ)。
黃曉煌還強(qiáng)調(diào)了開源在公司戰(zhàn)略中的重要性。他表示,群核科技自2018年起就開始實施開源戰(zhàn)略,逐步開放數(shù)據(jù)和算法能力,旨在推動全球空間智能技術(shù)的快速發(fā)展。他認(rèn)為,當(dāng)前空間大模型還處于初級階段,希望通過開源的方式,與全球開發(fā)者共同推動技術(shù)的進(jìn)步,加速空間大模型的成熟和應(yīng)用。
據(jù)悉,本次技術(shù)開放日分享的兩款模型將逐步在HuggingFace、GitHub等平臺面向全球開發(fā)者開源。其中,空間生成模型SpatialGen已在活動當(dāng)天開放下載使用,而空間語言模型SpatialLM 1.5也將以“SpatialLM-Chat”的形式在未來完成開源。這一系列舉措,無疑將為全球空間智能技術(shù)的發(fā)展注入新的活力。