亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

北大與字節(jié)聯(lián)合推出Open-o3 Video:顯式時空證據(jù)嵌入,視頻推理有跡可循

   時間:2025-11-05 23:15 作者:陸辰風

在人工智能領域,視頻理解一直是極具挑戰(zhàn)性的課題。近日,一支由北京大學與字節(jié)跳動聯(lián)合組成的科研團隊,成功研發(fā)出全球首個將顯式時空證據(jù)嵌入視頻推理全過程的開源模型——Open-o3 Video。該模型突破傳統(tǒng)視頻推理的局限,不僅能準確回答問題,還能在推理過程中同步標注關鍵事件的發(fā)生時間和具體位置,實現(xiàn)真正意義上的可追溯推理。

視頻理解任務要求模型同時處理時間維度的動態(tài)變化與空間維度的場景交互。傳統(tǒng)模型雖能識別畫面中的物體和動作,卻難以準確判斷事件發(fā)生的具體時間和位置。Open-o3 Video通過創(chuàng)新性的技術架構(gòu),成功解決了這一難題。該模型采用非agent架構(gòu)設計,避免了復雜的工具調(diào)用和多輪推理,在單次回復中即可完成"觀察-思考-驗證-回答"的完整閉環(huán)。實驗數(shù)據(jù)顯示,在多個視頻推理測試中,其關鍵指標較現(xiàn)有模型提升最高達24.2%,性能表現(xiàn)超越GPT-4o和Gemini-2-Flash等閉源模型。

研發(fā)團隊指出,實現(xiàn)視頻推理的可解釋性面臨兩大核心挑戰(zhàn):一是保持文本、時間戳和物體檢測框在推理過程中的一致性;二是解決時空耦合監(jiān)督數(shù)據(jù)的嚴重缺失問題?,F(xiàn)有數(shù)據(jù)集要么僅提供時間標注,要么只有空間標注,缺乏統(tǒng)一的時空標注體系。為突破這一瓶頸,團隊構(gòu)建了首個面向顯式時空推理的統(tǒng)一語料體系STGR,包含30萬條監(jiān)督微調(diào)數(shù)據(jù)和3.6萬條強化學習數(shù)據(jù),其中5900條高質(zhì)量時空數(shù)據(jù)通過嚴格標注流程確保數(shù)據(jù)質(zhì)量。

該模型采用獨特的雙階段訓練機制:首先通過監(jiān)督微調(diào)階段讓模型掌握推理格式與輸出規(guī)范,再通過基于GSPO的強化學習階段優(yōu)化時空對齊能力。研發(fā)團隊特別設計了自適應時間臨近性機制和時間門控機制,前者通過動態(tài)調(diào)整時間獎勵的容忍范圍實現(xiàn)從粗定位到精定位的收斂,后者確??臻g獎勵計算僅在時間預測準確時啟動。這種創(chuàng)新訓練方式使模型能夠穩(wěn)定高效地學習時空推理能力。

在基準測試中,Open-o3 Video展現(xiàn)卓越性能。在時空推理基準V-STAR上,其時間對齊和空間對齊指標分別提升14.4%和24.2%;在VideoMME、WorldSense等四個主流測試集中,模型在需要復雜推理的時空任務和傳統(tǒng)視頻識別任務中均表現(xiàn)突出。特別是在VideoMME-Long子任務中,模型準確率達到54.9%,較基線模型提升4.1個百分點。

消融實驗驗證了模型設計的有效性:雙階段訓練機制使模型性能提升顯著,關鍵獎勵機制確保訓練穩(wěn)定性,統(tǒng)一時空標注數(shù)據(jù)對推理能力提升至關重要??梢暬Y(jié)果顯示,模型在處理物體識別、動作分析和環(huán)境推理等任務時,不僅能給出準確答案,還能提供時間戳和目標框等可驗證證據(jù),使推理過程透明可信。

目前,該研究的論文、代碼和模型已全部開源。這一突破性成果為視頻多模態(tài)模型的發(fā)展開辟了新方向,有望推動人工智能從"能理解"向"能定位、能解釋"的更高階段邁進??蒲袌F隊表示,將持續(xù)完善時空推理數(shù)據(jù)與訓練機制,為更長視頻、更復雜場景下的問答任務提供可靠支撐。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容