性色av网站,亚洲av首页在线观看

在人工智能領域，視頻理解一直是極具挑戰(zhàn)性的課題。近日，一支由北京大學與字節(jié)跳動聯(lián)合組成的科研團隊，成功研發(fā)出全球首個將顯式時空證據(jù)嵌入視頻推理全過程的開源模型——Open-o3 Video。該模型突破傳統(tǒng)視頻推理的局限，不僅能準確回答問題，還能在推理過程中同步標注關鍵事件的發(fā)生時間和具體位置，實現(xiàn)真正意義上的可追溯推理。

視頻理解任務要求模型同時處理時間維度的動態(tài)變化與空間維度的場景交互。傳統(tǒng)模型雖能識別畫面中的物體和動作，卻難以準確判斷事件發(fā)生的具體時間和位置。Open-o3 Video通過創(chuàng)新性的技術架構(gòu)，成功解決了這一難題。該模型采用非agent架構(gòu)設計，避免了復雜的工具調(diào)用和多輪推理，在單次回復中即可完成"觀察-思考-驗證-回答"的完整閉環(huán)。實驗數(shù)據(jù)顯示，在多個視頻推理測試中，其關鍵指標較現(xiàn)有模型提升最高達24.2%，性能表現(xiàn)超越GPT-4o和Gemini-2-Flash等閉源模型。

研發(fā)團隊指出，實現(xiàn)視頻推理的可解釋性面臨兩大核心挑戰(zhàn)：一是保持文本、時間戳和物體檢測框在推理過程中的一致性；二是解決時空耦合監(jiān)督數(shù)據(jù)的嚴重缺失問題?，F(xiàn)有數(shù)據(jù)集要么僅提供時間標注，要么只有空間標注，缺乏統(tǒng)一的時空標注體系。為突破這一瓶頸，團隊構(gòu)建了首個面向顯式時空推理的統(tǒng)一語料體系STGR，包含30萬條監(jiān)督微調(diào)數(shù)據(jù)和3.6萬條強化學習數(shù)據(jù)，其中5900條高質(zhì)量時空數(shù)據(jù)通過嚴格標注流程確保數(shù)據(jù)質(zhì)量。

該模型采用獨特的雙階段訓練機制：首先通過監(jiān)督微調(diào)階段讓模型掌握推理格式與輸出規(guī)范，再通過基于GSPO的強化學習階段優(yōu)化時空對齊能力。研發(fā)團隊特別設計了自適應時間臨近性機制和時間門控機制，前者通過動態(tài)調(diào)整時間獎勵的容忍范圍實現(xiàn)從粗定位到精定位的收斂，后者確?？臻g獎勵計算僅在時間預測準確時啟動。這種創(chuàng)新訓練方式使模型能夠穩(wěn)定高效地學習時空推理能力。

在基準測試中，Open-o3 Video展現(xiàn)卓越性能。在時空推理基準V-STAR上，其時間對齊和空間對齊指標分別提升14.4%和24.2%；在VideoMME、WorldSense等四個主流測試集中，模型在需要復雜推理的時空任務和傳統(tǒng)視頻識別任務中均表現(xiàn)突出。特別是在VideoMME-Long子任務中，模型準確率達到54.9%，較基線模型提升4.1個百分點。

消融實驗驗證了模型設計的有效性：雙階段訓練機制使模型性能提升顯著，關鍵獎勵機制確保訓練穩(wěn)定性，統(tǒng)一時空標注數(shù)據(jù)對推理能力提升至關重要?？梢暬Y(jié)果顯示，模型在處理物體識別、動作分析和環(huán)境推理等任務時，不僅能給出準確答案，還能提供時間戳和目標框等可驗證證據(jù)，使推理過程透明可信。

目前，該研究的論文、代碼和模型已全部開源。這一突破性成果為視頻多模態(tài)模型的發(fā)展開辟了新方向，有望推動人工智能從"能理解"向"能定位、能解釋"的更高階段邁進?？蒲袌F隊表示，將持續(xù)完善時空推理數(shù)據(jù)與訓練機制，為更長視頻、更復雜場景下的問答任務提供可靠支撐。

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

北大與字節(jié)聯(lián)合推出Open-o3 Video：顯式時空證據(jù)嵌入，視頻推理有跡可循

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

北大與字節(jié)聯(lián)合推出Open-o3 Video：顯式時空證據(jù)嵌入，視頻推理有跡可循

北大與字節(jié)聯(lián)合推出Open-o3 Video：顯式時空證據(jù)嵌入，視頻推理有跡可循