亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

字節(jié)聯(lián)合頂尖學(xué)府推出Ouro模型:14億參數(shù)實現(xiàn)百億級推理,開啟預(yù)訓(xùn)練思考新范式

   時間:2025-11-05 23:30 作者:江紫萱

近日,字節(jié)跳動聯(lián)合加州大學(xué)、普林斯頓大學(xué)、蒙特利爾大學(xué)、北京大學(xué)及卡內(nèi)基梅隆大學(xué)等頂尖機構(gòu),推出了一款名為Ouro的新型語言模型。該模型通過在預(yù)訓(xùn)練階段引入“循環(huán)思考”機制,僅用14億參數(shù)便實現(xiàn)了與百億級模型相當(dāng)?shù)耐评砟芰?,為語言模型領(lǐng)域帶來了全新范式。

傳統(tǒng)語言模型的推理能力通常依賴“思維鏈”(Chain-of-Thought)技術(shù),即通過生成冗長的中間文本逐步推導(dǎo)答案。這種方式雖能提升性能,但存在明顯局限:模型更像是在“事后解釋”答案,而非真正理解問題邏輯。Ouro模型則突破了這一框架,其名稱源自“銜尾蛇”(Ouroboros)的循環(huán)意象,通過構(gòu)建循環(huán)語言模型(LoopLM),將推理能力直接嵌入預(yù)訓(xùn)練階段。

Ouro的核心創(chuàng)新體現(xiàn)在三個方面:首先,它在潛在空間中進行迭代計算,使模型能反復(fù)“咀嚼”問題;其次,引入熵正則化目標(biāo),幫助模型根據(jù)問題難度動態(tài)分配思考深度;最后,通過7.7萬億tokens的海量數(shù)據(jù)訓(xùn)練,確保模型在復(fù)雜任務(wù)中的穩(wěn)定性。實驗表明,14億參數(shù)的Ouro模型在數(shù)學(xué)推理等任務(wù)中表現(xiàn)優(yōu)于40億參數(shù)的Qwen3-Base,26億參數(shù)版本更是在專業(yè)評測中超越了80億參數(shù)的同類模型。

該模型的架構(gòu)設(shè)計極具巧思。其核心是一個參數(shù)共享的循環(huán)結(jié)構(gòu),通過重復(fù)調(diào)用相同的變換器模塊(transformer block),在不顯著增加參數(shù)量的前提下實現(xiàn)深度推理。為保證多輪迭代的穩(wěn)定性,研究團隊采用了旋轉(zhuǎn)位置嵌入(RoPE)、SwiGLU激活函數(shù)及三明治式層歸一化(RMSNorm)等技術(shù)。Ouro還引入了自適應(yīng)計算機制:每輪循環(huán)后,模型會通過“退出門”判斷是否需要繼續(xù)思考,簡單問題可能1-2次迭代即完成,復(fù)雜問題則深入循環(huán)。熵正則化目標(biāo)進一步優(yōu)化了這一過程,避免模型陷入“過早退出”或“過度循環(huán)”的極端。

與依賴顯式推理鏈的傳統(tǒng)模型不同,Ouro的推理過程發(fā)生在模型內(nèi)部的隱藏狀態(tài)中,更接近人類的“默想”或“頓悟”。這種潛在推理(Latent Reasoning)方式保留了思考的連續(xù)性和豐富性,同時避免了將復(fù)雜邏輯壓縮為離散文字符號的帶寬限制。對照實驗顯示,Ouro在需要多步推理的任務(wù)中表現(xiàn)尤為突出,其優(yōu)勢并非源于記憶更多知識,而是更擅長組合和運用已有信息。

Ouro的突破為語言模型的發(fā)展開辟了新路徑。它證明了通過架構(gòu)創(chuàng)新提升模型“內(nèi)部計算深度”的有效性,尤其在邊緣計算、移動應(yīng)用等資源受限場景中具有顯著優(yōu)勢。然而,該模型也面臨挑戰(zhàn):現(xiàn)有推理加速框架多針對固定計算路徑設(shè)計,難以充分發(fā)揮其動態(tài)計算深度的潛力;如何將強化學(xué)習(xí)融入動態(tài)架構(gòu)以提升模型對齊能力,仍是待解決的問題。盡管如此,Ouro的探索確立了“循環(huán)深度”作為模型擴展的新維度,為人工智能的未來發(fā)展提供了重要參考。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容