亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

快手清華攜手破局:ASPO算法攻克大模型強化學習權(quán)重錯配難題

   時間:2025-10-16 00:26 作者:顧青青

強化學習(RL)已成為大語言模型(LLM)后訓練階段的核心技術(shù),從ChatGPT到DeepSeek的迭代中,其重要性愈發(fā)凸顯。然而,隨著模型參數(shù)規(guī)模的持續(xù)擴張,一個長期被忽視的問題逐漸浮出水面——重要性采樣(Importance Sampling, IS)是否真的不可或缺?

近期,快手與清華大學聯(lián)合研究團隊發(fā)現(xiàn),現(xiàn)有結(jié)果監(jiān)督強化學習范式中存在深層次的權(quán)重錯配現(xiàn)象。這種錯配不僅導致模型產(chǎn)生“過度自信”傾向,還可能引發(fā)熵坍縮(模型輸出多樣性驟降)與訓練早熟收斂(模型過早停止學習)。針對這一難題,研究團隊提出了一種名為ASPO(Asymmetric Importance Sampling Policy Optimization)的算法,通過重構(gòu)重要性采樣機制,顯著提升了模型性能與訓練穩(wěn)定性。

在傳統(tǒng)強化學習中,重要性采樣通過修正新舊策略間的分布差異,使模型能夠“復用舊數(shù)據(jù)”而不偏離目標分布。這一機制在小規(guī)模場景中表現(xiàn)良好,但在大語言模型的結(jié)果監(jiān)督強化學習中卻逐漸失效。研究團隊通過對比實驗發(fā)現(xiàn):在GRPO類算法中,保留重要性采樣權(quán)重與完全移除該權(quán)重(統(tǒng)一設(shè)置為1.0)的模型,最終準確率幾乎無差異;但移除重要性采樣后,模型訓練曲線更平滑,熵值下降速度放緩,重復輸出率降低,且KL散度(衡量策略分布差異的指標)更穩(wěn)定。

進一步分析揭示了重要性采樣失效的根源。首先,結(jié)果監(jiān)督強化學習中的優(yōu)勢值(Advantage Value)本身存在不準確性:不同token對最終答案的貢獻差異顯著,但傳統(tǒng)方法卻賦予它們相同的優(yōu)勢值;其次,正確回答中可能包含錯誤推理步驟,這些步驟的優(yōu)勢值甚至相互矛盾。更關(guān)鍵的是,正優(yōu)勢token的平均重要性采樣權(quán)重顯著高于負優(yōu)勢token,導致模型過度關(guān)注高概率正樣本,加速了熵值的下降。

研究團隊指出,重要性采樣權(quán)重在LLM場景下出現(xiàn)了非對稱性錯誤。對于負優(yōu)勢token,權(quán)重變化符合預期——舊策略概率固定時,當前概率越高,權(quán)重越高,從而抑制錯誤輸出;但對于正優(yōu)勢token,權(quán)重分布卻完全相反:當前概率越高的token權(quán)重越高,概率越低的token權(quán)重越低。這種偏差會形成自我強化循環(huán),使模型不斷強化已“高分”的token,而忽視需要改進的低概率token,最終導致模型陷入局部最優(yōu)解,輸出重復內(nèi)容,甚至發(fā)生熵崩塌。

ASPO的核心創(chuàng)新在于“不對稱翻轉(zhuǎn)”正樣本權(quán)重。具體而言,它將正優(yōu)勢token的重要性采樣權(quán)重取倒數(shù),使低概率token獲得更強的更新信號,而高概率token的更新力度被適當削弱。為避免極端值導致的不穩(wěn)定,ASPO引入了Dual-Clipping(軟雙重裁剪)機制,在保留正樣本梯度有效流動的同時,限制極端比率的影響。ASPO仍保留原有的硬裁剪機制,對重要性采樣比例異常的正負樣本進行梯度裁剪。

梯度分析顯示,ASPO通過翻轉(zhuǎn)重要性采樣權(quán)重項,使梯度與token概率的倒數(shù)成正比。這意味著概率越低的token,獲得的更新梯度越大,從而增強了低概率token的學習力度。實驗結(jié)果表明,ASPO在數(shù)學推理(AIME24/25、AMC23、MATH-500、Minerva、Olympiad)和代碼生成(LiveCodeBench v5/v6)等基準測試中表現(xiàn)優(yōu)異:數(shù)學任務(wù)平均性能提升12.5%,代碼生成任務(wù)平均性能提升17.0%;訓練過程更平滑,無明顯熵坍塌現(xiàn)象;在LiveCodeBench v5上,ASPO以31.5 avg@8 / 47.0 pass@8的成績領(lǐng)先主流RL方法(如DAPO、DeepScaleR、Nemotron等)。

訓練動力學分析進一步驗證了ASPO的優(yōu)勢。其訓練曲線顯示,熵值下降更平緩,有效避免了傳統(tǒng)算法中的“熵坍縮”問題,為模型提供了更穩(wěn)定的探索空間。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容