滾動資訊

當前位置：網(wǎng)界 > 智能手機 > 正文內(nèi)容

上海AI實驗室攜手高校，創(chuàng)新技術破解AI強化學習熵崩潰挑戰(zhàn)

時間：2025-06-04 08:25 作者：陸辰風

近期，上海人工智能實驗室攜手清華大學及美國伊利諾伊大學香檳分校的研究團隊，共同研發(fā)出了一種創(chuàng)新方法，用以解決大型語言模型在強化學習過程中的策略熵崩潰問題。這一突破性的進展，得益于Clip-Cov和KL-Cov兩項技術的引入。

隨著大型語言模型（LLMs）在邏輯推理能力上的顯著提升，強化學習（RL）的應用場景得以大幅擴展，從原先的單一任務擴展到更為復雜多變的環(huán)境。這一轉變，無疑為模型賦予了更強的泛化能力和邏輯推理能力。然而，強化學習的高計算資源需求以及策略熵下降的問題，成為了制約其進一步發(fā)展的關鍵因素。

策略熵，作為衡量模型在利用已知策略和探索新策略之間平衡狀態(tài)的指標，其過低會導致模型陷入對已有策略的過度依賴，從而失去對新策略的探索能力。這種探索與利用之間的權衡，正是強化學習的基礎所在。因此，如何有效控制策略熵，成為了強化學習訓練過程中的一大難題。

為解決這一問題，研究團隊提出了一個全新的經(jīng)驗公式：R = ?a exp H + b，其中R代表下游任務的表現(xiàn)，H為策略熵，a和b為擬合系數(shù)。該公式揭示了策略性能與熵值之間的微妙關系，并指出熵耗盡是導致性能瓶頸的主要原因。在此基礎上，團隊進一步分析了熵的動態(tài)變化，發(fā)現(xiàn)其受到動作概率與logits變化協(xié)方差的影響。

針對這一發(fā)現(xiàn)，團隊創(chuàng)新性地提出了Clip-Cov和KL-Cov兩項技術。前者通過裁剪高協(xié)方差token來維持熵水平，后者則通過施加KL懲罰來達到同樣的效果。實驗結果顯示，這兩項技術在Qwen2.5模型和DAPOMATH數(shù)據(jù)集上均取得了顯著成效，特別是在AIME24和AIME25等高難度基準測試中，32B模型的性能提升高達15.0%。

為進一步驗證這兩項技術的有效性，研究團隊還在包括Qwen2.5、Mistral、LLaMA和DeepSeek在內(nèi)的11個開源模型上進行了測試，這些模型的參數(shù)規(guī)模從0.5B到32B不等，涵蓋了數(shù)學和編程任務的8個公開基準測試。實驗結果表明，Clip-Cov和KL-Cov技術均能在不同模型上維持更高的熵水平，從而顯著提升模型的性能。

在訓練過程中，研究團隊采用了veRL框架和零樣本設置，并結合了GRPO、REINFORCE++等算法來優(yōu)化策略性能。實驗結果顯示，KL-Cov方法在基線熵值趨于平穩(wěn)時，仍能保持10倍以上的熵值，充分證明了其有效性。

此次研究不僅成功解決了策略熵崩潰問題，還為強化學習在語言模型中的擴展提供了堅實的理論支持。研究團隊強調(diào)，熵動態(tài)是制約性能提升的關鍵瓶頸，未來需要繼續(xù)探索更為有效的熵管理策略，以推動語言模型的智能化發(fā)展。

更多>同類內(nèi)容

6G時代將至！2030年全球用戶數(shù)預計將達2.89億

06-05

三星高管詳解Galaxy S25 Edge：超薄設計下電池續(xù)航仍可用一整天

06-05

克萊斯勒百年慶典，Pacifica特別版休旅車低調(diào)亮相

06-05

銀昕FM600風冷散熱器來襲：6熱管直觸，僅需98元，性價比如何？

06-05

微軟Win11新省電技能：用戶不活躍時自動降CPU性能

06-05

AI安全成香餑餑，Anthropic為何能頻頻挖角OpenAI與谷歌DeepMind？

06-05

鑫谷GPE-01石墨烯導熱墊AM5版上市，130W/m·K高效導熱

06-05

問界M9跨界助農(nóng)，小麥收割現(xiàn)場上演科技與傳統(tǒng)碰撞

06-05

Switch 2盛大發(fā)售，經(jīng)典新作齊上陣，哪款游戲是你的最愛？

06-05

激光雷達VS純視覺：誰才是智能駕駛的安全守護者？

06-05

iQOO Neo10 Pro+：游戲生態(tài)全面升級，不止性能強悍那么簡單

06-05

《仁王3》預告震撼發(fā)布，2026年初硬核開放世界等你來戰(zhàn)！

06-05

音速挑戰(zhàn)，Switch高手集結！三星存儲大獎等你來拿！

06-05

Meta Aria Gen 2智能眼鏡曝光：輕量化設計，配備眼動追蹤與3D追蹤技術

06-05

蔚來樂道L60試水滴滴專車？官方回應：僅為區(qū)域銷售策略

06-05

點擊查看更多 +

全站最新

格力董明珠：為何格力空調(diào)耐用？拒絕貼牌，堅守自主生產(chǎn)保質量

花旗上海大連技術團隊大裁員3500人，賠償方案超法定標準達N+6

比亞迪深圳號巴西首航創(chuàng)紀錄，民眾熱烈歡送新能源巨輪！

金潯股份港股IPO：非洲掘金，銅業(yè)新秀能否講出新的增長故事？

Switch2發(fā)售熱潮，VITURE XR眼鏡讓大屏游戲更自由暢快！

濱特爾國際水展大放異彩，全場景凈水方案引領好水生活新風尚

熱門內(nèi)容

本欄最新

6G時代將至！2030年全球用戶數(shù)預計將達2.89億

三星高管詳解Galaxy S25 Edge：超薄設計下電池續(xù)航仍可用一整天

克萊斯勒百年慶典，Pacifica特別版休旅車低調(diào)亮相

銀昕FM600風冷散熱器來襲：6熱管直觸，僅需98元，性價比如何？

AI安全成香餑餑，Anthropic為何能頻頻挖角OpenAI與谷歌DeepMind？

鑫谷GPE-01石墨烯導熱墊AM5版上市，130W/m·K高效導熱

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標，是該商標的唯一持有者，未經(jīng)授本公司授權，嚴禁使用。
Copyright ? CNU 2012-2022 mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

上海AI實驗室攜手高校，創(chuàng)新技術破解AI強化學習熵崩潰挑戰(zhàn)

上海AI實驗室攜手高校，創(chuàng)新技術破解AI強化學習熵崩潰挑戰(zhàn)