中國AI領(lǐng)域迎來歷史性時(shí)刻——DeepSeek公司憑借其R1大模型研究成果,成為首家登上《自然》雜志封面的中國AI企業(yè)。這一突破性成就標(biāo)志著中國在基礎(chǔ)大模型研究領(lǐng)域正式躋身全球頂尖行列,此前僅有DeepMind憑借AlphaGo和AlphaFold獲得過同等殊榮。
最新披露的Nature版本論文首次公開了R1模型的訓(xùn)練成本細(xì)節(jié):該660億參數(shù)規(guī)模的模型僅耗資29.4萬美元(約合人民幣208萬元)完成訓(xùn)練。研究團(tuán)隊(duì)使用512張H800 GPU,R1-Zero訓(xùn)練耗時(shí)198小時(shí),R1訓(xùn)練耗時(shí)80小時(shí),按每GPU小時(shí)2美元的租賃價(jià)格計(jì)算得出總成本。這一數(shù)據(jù)與行業(yè)動(dòng)輒千萬美元級的訓(xùn)練投入形成鮮明對比,年初發(fā)布時(shí)即在美股市場引發(fā)強(qiáng)烈震動(dòng)。
在數(shù)據(jù)構(gòu)建方面,研究團(tuán)隊(duì)徹底駁斥了"模型輸出循環(huán)輸入"的質(zhì)疑。公開的補(bǔ)充材料顯示,R1訓(xùn)練數(shù)據(jù)集包含五大類別:數(shù)學(xué)數(shù)據(jù)集收錄2.6萬道定量推理題(含競賽題和考試題),代碼數(shù)據(jù)集包含1.7萬道算法競賽題和8千道代碼修復(fù)問題,STEM數(shù)據(jù)集涵蓋2.2萬道物理、化學(xué)、生物選擇題,邏輯數(shù)據(jù)集包含1.5萬道真實(shí)與合成問題,通用數(shù)據(jù)集則包含6.6萬道覆蓋創(chuàng)意寫作、文本編輯等場景的評估題。
安全性評估體系成為另一大亮點(diǎn)。研究團(tuán)隊(duì)構(gòu)建了多維評估框架:包括官方服務(wù)風(fēng)險(xiǎn)控制系統(tǒng)、六個(gè)公開安全基準(zhǔn)的橫向?qū)Ρ?、?nèi)部安全測試集的分類學(xué)研究、多語言安全評估以及越獄攻擊魯棒性測試。評估結(jié)果顯示,R1模型基礎(chǔ)安全水平與GPT-4o相當(dāng),通過配套風(fēng)險(xiǎn)控制系統(tǒng)可進(jìn)一步提升防護(hù)能力。
技術(shù)實(shí)現(xiàn)路徑方面,研究團(tuán)隊(duì)采用純強(qiáng)化學(xué)習(xí)框架突破傳統(tǒng)依賴。以DeepSeek-V3-Base為基礎(chǔ)模型,通過GRPO(群體相對策略優(yōu)化)算法進(jìn)行數(shù)千步強(qiáng)化訓(xùn)練,使R1-Zero在AIME 2024數(shù)學(xué)基準(zhǔn)測試中pass@1分?jǐn)?shù)從15.6%躍升至71.0%,經(jīng)多數(shù)表決后更達(dá)86.7%,性能媲美OpenAI o1模型。后續(xù)推出的R1模型通過冷啟動(dòng)數(shù)據(jù)、拒絕采樣、監(jiān)督微調(diào)等多階段優(yōu)化,解決了初始版本的可讀性和語言混合問題。
學(xué)術(shù)影響力持續(xù)發(fā)酵。截至當(dāng)前統(tǒng)計(jì),該研究在谷歌學(xué)術(shù)已被引用3596次,HuggingFace平臺(tái)開源模型下載量突破1090萬次(居開源模型首位),GitHub獲得9.11萬顆星標(biāo)。評審專家、Hugging Face工程師Lewis Tunstall特別指出,這是首個(gè)通過同行評審的大型語言模型研究,為學(xué)術(shù)界樹立了重要標(biāo)桿。俄亥俄州立大學(xué)Huan Sun教授評價(jià)稱,該研究自發(fā)布以來已實(shí)質(zhì)性影響全球大模型強(qiáng)化學(xué)習(xí)研究方向。
開源生態(tài)建設(shè)展現(xiàn)中國AI新范式。研究團(tuán)隊(duì)在HuggingFace平臺(tái)全面公開了R1和R1-Zero的模型權(quán)重,同步開源基于Qwen2.5和Llama3架構(gòu)的蒸餾模型。這種透明化研究模式獲得國際學(xué)術(shù)界高度認(rèn)可,論文特別強(qiáng)調(diào)的"推理模式遷移"技術(shù),已證明可使Qwen2.5-32B等基礎(chǔ)模型通過知識蒸餾獲得顯著性能提升。