亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

谷歌新研究:微量數(shù)據(jù)訓(xùn)練,大型語言模型精準(zhǔn)度大幅提升

   時間:2025-08-26 05:39 作者:沈瑾瑜

谷歌最新研究揭示了大型語言模型訓(xùn)練的新策略,該策略專注于通過一種創(chuàng)新的主動學(xué)習(xí)篩選流程,大幅度減少微調(diào)所需的訓(xùn)練數(shù)據(jù)量。據(jù)實驗數(shù)據(jù)顯示,這一方法成功地將數(shù)據(jù)量削減至原先的萬分之一,同時顯著提升了模型判斷與人類專家的一致性,增幅高達(dá)65%。

在廣告內(nèi)容分類、金融數(shù)據(jù)安全分析等實際應(yīng)用場景中,對高質(zhì)量訓(xùn)練數(shù)據(jù)的需求尤為迫切。然而,篩選出符合標(biāo)準(zhǔn)的數(shù)據(jù)不僅技術(shù)難度高,而且成本也相當(dāng)可觀。谷歌的新方法針對這一挑戰(zhàn),從零樣本或少樣本的初始模型出發(fā),用戶通過具體提示來定義目標(biāo)內(nèi)容,例如判斷廣告是否為“點擊誘餌”。初始模型會對廣告進行分類,并生成一個龐大的標(biāo)記數(shù)據(jù)集。但這一初始數(shù)據(jù)集通常存在嚴(yán)重的類別不平衡問題,影響了模型的準(zhǔn)確識別能力。

為了克服這一難題,研究者對模型標(biāo)記的內(nèi)容進行了細(xì)致分組,發(fā)現(xiàn)部分組之間存在顯著重疊,這意味著模型在這些內(nèi)容上容易判斷失誤。于是,研究者從這些重疊組中精心挑選樣本對,交由專家進行進一步判斷。這種做法不僅有效控制了審核成本,還確保了所選樣本對具有多樣性和代表性,覆蓋了多種可能的錯誤情形。

在模型微調(diào)階段,專家提供的標(biāo)注被分為兩個獨立組:一組用于評估模型與人類專家判斷的一致性,另一組則直接用于模型的微調(diào)。這一過程循環(huán)進行,直至模型的表現(xiàn)達(dá)到與人類專家相近的水平。谷歌的實驗采用了Gemini Nano-1和Nano-2兩款模型,并針對兩個不同復(fù)雜度的任務(wù)進行了測試。每個任務(wù)都使用了約10萬條眾包標(biāo)注數(shù)據(jù),盡管這些數(shù)據(jù)存在嚴(yán)重的不平衡性。

實驗結(jié)果顯示,專家之間的判斷高度一致,而眾包標(biāo)簽與專家判斷的一致性則相對較低。通過應(yīng)用新方法,一個擁有32.5億參數(shù)的模型在低難度任務(wù)上的表現(xiàn)得到了顯著提升,所使用的數(shù)據(jù)量僅為250至450條,與原先的10萬條數(shù)據(jù)相比大大減少,但仍能取得令人滿意的效果。這一成果表明,在確保專家標(biāo)注一致性超過0.8的情況下,大型模型僅需少量高質(zhì)量數(shù)據(jù)就能在訓(xùn)練時展現(xiàn)出色性能。

谷歌的這一創(chuàng)新策略為大型語言模型的訓(xùn)練提供了新的視角,證明了在數(shù)據(jù)稀缺和類別不平衡的情況下,通過精細(xì)的主動學(xué)習(xí)和專家標(biāo)注,依然能夠?qū)崿F(xiàn)模型性能的大幅提升。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容