亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

Soul App開(kāi)源SoulX-Podcast模型,多方言多輪對(duì)話流暢,賦能AI+社交新體驗(yàn)

   時(shí)間:2025-10-29 19:09 作者:趙云飛

近日,社交平臺(tái)Soul的AI團(tuán)隊(duì)Soul AI Lab宣布,正式開(kāi)源其自主研發(fā)的播客語(yǔ)音合成模型SoulX-Podcast。該模型專為多人、多輪對(duì)話場(chǎng)景設(shè)計(jì),支持中英文及多種方言的語(yǔ)音生成,并具備超長(zhǎng)播客生成能力,能夠穩(wěn)定輸出自然流暢、角色切換精準(zhǔn)的語(yǔ)音內(nèi)容,為AI語(yǔ)音技術(shù)領(lǐng)域帶來(lái)新的突破。

SoulX-Podcast的核心優(yōu)勢(shì)在于其多輪對(duì)話的流暢性與自然度。在零樣本克隆場(chǎng)景下,該模型能夠高度還原參考語(yǔ)音的音色與風(fēng)格,同時(shí)根據(jù)對(duì)話語(yǔ)境靈活調(diào)整韻律和節(jié)奏,使生成的語(yǔ)音既連貫又富有表現(xiàn)力。無(wú)論是長(zhǎng)時(shí)間的多輪對(duì)話,還是情感層次豐富的交流,模型均能保持聲音的一致性和表達(dá)的真實(shí)性。它還支持笑聲、清嗓等副語(yǔ)言元素的可控生成,進(jìn)一步提升了語(yǔ)音的臨場(chǎng)感。

方言支持是SoulX-Podcast的另一大亮點(diǎn)。除了中英文,該模型還覆蓋了四川話、河南話、粵語(yǔ)等多種主流方言。更引人注目的是,它實(shí)現(xiàn)了跨方言音色克隆——即使僅提供普通話參考語(yǔ)音,模型也能生成帶有方言特征的自然語(yǔ)音。這一功能為方言語(yǔ)音合成提供了新的解決方案,滿足了多樣化場(chǎng)景的需求。

在超長(zhǎng)播客生成方面,SoulX-Podcast展現(xiàn)了強(qiáng)大的穩(wěn)定性。它能夠持續(xù)生成超過(guò)60分鐘的語(yǔ)音內(nèi)容,并始終保持音色與風(fēng)格的一致性。這一特性使其不僅適用于播客場(chǎng)景,還在通用語(yǔ)音合成和克隆任務(wù)中表現(xiàn)出色,為用戶帶來(lái)更真實(shí)、更生動(dòng)的語(yǔ)音體驗(yàn)。

語(yǔ)音作為傳遞信息和情感的重要媒介,在社交互動(dòng)中扮演著關(guān)鍵角色。Soul平臺(tái)一直以“語(yǔ)音社交”為特色,用戶通過(guò)語(yǔ)音實(shí)時(shí)互動(dòng),建立情感連接。為了進(jìn)一步推動(dòng)AI與社交的融合,Soul團(tuán)隊(duì)在語(yǔ)音技術(shù)領(lǐng)域持續(xù)投入,此前已升級(jí)端到端全雙工語(yǔ)音通話大模型,并在站內(nèi)開(kāi)啟內(nèi)測(cè)。新模型賦予AI自主決策對(duì)話節(jié)奏的能力,實(shí)現(xiàn)更接近日常生活的交互體驗(yàn)。

與此同時(shí),Soul還推出了自研的語(yǔ)音生成、識(shí)別和對(duì)話大模型,并快速應(yīng)用于“虛擬伴侶”、群聊派對(duì)等多元場(chǎng)景。例如,9月,Soul的兩位虛擬人孟知時(shí)與嶼你在群聊派對(duì)中發(fā)起了一場(chǎng)持續(xù)40分鐘的對(duì)話。這場(chǎng)活動(dòng)僅依靠自然流量便迅速引爆社區(qū),房間互動(dòng)熱度刷新平臺(tái)紀(jì)錄,受到用戶廣泛歡迎。這一案例驗(yàn)證了“虛擬IP + AI語(yǔ)音對(duì)話”在虛擬內(nèi)容生態(tài)中的潛力。

然而,當(dāng)時(shí)開(kāi)源社區(qū)中能夠穩(wěn)定支持多輪自然對(duì)話的播客生成模型較為稀缺,尤其在多人對(duì)話和長(zhǎng)篇播客場(chǎng)景下,現(xiàn)有模型普遍面臨音色一致性、風(fēng)格延續(xù)性以及角色切換準(zhǔn)確性等問(wèn)題。為此,Soul團(tuán)隊(duì)決定開(kāi)源SoulX-Podcast,希望與全球開(kāi)發(fā)者共同探索AI語(yǔ)音在內(nèi)容創(chuàng)作、社交表達(dá)和虛擬生態(tài)中的更多可能性。

從技術(shù)架構(gòu)來(lái)看,SoulX-Podcast采用了LLM + Flow Matching的語(yǔ)音生成范式。其中,LLM部分基于Qwen3-1.7B模型進(jìn)行初始化,以繼承其強(qiáng)大的語(yǔ)言理解能力;Flow Matching部分則進(jìn)一步建模聲學(xué)特征,確保語(yǔ)音生成的精準(zhǔn)度。盡管該模型專為多人、多輪對(duì)話設(shè)計(jì),但在單人語(yǔ)音合成和零樣本語(yǔ)音克隆任務(wù)中也表現(xiàn)優(yōu)異。實(shí)驗(yàn)數(shù)據(jù)顯示,在播客生成任務(wù)中,SoulX-Podcast在語(yǔ)音可懂度和音色相似度方面均優(yōu)于近期相關(guān)工作。

此次開(kāi)源是Soul在AI技術(shù)領(lǐng)域的重要嘗試。團(tuán)隊(duì)表示,未來(lái)將持續(xù)優(yōu)化語(yǔ)音對(duì)話合成、全雙工語(yǔ)音通話等核心交互能力,并加速技術(shù)在多樣化場(chǎng)景中的落地,為用戶帶來(lái)更沉浸、更智能的交互體驗(yàn)。同時(shí),Soul將深化開(kāi)源生態(tài)建設(shè),與全球開(kāi)發(fā)者攜手拓展AI語(yǔ)音的邊界,推動(dòng)“AI +社交”的創(chuàng)新發(fā)展。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容