在人工智能領(lǐng)域,一項(xiàng)革命性的突破正悄然改變我們對(duì)AI的認(rèn)知。DeepMind,這家隸屬于谷歌的人工智能研究機(jī)構(gòu),近期宣布了其最新成果——Genie 3,一個(gè)能夠?qū)崟r(shí)生成并互動(dòng)的動(dòng)態(tài)世界模型。
據(jù)DeepMind的研究科學(xué)家Jack Parker-Holder和研究總監(jiān)Shlomi Fruchter介紹,Genie 3是迄今為止最先進(jìn)的世界模型之一,它能夠通過(guò)簡(jiǎn)單的文本指令,實(shí)時(shí)構(gòu)建出高度一致且完全互動(dòng)的數(shù)字世界。用戶(hù)可以在這個(gè)虛擬世界中自由探索,體驗(yàn)每秒24幀、分辨率為720p的動(dòng)態(tài)場(chǎng)景。
這一突破性技術(shù)不僅展示了DeepMind在模擬環(huán)境研究方面的深厚積累,更被視為通向通用人工智能(AGI)和具身智能體的關(guān)鍵一步。通過(guò)Genie 3,AI智能體可以在無(wú)限豐富的模擬環(huán)境中進(jìn)行訓(xùn)練,從而提升其適應(yīng)復(fù)雜現(xiàn)實(shí)世界的能力。
Genie 3的核心競(jìng)爭(zhēng)力在于其“特殊記憶”功能。這意味著,在這個(gè)虛擬世界中,角色和物體的行為將具有持續(xù)性和連貫性。例如,一個(gè)角色在墻上刷漆后,即使移動(dòng)到墻的另一邊再返回,之前刷的痕跡仍然會(huì)保留下來(lái)。這種高度一致性的表現(xiàn),即便是參與Genie 3項(xiàng)目的內(nèi)部成員,在初次看到時(shí)也感到難以置信。
Genie 3在生成視頻時(shí)長(zhǎng)、世界一致性、內(nèi)容多樣性等方面也實(shí)現(xiàn)了顯著突破。它不僅能夠生成更加逼真的物理效果,如水的模擬和光照的變化,還能夠處理復(fù)雜的地形多樣性問(wèn)題,如沙地行走、滑雪和游泳等動(dòng)作的物理反饋。
值得注意的是,Genie 3的這些能力并非通過(guò)專(zhuān)門(mén)訓(xùn)練或設(shè)計(jì)獲得,而是模型在足夠豐富的訓(xùn)練數(shù)據(jù)基礎(chǔ)上自行“學(xué)習(xí)”出來(lái)的。這種涌現(xiàn)式的智能表現(xiàn),讓人們對(duì)AI的未來(lái)充滿(mǎn)了無(wú)限遐想。
DeepMind團(tuán)隊(duì)表示,他們最終將開(kāi)放Genie 3模型,讓更多人有機(jī)會(huì)探索和利用這一先進(jìn)技術(shù)。然而,他們也承認(rèn),盡管Genie 3取得了顯著進(jìn)展,但距離真正“準(zhǔn)確模擬現(xiàn)實(shí)世界”還有很大差距。未來(lái),他們將繼續(xù)致力于提升虛擬世界的真實(shí)感和自由度,以及探索更多應(yīng)用場(chǎng)景。
在訪談中,Jack Parker-Holder和Shlomi Fruchter還分享了他們對(duì)于未來(lái)世界模型的看法。他們認(rèn)為,真實(shí)感和交互性將是未來(lái)發(fā)展的關(guān)鍵。通過(guò)不斷改進(jìn)模型,他們希望能夠在虛擬世界中實(shí)現(xiàn)更加逼真的物理效果和更加自然的交互體驗(yàn)。
對(duì)于“人類(lèi)是否生活在某種模擬中”這一哲學(xué)問(wèn)題,他們也給出了自己的見(jiàn)解。他們認(rèn)為,如果人類(lèi)真的生活在一個(gè)模擬世界里,那么這個(gè)模擬世界一定運(yùn)行在完全不同的硬件之上,與現(xiàn)有的數(shù)字化世界截然不同。這一觀點(diǎn)引發(fā)了人們對(duì)現(xiàn)實(shí)與虛擬、真實(shí)與模擬之間界限的深刻思考。