在科技日新月異的當下,機器人已不再局限于傳統(tǒng)的工業(yè)應(yīng)用,它們開始在舞臺上翩翩起舞,在格斗賽中靈活騰挪,成為科技領(lǐng)域的璀璨明星。然而,這些令人眼花繚亂的表演背后,具身智能如何真正融入生產(chǎn)和生活,仍是一個亟待解決的問題。
近日,在2025北京智源大會上,來自智源研究院、北京人形機器人創(chuàng)新中心、宇樹科技、Physical Intelligence、北京大學(xué)及穹徹智能等機構(gòu)的行業(yè)領(lǐng)袖,齊聚一堂,就具身智能的發(fā)展現(xiàn)狀和未來趨勢展開了深入探討。
宇樹科技CEO王興興表示,盡管人形機器人在實用性上尚未取得全面突破,但當前的表演和比賽是技術(shù)展示的重要窗口,有助于提升公眾認知和產(chǎn)業(yè)關(guān)注度。他強調(diào),這些“炫技”表演是邁向真正實用化階段的必要步驟,而人形機器人的終極目標,是進入家庭和工廠,解放人類生產(chǎn)力。
北京大學(xué)助理教授及銀河通用創(chuàng)始人兼CTO王鶴,以及穹徹智能聯(lián)合創(chuàng)始人、上海交通大學(xué)教授盧策吾則提出,未來的機器人比賽應(yīng)更加聚焦實際應(yīng)用場景,通過“生產(chǎn)力比賽”推動核心技能的形成與優(yōu)化。他們指出,“移動抓取與放置”是最具突破潛力的通用任務(wù),這一技能不僅普適性強,適用于多種場景,而且高度適配視覺主導(dǎo)系統(tǒng),是實現(xiàn)具身智能商業(yè)化的關(guān)鍵。
在具身智能的發(fā)展路徑上,視覺語言行動模型(VLA)逐漸成為行業(yè)共識。Physical Intelligence聯(lián)合創(chuàng)始人兼CEO Karol Hausman認為,VLA是通往通用智能的重要基石,能夠讓機器人從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學(xué)習(xí)并轉(zhuǎn)化為具體行動。然而,當前面臨的挑戰(zhàn)在于提升算法效率與模型穩(wěn)定性,尤其是提升模型在陌生環(huán)境中的泛化能力。
與此同時,在具身智能模型訓(xùn)練所需的數(shù)據(jù)方向上,不同企業(yè)和機構(gòu)也呈現(xiàn)出不同的策略路徑。Hausman主張從互聯(lián)網(wǎng)及多機器人平臺中大規(guī)模收集預(yù)訓(xùn)練數(shù)據(jù),并通過高質(zhì)量小樣本精調(diào)實現(xiàn)知識到行為的遷移。而銀河通用則更傾向于使用合成數(shù)據(jù),以低成本和可擴增性驅(qū)動基于VLA的端到端大模型。
盧策吾則提出,在VLA框架內(nèi)引入物理世界知識,尤其是力反饋等多模態(tài)信息,以壓縮模型面臨的不確定性空間。他形象地將VLA比作“火鍋底料”,只有持續(xù)加入“力覺”“觸覺”等新“食材”,才能提升模型對復(fù)雜任務(wù)的應(yīng)對能力與系統(tǒng)魯棒性。
人形機器人硬件的標準化和通用性也對具身智能算法的發(fā)展和落地產(chǎn)生顯著影響。目前,具身智能研究和產(chǎn)業(yè)落地面臨的最大痛點之一是數(shù)據(jù)瓶頸,這在一定程度上是由于機器人硬件平臺缺乏統(tǒng)一性所導(dǎo)致的。
對于未來通用機器人的形態(tài),王興興表示并不堅持一定要做人形。他認為,人形機器人目前因人類數(shù)據(jù)可用性而具備訓(xùn)練優(yōu)勢,但長遠來看,應(yīng)根據(jù)任務(wù)需求發(fā)展多樣化形態(tài)。他甚至指出,輪子底盤在實現(xiàn)移動方面也是“非常實用的”,是腿部行走之外的實際選擇。
而北京人形機器人創(chuàng)新中心總經(jīng)理熊友軍則堅定看好人形機器人的未來。他指出,從市場容量、自然交互到人類環(huán)境適配性等方面來看,人形構(gòu)型在通用性上具備長期競爭力。盡管短期內(nèi)仍面臨成本與技術(shù)門檻,但人形機器人的未來潛力巨大。