在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

具身智能集體 “開智”,春晚只是開始

作者:呂鑫燚

出品:具身研習(xí)社

春晚聚光燈照亮了具身智能一個顯性的變化。

2025年,宇樹H1的亮相尚處于技術(shù)驗證階段。彼時,其僅能完成基礎(chǔ)舞蹈動作,運動控制能力缺乏集中化展示,整機動態(tài)軌跡的流暢度不足,且在自主移動與地面適應(yīng)性上存在不足之處,表明人形機器人從實驗室技術(shù)向?qū)嵱没a(chǎn)品轉(zhuǎn)型的階段性瓶頸。

進入2026年馬年春晚,宇樹攜G1與H2兩款人形機器人重磅登場,以全球首次全自主人形機器人集群武術(shù)表演刷新行業(yè)認知。16臺機器人組成的集群實現(xiàn)了快速跑位,完成醉拳、雙截棍、舞劍等高難度武術(shù)動作,手持長棍與武術(shù)表演者精準配合,并實現(xiàn)道具的快速更換與穩(wěn)定抓持。

短短一年間,無論是運動控制還是操作軌跡絲滑度和群體協(xié)同,具身智能都展現(xiàn)了質(zhì)的飛躍。

舞臺之外,具身智能的作業(yè)智能也邁過涌現(xiàn)時刻,核心突破在于長序列任務(wù)執(zhí)行與柔性物體操控兩大技術(shù)難點的規(guī)?;涞亍S绕涫且呀?jīng)出色完成行業(yè)公認的高難度任務(wù)動作“疊衣服”。該動作涉及柔性形變感知、時序動作規(guī)劃、精細力控反饋等全鏈路挑戰(zhàn),是具身智能從結(jié)構(gòu)化場景走向非結(jié)構(gòu)化場景的關(guān)鍵壁壘。

在我們驚嘆于機器人高難度動作時,更值得穿透“炫技”表象,探究其背后的產(chǎn)業(yè)范式革命。最核心的疑問在于:機器人的能力躍升,僅僅是技術(shù)參數(shù)的堆砌嗎?

答案顯然是否定的。

無論是通過umi等方式緩解“數(shù)據(jù)饑渴”,還是借助閉環(huán)反饋填平“虛實鴻溝”,這些技術(shù)迭代都只是具身智能躍遷的“表層切面”。真正推動行業(yè)質(zhì)變的,是底層思考邏輯的根本性重構(gòu)。機器人正在告別“照貓畫虎”的模仿學(xué)習(xí)路徑,轉(zhuǎn)向“理解世界、預(yù)判未來”的模式。

用一個通俗的熱梗形容,人形機器人乃至整個具身智能領(lǐng)域,正在集體“開智”。

不過,這場“開智”革命并非單一路徑的勝利。當(dāng)下,支撐這一范式轉(zhuǎn)變的技術(shù)路線已分化為幾大核心派系,不同技術(shù)邏輯的碰撞與融合,正共同定義著具身智能的產(chǎn)業(yè)走向。

“開智”的核心錨點在于其智能基座——模型。作為控制感知、決策與執(zhí)行的“神經(jīng)中樞”,模型的架構(gòu)設(shè)計直接決定機器人理解物理世界、適配復(fù)雜任務(wù)的能力邊界,而這場關(guān)于“如何讓機器人真正開智”的產(chǎn)業(yè)競賽,正圍繞VLA架構(gòu)的演進與爭議進入深水區(qū)。

行業(yè)曾形成明確共識:人形機器人的能力突破離不開端到端VLA(Vision-Language-Action,視覺-語言-動作)架構(gòu)的核心驅(qū)動。這種通過融合視覺感知、語言理解與動作生成三大模態(tài),打破了傳統(tǒng)“感知-?規(guī)劃?-?控制”分層架構(gòu)的信息損耗難題,實現(xiàn)端到端閉環(huán)。

谷歌DeepMind、智元機器人等中外企業(yè)的技術(shù)落地,印證了其在結(jié)構(gòu)化場景中適配準確率,也逐步成為人形機器人從實驗室走向商業(yè)化的核心技術(shù)底座。

但隨著需求側(cè)向非結(jié)構(gòu)化場景、長序列復(fù)雜任務(wù)的延伸,VLA架構(gòu)的“萬金油”屬性逐漸失效。

例如,王興興就曾評價行業(yè)常見的VLA模型,屬于“傻瓜式架構(gòu)”,對這類模型持懷疑態(tài)度。此外,多個業(yè)內(nèi)人士也開始討論VLA模型究竟是具身智能的終局,還是一種階段性的過渡方案。

其實這些爭議看起來是“口水戰(zhàn)”,但其焦點最終匯聚于一個核心命題:“VLA中的?L(語言)是否必要?”這場行業(yè)思辨的蔓延,本質(zhì)是對具身智能底層邏輯的重新審視。

此前業(yè)內(nèi)過度關(guān)注語言的必要性,是從LLM中吸取的成功經(jīng)驗,但具身智能需要和物理世界進行真正的交互,而這種交互的骨架是否依舊為語言,目前尚不得知。李飛飛在a16z播客訪談中曾提到,“語言從根本上來說是一種純粹生成的信號,世界上本沒有語言”

星海圖CTO?趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動作”為核心,而非語言。他解釋道,人類智能的進化是“先有動作、再有視覺、最后有語言”,機器人要適應(yīng)物理世界,也應(yīng)該遵循類似邏輯。

這場架構(gòu)之爭的本質(zhì),無關(guān)單一技術(shù)路線的優(yōu)劣,而指向一個更根本的產(chǎn)業(yè)命題:機器人到底該以何種方式理解世界?是通過人類語言這一“間接符號”,還是通過動作與環(huán)境的 “直接交互”構(gòu)建認知?或者是以世界模型為核心,讓機器人在自己世界里“腦補”動作流,進而更絲滑的在真實世界執(zhí)行?

業(yè)內(nèi)逐漸形成的共識是,具身智能的終局架構(gòu),必然是對物理世界認知邏輯的精準抽象。它可能保留VLA架構(gòu)的跨模態(tài)融合優(yōu)勢,也可能剝離冗余的語言中介,但其核心必須適配機器人作為物理實體的交互本質(zhì),實現(xiàn)“感知-決策-執(zhí)行”與物理世界規(guī)律的深度對齊。

由此可見,當(dāng)業(yè)內(nèi)在尋找下一個模型架構(gòu)時,模型的打開方式成為重中之重。即我們該如何知道機器人究竟需要什么樣的模型架構(gòu)?

答案早已藏在機器人落地的底層邏輯中:那些真正轉(zhuǎn)化為生產(chǎn)力的人形機器人,無不是聽懂了場景訴求、從真實交互中生長而來;模型架構(gòu)的進化,同樣需要回歸機器人與世界對話的原生方式。

說白了,機器人到底該如何理解世界,這個事機器人自己已經(jīng)給出答案了。

機器人在真實工作場景中,無論是疊衣服還是擰螺絲,其本質(zhì)都是要具備“長時序記憶與實時反饋能力”“動態(tài)場景的隨機應(yīng)變能力”。這兩大能力的核心,絕非簡單的“記住過往數(shù)據(jù)”,而是“預(yù)判未來狀態(tài)”。

舉個例子,人類執(zhí)行疊衣服、裝配零件等任務(wù)時,不會逐幀依賴視覺反饋,而是會基于物理常識預(yù)判下一步動作的結(jié)果:疊襯衫時提前預(yù)判布料的褶皺走向,擰螺絲時預(yù)判扭矩達到閾值后的狀態(tài)。機器人要實現(xiàn)同樣的“絲滑操作”,關(guān)鍵便在于將“記憶”升級為“預(yù)測”,通過模型推演未來多幀的場景變化與動作后果。

這些重點不在于“記住”而是“預(yù)測”。

誰能捏準這個邏輯,誰才是真正把機器人模型架構(gòu)這個事玩明白了。螞蟻靈波開源的具身世界模型LingBot-VA,就是將“先預(yù)測、再動作”?的架構(gòu)邏輯推向極致。

該模型創(chuàng)新性地提出自回歸視頻-動作世界建模框架,核心突破在于將“預(yù)測世界狀態(tài)”?與?“生成動作序列”?深度綁定,實現(xiàn)了“邊預(yù)測,邊動作”。簡單來說就是,該模型不再是機械地執(zhí)行預(yù)設(shè)指令,而是在每一步操作時,大腦都在實時推演接下來的畫面。

想象一下你在干精細活之前,是不是腦海里已經(jīng)知道每一個步驟該怎么做,也知道這個動作完事后物體會有什么樣的變化。

LingBot-VA不止和人類思維模式相同。其工作中的特性,也和人類高度重合。能記住自己剛剛干了什么,還能真正擁有泛化,和人類一樣學(xué)會了洗盤子,就會洗碗,做到舉一反三。就連清洗細小的透明試管的高精度任務(wù),LingBot-VA加持下機器人已經(jīng)是可以輕松拿捏。

英偉達的DreamGen,也是同樣的路子,先生成視頻,再反推動作。它把基礎(chǔ)模型架構(gòu)分為上下兩個部分,上半部分是一個視頻模型,負責(zé)預(yù)測未來;下半部分負責(zé)看著預(yù)測出來的視頻,反推并輸出動作。

插個題外話,英偉達DreamGen推出時,有業(yè)內(nèi)人士曾評價這是一條被寄予厚望的技術(shù)路線。不過從當(dāng)下的視角來看,其也沒有跑通閉環(huán)。

問題出在哪?現(xiàn)實世界是充滿變量的,一旦機器人在執(zhí)行中出現(xiàn)微小的物理偏差(比如手滑了一下),由于視頻是提前生成好的,模型無法實時修正畫面,機器人只能硬著頭皮按原計劃走,導(dǎo)致“腦子想的和手做的”徹底脫節(jié)。

不過,這并不代表DreamGen是一次失敗的嘗試。相反,它的出現(xiàn)從產(chǎn)業(yè)層面印證了一個關(guān)鍵判斷:世界模型是機器人在真實物理世界作業(yè)的核心支撐,只是在當(dāng)時尚未抵達產(chǎn)業(yè)臨界點。而LingBot-VA的問世,才真正補齊了最后一塊短板,成為具身世界模型完整閉環(huán)跑通的標(biāo)志性拐點。

歸根結(jié)底,“用機器人的視角打開世界”,本質(zhì)是讓模型架構(gòu)回歸物理世界的本質(zhì)規(guī)律,機器人不需要像人類一樣通過語言理解“重力”“摩擦力”,但需要通過預(yù)測能力感知這些物理規(guī)則;不需要記住每一個場景的操作參數(shù),但需要能推演不同場景下的動作后果。

這種以“預(yù)測”為核心的架構(gòu)邏輯,恰好契合了機器人與物理世界交互的原生需求:擺脫對人類認知中介(語言)的依賴,直接通過“預(yù)測-行動”的閉環(huán),建立與世界的直接連接。

而這,正是具身智能走向“適配世界”的重要跨越。

從現(xiàn)在的視角來看,我們該思考的并不囿于LingBot-VA架構(gòu),而是這條架構(gòu)跑通后,具身智能將迎來什么樣的革新。

一個清晰的變化是,具身世界模型有望成為具身智能關(guān)鍵能力,也是具身智能的重要基座。

支撐這一轉(zhuǎn)變的是其融合了“世界模型”與 “物理動作反饋閉環(huán)”。這并非簡單的技術(shù)疊加,而是深度融合。世界模型為機器人搭建起可預(yù)判、可推演的虛擬世界,提前模擬動作后果與環(huán)境變化;物理動作反饋則將現(xiàn)實交互中的數(shù)據(jù)實時回灌模型,持續(xù)校準虛擬與現(xiàn)實的偏差,形成自進化閉環(huán)。

它不僅從根源上重構(gòu)了機器人理解物理世界的底層邏輯,讓機器人擺脫對人工指令、標(biāo)注數(shù)據(jù)與固定軌跡的依賴,更成為破解非結(jié)構(gòu)化場景適配難、長時序任務(wù)穩(wěn)定性差、柔性操作精度不足等行業(yè)落地瓶頸的核心能力支柱。

站在產(chǎn)業(yè)視角審視,我們不應(yīng)該否認VLA的貢獻,也不能盲目推崇VA的未來。而是站在機器人的視角來看世界,聽機器人自己說需要什么樣的模型架構(gòu)。

這場模型架構(gòu)變革,是產(chǎn)業(yè)更清醒的信號之一,也是具身智能走向規(guī)?;逃玫年P(guān)鍵一躍。模型架構(gòu)的底層突破,直接決定了機器人的泛化能力、作業(yè)精度與落地成本,將推動行業(yè)從舞臺化的技術(shù)展示,走向工業(yè)、家政、特種作業(yè)等真實場景的生產(chǎn)力釋放;也將為整機研發(fā)、場景方案、商業(yè)化落地劃定清晰的技術(shù)主線。

特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表DoNews專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)

標(biāo)簽: AI 人工智能 具身智能
具身智能集體 “開智”,春晚只是開始
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2026 All Rights Reserved
蜀ICP備2024059877號-1