五月综合丁香91,911久久久久久久,喷水av在线黄色片高清无码

DoNews > 專欄 > 具身智能集體 “開智”，春晚只是開始

具身智能集體 “開智”，春晚只是開始

具身研習(xí)社 2026-02-20 14:09:59

412998

分享到

作者：呂鑫燚

出品：具身研習(xí)社

春晚聚光燈照亮了具身智能一個顯性的變化。

2025年，宇樹H1的亮相尚處于技術(shù)驗證階段。彼時，其僅能完成基礎(chǔ)舞蹈動作，運動控制能力缺乏集中化展示，整機動態(tài)軌跡的流暢度不足，且在自主移動與地面適應(yīng)性上存在不足之處，表明人形機器人從實驗室技術(shù)向?qū)嵱没a(chǎn)品轉(zhuǎn)型的階段性瓶頸。

進入2026年馬年春晚，宇樹攜G1與H2兩款人形機器人重磅登場，以全球首次全自主人形機器人集群武術(shù)表演刷新行業(yè)認知。16臺機器人組成的集群實現(xiàn)了快速跑位，完成醉拳、雙截棍、舞劍等高難度武術(shù)動作，手持長棍與武術(shù)表演者精準配合，并實現(xiàn)道具的快速更換與穩(wěn)定抓持。

短短一年間，無論是運動控制還是操作軌跡絲滑度和群體協(xié)同，具身智能都展現(xiàn)了質(zhì)的飛躍。

舞臺之外，具身智能的作業(yè)智能也邁過涌現(xiàn)時刻，核心突破在于長序列任務(wù)執(zhí)行與柔性物體操控兩大技術(shù)難點的規(guī)?；涞亍Ｓ绕涫且呀?jīng)出色完成行業(yè)公認的高難度任務(wù)動作“疊衣服”。該動作涉及柔性形變感知、時序動作規(guī)劃、精細力控反饋等全鏈路挑戰(zhàn)，是具身智能從結(jié)構(gòu)化場景走向非結(jié)構(gòu)化場景的關(guān)鍵壁壘。

在我們驚嘆于機器人高難度動作時，更值得穿透“炫技”表象，探究其背后的產(chǎn)業(yè)范式革命。最核心的疑問在于：機器人的能力躍升，僅僅是技術(shù)參數(shù)的堆砌嗎？

答案顯然是否定的。

無論是通過umi等方式緩解“數(shù)據(jù)饑渴”，還是借助閉環(huán)反饋填平“虛實鴻溝”，這些技術(shù)迭代都只是具身智能躍遷的“表層切面”。真正推動行業(yè)質(zhì)變的，是底層思考邏輯的根本性重構(gòu)。機器人正在告別“照貓畫虎”的模仿學(xué)習(xí)路徑，轉(zhuǎn)向“理解世界、預(yù)判未來”的模式。

用一個通俗的熱梗形容，人形機器人乃至整個具身智能領(lǐng)域，正在集體“開智”。

不過，這場“開智”革命并非單一路徑的勝利。當(dāng)下，支撐這一范式轉(zhuǎn)變的技術(shù)路線已分化為幾大核心派系，不同技術(shù)邏輯的碰撞與融合，正共同定義著具身智能的產(chǎn)業(yè)走向。

“開智”的核心錨點在于其智能基座——模型。作為控制感知、決策與執(zhí)行的“神經(jīng)中樞”，模型的架構(gòu)設(shè)計直接決定機器人理解物理世界、適配復(fù)雜任務(wù)的能力邊界，而這場關(guān)于“如何讓機器人真正開智”的產(chǎn)業(yè)競賽，正圍繞VLA架構(gòu)的演進與爭議進入深水區(qū)。

行業(yè)曾形成明確共識：人形機器人的能力突破離不開端到端VLA（Vision-Language-Action，視覺-語言-動作）架構(gòu)的核心驅(qū)動。這種通過融合視覺感知、語言理解與動作生成三大模態(tài)，打破了傳統(tǒng)“感知-?規(guī)劃?-?控制”分層架構(gòu)的信息損耗難題，實現(xiàn)端到端閉環(huán)。

谷歌DeepMind、智元機器人等中外企業(yè)的技術(shù)落地，印證了其在結(jié)構(gòu)化場景中適配準確率，也逐步成為人形機器人從實驗室走向商業(yè)化的核心技術(shù)底座。

但隨著需求側(cè)向非結(jié)構(gòu)化場景、長序列復(fù)雜任務(wù)的延伸，VLA架構(gòu)的“萬金油”屬性逐漸失效。

例如，王興興就曾評價行業(yè)常見的VLA模型，屬于“傻瓜式架構(gòu)”，對這類模型持懷疑態(tài)度。此外，多個業(yè)內(nèi)人士也開始討論VLA模型究竟是具身智能的終局，還是一種階段性的過渡方案。

其實這些爭議看起來是“口水戰(zhàn)”，但其焦點最終匯聚于一個核心命題：“VLA中的?L（語言）是否必要？”這場行業(yè)思辨的蔓延，本質(zhì)是對具身智能底層邏輯的重新審視。

此前業(yè)內(nèi)過度關(guān)注語言的必要性，是從LLM中吸取的成功經(jīng)驗，但具身智能需要和物理世界進行真正的交互，而這種交互的骨架是否依舊為語言，目前尚不得知。李飛飛在a16z播客訪談中曾提到，“語言從根本上來說是一種純粹生成的信號，世界上本沒有語言”

星海圖CTO?趙行表示，具身智能需要平行于大語言模型的“Large Action Model”，這類模型要以“動作”為核心，而非語言。他解釋道，人類智能的進化是“先有動作、再有視覺、最后有語言”，機器人要適應(yīng)物理世界，也應(yīng)該遵循類似邏輯。

這場架構(gòu)之爭的本質(zhì)，無關(guān)單一技術(shù)路線的優(yōu)劣，而指向一個更根本的產(chǎn)業(yè)命題：機器人到底該以何種方式理解世界？是通過人類語言這一“間接符號”，還是通過動作與環(huán)境的 “直接交互”構(gòu)建認知？或者是以世界模型為核心，讓機器人在自己世界里“腦補”動作流，進而更絲滑的在真實世界執(zhí)行？

業(yè)內(nèi)逐漸形成的共識是，具身智能的終局架構(gòu)，必然是對物理世界認知邏輯的精準抽象。它可能保留VLA架構(gòu)的跨模態(tài)融合優(yōu)勢，也可能剝離冗余的語言中介，但其核心必須適配機器人作為物理實體的交互本質(zhì)，實現(xiàn)“感知-決策-執(zhí)行”與物理世界規(guī)律的深度對齊。

由此可見，當(dāng)業(yè)內(nèi)在尋找下一個模型架構(gòu)時，模型的打開方式成為重中之重。即我們該如何知道機器人究竟需要什么樣的模型架構(gòu)？

答案早已藏在機器人落地的底層邏輯中：那些真正轉(zhuǎn)化為生產(chǎn)力的人形機器人，無不是聽懂了場景訴求、從真實交互中生長而來；模型架構(gòu)的進化，同樣需要回歸機器人與世界對話的原生方式。

說白了，機器人到底該如何理解世界，這個事機器人自己已經(jīng)給出答案了。

機器人在真實工作場景中，無論是疊衣服還是擰螺絲，其本質(zhì)都是要具備“長時序記憶與實時反饋能力”“動態(tài)場景的隨機應(yīng)變能力”。這兩大能力的核心，絕非簡單的“記住過往數(shù)據(jù)”，而是“預(yù)判未來狀態(tài)”。

舉個例子，人類執(zhí)行疊衣服、裝配零件等任務(wù)時，不會逐幀依賴視覺反饋，而是會基于物理常識預(yù)判下一步動作的結(jié)果：疊襯衫時提前預(yù)判布料的褶皺走向，擰螺絲時預(yù)判扭矩達到閾值后的狀態(tài)。機器人要實現(xiàn)同樣的“絲滑操作”，關(guān)鍵便在于將“記憶”升級為“預(yù)測”，通過模型推演未來多幀的場景變化與動作后果。

這些重點不在于“記住”而是“預(yù)測”。

誰能捏準這個邏輯，誰才是真正把機器人模型架構(gòu)這個事玩明白了。螞蟻靈波開源的具身世界模型LingBot-VA，就是將“先預(yù)測、再動作”?的架構(gòu)邏輯推向極致。

該模型創(chuàng)新性地提出自回歸視頻-動作世界建模框架，核心突破在于將“預(yù)測世界狀態(tài)”?與?“生成動作序列”?深度綁定，實現(xiàn)了“邊預(yù)測，邊動作”。簡單來說就是，該模型不再是機械地執(zhí)行預(yù)設(shè)指令，而是在每一步操作時，大腦都在實時推演接下來的畫面。

想象一下你在干精細活之前，是不是腦海里已經(jīng)知道每一個步驟該怎么做，也知道這個動作完事后物體會有什么樣的變化。

LingBot-VA不止和人類思維模式相同。其工作中的特性，也和人類高度重合。能記住自己剛剛干了什么，還能真正擁有泛化，和人類一樣學(xué)會了洗盤子，就會洗碗，做到舉一反三。就連清洗細小的透明試管的高精度任務(wù)，LingBot-VA加持下機器人已經(jīng)是可以輕松拿捏。

英偉達的DreamGen，也是同樣的路子，先生成視頻，再反推動作。它把基礎(chǔ)模型架構(gòu)分為上下兩個部分，上半部分是一個視頻模型，負責(zé)預(yù)測未來；下半部分負責(zé)看著預(yù)測出來的視頻，反推并輸出動作。

插個題外話，英偉達DreamGen推出時，有業(yè)內(nèi)人士曾評價這是一條被寄予厚望的技術(shù)路線。不過從當(dāng)下的視角來看，其也沒有跑通閉環(huán)。

問題出在哪？現(xiàn)實世界是充滿變量的，一旦機器人在執(zhí)行中出現(xiàn)微小的物理偏差（比如手滑了一下），由于視頻是提前生成好的，模型無法實時修正畫面，機器人只能硬著頭皮按原計劃走，導(dǎo)致“腦子想的和手做的”徹底脫節(jié)。

不過，這并不代表DreamGen是一次失敗的嘗試。相反，它的出現(xiàn)從產(chǎn)業(yè)層面印證了一個關(guān)鍵判斷：世界模型是機器人在真實物理世界作業(yè)的核心支撐，只是在當(dāng)時尚未抵達產(chǎn)業(yè)臨界點。而LingBot-VA的問世，才真正補齊了最后一塊短板，成為具身世界模型完整閉環(huán)跑通的標(biāo)志性拐點。

歸根結(jié)底，“用機器人的視角打開世界”，本質(zhì)是讓模型架構(gòu)回歸物理世界的本質(zhì)規(guī)律，機器人不需要像人類一樣通過語言理解“重力”“摩擦力”，但需要通過預(yù)測能力感知這些物理規(guī)則；不需要記住每一個場景的操作參數(shù)，但需要能推演不同場景下的動作后果。

這種以“預(yù)測”為核心的架構(gòu)邏輯，恰好契合了機器人與物理世界交互的原生需求：擺脫對人類認知中介（語言）的依賴，直接通過“預(yù)測-行動”的閉環(huán)，建立與世界的直接連接。

而這，正是具身智能走向“適配世界”的重要跨越。

從現(xiàn)在的視角來看，我們該思考的并不囿于LingBot-VA架構(gòu)，而是這條架構(gòu)跑通后，具身智能將迎來什么樣的革新。

一個清晰的變化是，具身世界模型有望成為具身智能關(guān)鍵能力，也是具身智能的重要基座。

支撐這一轉(zhuǎn)變的是其融合了“世界模型”與 “物理動作反饋閉環(huán)”。這并非簡單的技術(shù)疊加，而是深度融合。世界模型為機器人搭建起可預(yù)判、可推演的虛擬世界，提前模擬動作后果與環(huán)境變化；物理動作反饋則將現(xiàn)實交互中的數(shù)據(jù)實時回灌模型，持續(xù)校準虛擬與現(xiàn)實的偏差，形成自進化閉環(huán)。

它不僅從根源上重構(gòu)了機器人理解物理世界的底層邏輯，讓機器人擺脫對人工指令、標(biāo)注數(shù)據(jù)與固定軌跡的依賴，更成為破解非結(jié)構(gòu)化場景適配難、長時序任務(wù)穩(wěn)定性差、柔性操作精度不足等行業(yè)落地瓶頸的核心能力支柱。

站在產(chǎn)業(yè)視角審視，我們不應(yīng)該否認VLA的貢獻，也不能盲目推崇VA的未來。而是站在機器人的視角來看世界，聽機器人自己說需要什么樣的模型架構(gòu)。

這場模型架構(gòu)變革，是產(chǎn)業(yè)更清醒的信號之一，也是具身智能走向規(guī)?；逃玫年P(guān)鍵一躍。模型架構(gòu)的底層突破，直接決定了機器人的泛化能力、作業(yè)精度與落地成本，將推動行業(yè)從舞臺化的技術(shù)展示，走向工業(yè)、家政、特種作業(yè)等真實場景的生產(chǎn)力釋放；也將為整機研發(fā)、場景方案、商業(yè)化落地劃定清晰的技術(shù)主線。

特別聲明：本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點，不代表DoNews專欄的立場，轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)