
撰文 | 李信馬
題圖 | AI生圖
十年前上映的《超能查派》,是少見的用“機器人”當(dāng)主角的電影,還找來“金剛狼”休·杰克曼飾演大反派。
電影中的查派,是世界上第一個自我覺醒的機器人,也是筆者心目中最“痞帥”的機器人,飛天遁地的同時不耽誤耍帥搞笑。值得一提的是,在覺醒前,它的工作是機器人警察,不幸在戰(zhàn)斗中報銷才被意外改造。
也就是說,在電影的背景設(shè)定中,機器人已經(jīng)走出實驗室,融入了人類社會,在工作崗位上發(fā)光發(fā)熱。

2025年,機器人堪稱年度熱詞,各種形制和型號的機器人層出不窮,機器人馬拉松、足球賽和拳擊比賽,也吸引了不少人的關(guān)注。但熱鬧歸熱鬧,這些機器人基本還是被限制在有限的空間范圍內(nèi),做著特定的任務(wù)。
距離機器人無限制地融入真實的人類世界,似乎只差“臨門一腳”,但這“臨門一腳”,可能遠(yuǎn)比我們想的更艱難。
01、什么是“真實世界”?
電影《楚門的世界》中,主角楚門就生活在一個“虛假”的世界里,他的前半生所處的環(huán)境,都是為他量身定制的。
在筆者看來,需要特意圈定一個范圍,或者設(shè)計布置一個環(huán)境,對機器人來說,就不能算真實的人類世界。機器人要走入真實的人類世界,就應(yīng)該像電影中的楚門那樣,打開實驗室的門走出去,去迎接并適應(yīng)充滿未知和不確定性的環(huán)境。
不久前,在香港舉辦了一場別開生面的機器人競賽,就直面了這個問題。由香港中文大學(xué)主辦,ATEC前沿科技探索社區(qū)承辦的第五屆ATEC科技精英賽(線下賽)·真實世界極限挑戰(zhàn)賽,把比賽的賽場放到了大學(xué)的戶外環(huán)境里,要求機器人完成吊橋穿越、定向越野、自主澆花、垃圾分揀等任務(wù)。
“我們這次比賽跟以前的機器人比賽都不一樣,以前機器人基本上在室內(nèi)比較多,而且我們強調(diào)操作和移動結(jié)合起來?!辟愂侣?lián)席主席、香港工程院院士劉云輝教授認(rèn)為,機器人要想在真實世界中立足,要具備行走、操作、改造環(huán)境三項核心能力,這也是這次競賽設(shè)計的初衷。
筆者受邀在現(xiàn)場觀看了比賽的進(jìn)程,直觀的感受,用最近一首抖音熱歌來唱就是:
“本來應(yīng)該從從容容游刃有余,
現(xiàn)在是匆匆忙忙連滾帶爬……”
現(xiàn)場參加比賽的機器人基本分為三類形制:機器狗、人形機器人和雙足機器人。在自主澆花、垃圾分揀的比賽中,機器人一個個像得了帕金森病,機械臂顫顫巍巍的,屢屢抓空,十幾二十次才抓到都算好成績。

吊橋穿越要經(jīng)過三種不同間距的橋面段,看似不長的一段距離,“哐當(dāng)”成了機器人選手們的主旋律。重心低的機器狗還好,人形機器人摔一下看著就肉疼,還有的雙足機器人另辟蹊徑,在腳底捆上了加長的木板,讓人直夸“小機靈鬼”。

至于定向越野,這么說吧,“十步摔一跤”是一個相對客觀的描述。

這些比賽項目的選定,其實好理解,畢竟人最擅長的動作就是行走和抓取,但是為什么機器人選手們表現(xiàn)得這么笨拙,和我們平時短視頻里看到的不一樣?
因為朋友啊,這才是“真實”。我們?nèi)粘?吹降暮芏鄼C器人視頻,前有工程師的反復(fù)訓(xùn)練和穩(wěn)定的環(huán)境,后有專門的拍攝和剪輯,看到的效果自然很智能。
實際上,即使近兩年多模態(tài)大模型發(fā)展迅速,但由于觸覺等物理屬性的缺失,機器人的感知能力仍停留在初級階段,遠(yuǎn)未達(dá)到“透徹理解”的程度,舉個例子,在3D場景理解任務(wù)中,當(dāng)下最先進(jìn)模型的準(zhǔn)確率僅為55%-60%,遠(yuǎn)低于人類的90.06%。
而真實世界的環(huán)境不僅復(fù)雜還是動態(tài)的,機器人不僅要響應(yīng)指令,還要具備在不確定條件下進(jìn)行實時推理與決策的能力——目前算法的泛化能力還遠(yuǎn)達(dá)不到這一水平。
劉云輝教授在現(xiàn)場中還提到了讓他有些失望的一點,參加定向越野比賽的機器人都采用的傳統(tǒng)的建圖方案,而沒有他想看到的完全通過視覺引導(dǎo)的方案。如果真的是在野外穿越,要走十幾公里,是不可能建圖的,某種意義上也算有點違背比賽的初衷而“畫地為牢”了,也反映了當(dāng)下的機器人距離真實世界,還有不小的距離。
02、關(guān)于未來的比賽,“狗”贏了……
比賽的最后,來自浙江大學(xué)的Wongtsai團(tuán)隊成功摘得15萬美元大獎。下圖中的機器狗,就是他們派出參賽的機器人,值得一提的是,Wongtsai其實是“旺財”的音譯,可以說,是貨真價實的“機器狗”了。

人形機器人比不過機器狗,這可真是個讓人有些失望的事實。但長久以來,在“出圈”這件事情上,機器狗一直走在人形機器人的前面。比如,波士頓動力的BigDog,可以說是機器人領(lǐng)域的“上古真神”,以一系列靈活到離譜的視頻刷新了業(yè)界的三觀;當(dāng)下中國頂級的機器人公司宇樹科技,早期的知名產(chǎn)品萊卡狗,也在不少科技競賽中大放異彩。
原因可能很簡單——做“人”太復(fù)雜了,要考慮的事情太多,而做“狗”就簡單多了。想一下,體型更大,有靈活的雙手的你,上得廳堂下得廚房,還是從辦公室到工地都能干的牛馬,而你的寵物狗,能聽從指令跑跑跳跳,最多干點巡邏和叼東西的任務(wù),就已經(jīng)是優(yōu)秀的“狗才”了。
不過,這次Wongtsai團(tuán)隊能獲得冠軍,最重要的原因是評分規(guī)則明確鼓勵“無遙操”(無人工遙控操作),機器人需要獨立完成從感知、分析到?jīng)Q策、執(zhí)行的全鏈路閉環(huán),這對機器人的感知魯棒性、決策智能性和系統(tǒng)穩(wěn)定性提出了極高要求,而Wongtsai團(tuán)隊在機器人全自主智能方面表現(xiàn)卓越。
Wongtsai隊長朱承睿表示,具身智能是大系統(tǒng)下有小系統(tǒng),每個小系統(tǒng)都沒有問題,大系統(tǒng)才能沒有問題。但如果每個小系統(tǒng)的完成度只有90%,那么由一堆小系統(tǒng)組成的大系統(tǒng)可能就無法運作,當(dāng)任務(wù)完全交給機器人自主完成時,就會變得非常復(fù)雜。
“打開水壺,給花澆水,這對于人類而言是輕而易舉的事情。但對于機器人,它需要首先識別:我在哪里,我需要做什么,什么是壺把手、什么是壺嘴,什么是花,我要如何靠近水壺,在這個過程中如何避免碰撞,機械臂需要到達(dá)怎樣的位置才能抓起水壺,需要用多大的力度……”
當(dāng)下對機器人技術(shù)路線的探索,主流上大致包括:
· 以大模型為核心的“大腦優(yōu)先”路徑
· 以運動控制為核心的“小腦優(yōu)先”路徑
· “軟硬一體”協(xié)同路徑
但發(fā)展水平嘛,以人類的標(biāo)準(zhǔn)來看是都不太行。
“你讓大模型去理解一幅圖像、一段文字,它可以做到。但要它理解如何抓起一個物品,它是完全做不到的,它不具備這種能力?!敝斐蓄Uf。
在機器人有限的體積與功耗約束下,部署大模型所需的高性能專用芯片仍不成熟,也制約了“大腦”的實時處理能力?!靶∧X”通過小模型去控制硬件,但目前機器人硬件在靈巧度、力控精度與成本之間難以平衡,技術(shù)和成本門檻極高,機器人的“小腦”與“四肢”,也不能完美承載“大腦”的智能構(gòu)想。
開個玩笑,以“狗”的標(biāo)準(zhǔn)來看,“機器狗”和真實世界的距離的確要近多了。
此前,在《機器人非得“像人”嗎?人類最需要看清自己》中,我們曾給出疑問:為什么要執(zhí)著于讓機器模仿人類?有從業(yè)者的看法是:“因為這個社會是按照人類的需求建造的,長得像人自然可以適配人類通用數(shù)據(jù),代替人類干活。把機器人做成人形,那么它天生就可以調(diào)用現(xiàn)有的設(shè)施?!?/p>
當(dāng)然,這個問題至今也沒有答案,非人形的機器人也可能有很多的用途,只是人形機器人,的確是更容易滿足人類對“智能體”的幻想。
什么時候,機器人真的能走入真實的人類社會呢?劉云輝教授認(rèn)為,快的話也要5年,還有很長的路要走。而朱承睿估計,要20年后,機器人才真的可以走進(jìn)人類的生活,為人類提供服務(wù)。
在邁向真實世界的路上,也許“機器狗”走得更快,但“機器人”會走得更遠(yuǎn)。