DoNews1月28日消息,螞蟻集團(tuán)旗下具身智能公司 —— 螞蟻靈波科技今日宣布全面開(kāi)源 LingBot-VLA 具身大模型及后訓(xùn)練代碼。目前,LingBot-VLA 已與星海圖、松靈、樂(lè)聚等機(jī)器人廠商完成適配,驗(yàn)證了模型在不同構(gòu)型機(jī)器人上的跨本體遷移能力。

與此同時(shí),螞蟻靈波科技構(gòu)建了一套后訓(xùn)練工具鏈,在 8 卡 GPU 配置下實(shí)現(xiàn)了單卡每秒 261 個(gè)樣本的吞吐量,其訓(xùn)練效率達(dá)到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,實(shí)現(xiàn)了數(shù)據(jù)與算力成本的雙重降低。

基于在海量真實(shí)世界數(shù)據(jù)上的預(yù)訓(xùn)練,螞蟻靈波科技第一次系統(tǒng)研究了 VLA 模型在真實(shí)機(jī)器人任務(wù)性能上隨著數(shù)據(jù)規(guī)模增長(zhǎng)時(shí)的 Scaling Law。

項(xiàng)目發(fā)現(xiàn)隨著預(yù)訓(xùn)練數(shù)據(jù)規(guī)模從 3,000 小時(shí)擴(kuò)展到 6,000、13,000、18,000,最終至 20,000 小時(shí),模型在下游任務(wù)的成功率獲得持續(xù)且顯著的提升。

值得注意的是,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)到 20,000 小時(shí)時(shí),模型性能仍呈現(xiàn)上升趨勢(shì),表明 VLA 的性能仍然能夠隨著數(shù)據(jù)量的增加而提升。

依此研究結(jié)果,螞蟻靈波科技構(gòu)造了 20,000 小時(shí)的真實(shí)機(jī)器人訓(xùn)練數(shù)據(jù),涵蓋了 9 種主流的雙臂機(jī)器人構(gòu)型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1 等)。

在上海交通大學(xué)開(kāi)源的具身評(píng)測(cè)基準(zhǔn) GM-100(包含 100 項(xiàng)真實(shí)操作任務(wù))測(cè)試中,LingBot-VLA 在 3 個(gè)不同的真實(shí)機(jī)器人平臺(tái)上,跨本體泛化平均成功率相較于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空間感知能力增強(qiáng),平均成功率進(jìn)一步攀升至 17.3%。

此外,螞蟻靈波科技 1 月 27 日開(kāi)源了 LingBot-Depth 空間感知模型。LingBot-Depth 是一種面向真實(shí)場(chǎng)景的深度補(bǔ)全模型,依托奧比中光 Gemini 330 系列雙目 3D 相機(jī)進(jìn)行 RGB-Depth 數(shù)據(jù)采集與效果驗(yàn)證,并基于深度引擎芯片直出的深度數(shù)據(jù)進(jìn)行訓(xùn)練與優(yōu)化,旨在將不完整且受噪聲干擾的深度傳感器數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量、具備真實(shí)尺度的三維測(cè)量結(jié)果,提升環(huán)境深度感知與三維空間理解能力,為機(jī)器人、自動(dòng)駕駛汽車(chē)等智能終端賦予更精準(zhǔn)、更可靠的三維視覺(jué)。
實(shí)驗(yàn)結(jié)果表明,LingBot-Depth 模型在深度精度與像素覆蓋率兩項(xiàng)核心指標(biāo)上均超越業(yè)界頂級(jí)工業(yè)級(jí)深度相機(jī)。在 NYUv2、ETH3D 等多個(gè)基準(zhǔn)測(cè)試中,LingBot-Depth 在深度補(bǔ)全、單目深度估計(jì)及雙目匹配任務(wù)上均達(dá)到當(dāng)前最優(yōu)水平,并在無(wú)需顯式時(shí)序建模的情況下保持視頻級(jí)時(shí)間一致性。
LingBot-Depth 模型也已通過(guò)奧比中光深度視覺(jué)實(shí)驗(yàn)室的專(zhuān)業(yè)認(rèn)證,在精度、穩(wěn)定性及復(fù)雜場(chǎng)景適應(yīng)性方面均達(dá)到行業(yè)領(lǐng)先水平。