在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

靈初智能發(fā)布首個基于強化學習的端到端具身模型 Psi R0

靈初智能近日發(fā)布了其首個基于強化學習(RL)的端到端具身模型 Psi R0。該模型通過雙靈巧手協(xié)同操作,能夠完成復雜的長程任務(wù),并具備跨物品、跨場景的泛化能力。

Psi R0 在電商場景中表現(xiàn)尤為突出。以商品打包為例,這一任務(wù)涉及抓取、掃碼、放置、塑料袋打結(jié)等多個操作步驟。Psi R0 能夠流暢地完成這一系列動作,官方表示,該模型在客戶現(xiàn)場可以取代一個完整工位。

該模型通過海量仿真數(shù)據(jù)訓練出雙手操作的智能體,并采用雙向訓練框架串聯(lián)多技能,率先在開放環(huán)境中完成長程任務(wù)。其技能訓練框架從物體時空軌跡中抽象出關(guān)鍵信息,構(gòu)建通用目標函數(shù),解決了獎勵函數(shù)難設(shè)計的問題。

在后訓練階段,Psi R0 通過少量高質(zhì)量真機數(shù)據(jù)對齊,進一步提升長程任務(wù)的成功率。雙向訓練框架中的轉(zhuǎn)移可行性函數(shù)則微調(diào)技能,提高串聯(lián)的成功率與泛化性,使模型在遭遇操作失敗時能夠迅速調(diào)整策略,確保高成功率。

最新文章
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號-1