2024/12/30 15:03

靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)的端到端具身模型Psi R0，雙靈巧手協(xié)同進(jìn)行復(fù)雜操作

IT之家沛霖（實(shí)習(xí)）

靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)（RL）的端到端具身模型 Psi R0。

據(jù)悉，該模型支持雙靈巧手協(xié)同進(jìn)行復(fù)雜操作，將多個(gè)技能串聯(lián)混訓(xùn)，生成具有推理能力的智能體，從而完成并閉環(huán)長(zhǎng)程靈巧操作任務(wù)。并且，Psi R0 還可以實(shí)現(xiàn)跨物品、跨場(chǎng)景級(jí)別的泛化。

以電商場(chǎng)景為例，商品打包是典型的長(zhǎng)程任務(wù)作業(yè)，需對(duì)上萬件商品進(jìn)行抓取，掃碼，放置，塑料袋打結(jié)等多個(gè)操作。Psi R0 能夠使用雙靈巧手流暢地完成這一系列動(dòng)作（官方稱此系列動(dòng)作在客戶現(xiàn)場(chǎng)可以取代一個(gè)完整工位），成為首個(gè)基于強(qiáng)化學(xué)習(xí)訓(xùn)練完成長(zhǎng)程靈巧操作任務(wù)的具身機(jī)器人。

官方表示，基于 RL 的 Psi R0 模型，使用海量仿真數(shù)據(jù)訓(xùn)練出雙手操作的智能體，并通過雙向訓(xùn)練框架串聯(lián)多技能，在業(yè)界率先完成開放環(huán)境中的長(zhǎng)程任務(wù)，具備較強(qiáng)的泛化能力與較高的魯棒性（robustness）。

這一技能訓(xùn)練框架從物體時(shí)空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù)，從而解決獎(jiǎng)勵(lì)函數(shù)難設(shè)計(jì)的問題。在后訓(xùn)練階段，通過少量高質(zhì)量真機(jī)數(shù)據(jù)對(duì)齊，進(jìn)一步提升長(zhǎng)程任務(wù)的成功率。

除此之外，雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用，它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性，同時(shí)賦予模型自主切換技能的能力，使其在遭遇操作失敗時(shí)能夠迅速調(diào)整策略，確保高成功率。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)的端到端具身模型Psi R0，雙靈巧手協(xié)同進(jìn)行復(fù)雜操作

靈初智能發(fā)布首個(gè)基于強(qiáng)化學(xué)習(xí)的端到端具身模型Psi R0，雙靈巧手協(xié)同進(jìn)行復(fù)雜操作