人工智能研究院朱毅鑫課題組及合作者在示範解決一類物體的強泛化靈巧操作方面取得進展

人類與環境的交互以手作為媒介來完成,通過手進行各種操作對我們來說習以為常且必不可少🕳。機器人和環境的交互的媒介是末端執行器(End Effector)——它可以是一個夾子、一個吸盤👨🏿‍🎤,也可以和人類一樣🧚🏻‍♂️,是一雙靈巧手(Dexterous Hand)💑。教會機器人使用靈巧手意義重大,因為機器人需要一個和人類似的手才可以使用各種專為人類設計的工具,融入人類的生活環境。然而到目前為止🪮,用靈巧手操作(甚至是抓取)物體仍是一個亟待解決的難題。

圖1. 機器手抓取玩偶貓

近日,意昂3体育官网人工智能研究院朱毅鑫助理教授課題組及合作者在計算機視覺頂級會議CVPR 2024發表論文 “SparseDFF🧗🏻:Sparse-View Feature Distillation for One-Shot Dexterous Manipulation”。該研究提出了SparseDFF——一種用於靈巧操作的深度特征學習方法,它通過蒸餾的方式優化2D視覺大模型特征同時構建3D特征場👥,使機器人能夠像人類一樣理解不同實例之間的語義對應關系,從而通過優化的方法在多種場景實現高效的one-shot靈巧操作遷移🧀。通過真機實驗表明,SparseDFF是相同實驗設置下最先進(SOTA)的靈巧抓取方法。

在人工智能領域,人們也希望機器具有這種舉一反三的學習能力(在人工智能領域稱其為“泛化”),而傳統的模仿學習和強化學習面臨著數據需求量大、泛化性差👨🏻‍🏫、成功率低等問題。考慮到人類的學習方法☸️,過程包含了對部幾何結構和語義信息的深層理解。

圖2. 相似抓取位姿可在高維特征空間中對齊

在傳統計算機視覺中,常常用特征表示圖片內容的信息,而直接對齊機器人姿勢是非常困難的。研究者們提出構建更高級的特征場(Feature Field),同時具有語義、幾何和視覺的潛在信息。在這個空間中的任何抓取姿勢都會對應一個特征🐄。將一個示範的抓取姿勢和新場景中待優化的抓取姿勢分別映射到各自的特征空間中🤵🏼‍♀️,並通過優化的方法使兩個特征在特征空間中對齊,從而使得得到的抓取姿勢能夠抓取物體。

圖3. SparseDFF方法簡圖

研究者們提出了一個稀疏視角單樣本靈巧抓取技能遷移方法。僅需要一次示範,即能將同樣的操作技能直接遷移到同類的任何不同姿勢的物體上。利用預訓練視覺模型DINO蒸餾信息來構建特征場,滿足了少訓練數據、強泛化性和高成功率的要求🐔。此種方法速度很快。僅需要一張RTX3090顯卡、在示範場景中學習5分鐘,之後每次生成新場景的抓取姿勢只需要20秒。在軟體和剛體上的真機實驗均獲得好的效果。

圖4. 構建蒸餾特征場

如圖 4(a)所示🥃🌅,研究者們采取3D特征蒸餾的方法來構建3D特征場。不同於以往結合NeRF表示法直接重建連續的隱式特征場🚯,我們將DINO應用於RGB圖像,采用提煉離散的3D點的方法,將他們傳播到周圍空間,利用像素和點的對應關系直接將其投影到每個點雲,產生每個點的特征🚶🏻‍♀️‍➡️。

圖5. 優化前的特征場

圖6. 優化後特征場

在初步構建了優化前的特征場(圖5)中的點雲後,合作團隊設置了特征優化網絡😍。訓練此網絡僅需在單一場景中進行自監督學習💡。訓練完成後,他們直接將這個特征優化網絡應用於新的實驗場景中,以增強特征之間的連續性,從而獲得更高質量的特征,並構建修剪機製【圖 4(c)所示】🐺,進一步增強生成點雲特征的一致性。團隊利用剪枝後的點雲來獲取靈巧手的特征,通過獲得的特征差異進行末端優化,減少實驗和示範物體的特征差異,獲取最終抓取位姿。

末端執行器優化

合作團隊采用構建的算法🛏,對多種物體進行定量測試👳🏿。在剛體測試中🧜🏿,他們使用了鉆頭🈹↙️、兩種盒子、三種碗和三種杯子來驗證,並將其成功率與UniGraspDex++以及DFF進行對比。實驗結果顯示💅🏽,相同物體不同姿態和不同物體的泛化,所提出的算法都顯著提高了成功率,在泛化到不同物體時效果尤為明顯🚰。在柔性物體測試中,他們使用毛絨玩具猴子和玩具熊進行實驗👮🤷‍♀️,將抓取毛絨玩具猴的特征泛化到抓取不同姿態的毛絨玩具猴🤷🤸🏽、周圍有許多雜亂幹擾物體的毛絨玩具猴和小毛絨玩具熊上🧑🏿‍🌾,驗證了所提出的方法在不同姿態泛化、嘈雜環境抗幹擾性和不同物體一致性上的優勢,對比了所提方法與DFF 執行抓取大玩具熊的鼻子的任務,並將毛絨玩具熊的特征泛化到不同姿態的玩具熊和玩具猴,驗證所提出的模型在泛化到不同物體的實驗上發揮的穩定性。

圖8. 剛性物體實驗

圖9. 柔性物體實驗

圖10. 語意豐富的操作任務

此外,研究者們進行了附加實驗🤸🏽‍♂️🖖🏻,以證明所提出的方法不僅局限於抓取任務。結果表明💁🏼‍♂️,算法能夠掌握豐富的語義含義🧑‍🧒‍🧒⛹🏼‍♀️,並遷移到不同姿勢和物體上,表現出良好的泛化能力。

該研究解決了使用預訓練視覺模型的語義對應來一次性學習靈巧操作的問題✍🏻。合作團隊開發了一種方法🐯,將稀疏視角的RGB-D觀測特征提煉到一個一致的3D場中,並創建了一個用於跨不同場景優化末端執行器參數的能量函數,並將方法應用於靈巧手🍾,展示了研究所提方法在真實世界場景中對新的物體姿勢、形變、幾何形狀和類別的強大泛化能力🙎🏿。

論文第一作者為意昂3体育官网信息科學技術學院2021級本科生王乾旭🤝,通訊作者為斯坦福大學教授Leonidas Guibas、朱毅鑫、斯坦福大學在讀博士鄧叢悅👂🏽🏷。

轉載本網文章請註明出處

意昂3体育专业提供:意昂3体育👷‍♂️、意昂3体育平台意昂3体育官网等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流🍁,意昂3体育欢迎您。 意昂3体育官網xml地圖