研究演示和研究人類評論以及他自己的現實世界嘗試,這是一項新的基於AI的培訓方案,該協議在加利福尼亞大學伯克利分校開發,教機器人如何執行複雜的任務,例如以100%成功的水平組裝時帶。學分:加州大學大學 – AI和伯克利機器人培訓實驗室

在加利福尼亞大學伯克利分校,機器人的AI Sergei Levin的研究人員和訓練實驗室看著桌子,在那裡完美地組成了39個Jenga街區的塔。然後,白色和黑色的機器人,他唯一的肢體像長頸鹿一樣翻了一番,彎腰彎腰,增加了塔,揮舞著黑色皮革鞭子。由於看起來像是一個隨機的觀眾,例如物理學的奇蹟,因此鞭子擊中了一個合適的地方,將一個街區從堆棧中飛來,而塔的其餘部分仍然是合理的。

這項任務被稱為Jenga Whipping,是靈活性和反射以應對這一目標的人的一種愛好。現在,他被機器人掌握了,這要歸功於萊文和團隊其他成員創建的小說《基於AI的教學方法》。

一個稱為的新系統 在循環中的人體有效訓練機器人加固 (hil-serl),有 在研究中描述 8月20日在日記中的出現 科學機器人技術場地

該培訓協議研究示威並研究了一個人的評論以及他自己的嘗試,他教機器人如何執行複雜的任務,例如Jenga,以100%的成功水平進行鞭打。此外,機器人以令人印象深刻的速度教授,這使他們可以學習一個或兩個小時,如何完美組裝計算機主板,建造一個架子等等。

該機器人第一次贏得了Jenga鞭打挑戰,“這真的讓我震驚,”加州大學伯克利分校的郵政研究員Jainlan Luo的第一位作者說。 “對於大多數人來說,Jenga的任務非常困難。我手裡鞭打了它;我的成功水平為0%。”

近年來,機器人培訓領域試圖破解如何教授不可預測或複雜的機器的問題,例如,與一種動作不同,它反復從傳送帶上的某個位置提出一個物體。為了解決這一困難,列文的實驗室專注於所謂的“加強培訓”。在加強培訓中,機器人試圖完成現實世界中的任務,並使用相機的反饋從錯誤中學習,以最終掌握這項技能。

一項新的研究增加了人類干預以加快這一過程。通過控制機器人的特殊鼠標,一個人可以糾正機器人匯率,這些更正可以包含在機器人諺語銀行中。使用強化培訓,機器人分析了其所有嘗試的數量 – 借助不可阻擋,成功和不成功的,以更好地完成其任務。 Lo說,正如機器人從經驗中學到的那樣,一個人的干預越來越少。

他說:“我不得不照顧機器人,也許是前30%或類似的東西,然後逐漸地我可以減少關注。”

通過與一個人,機器人,控制AI的反饋,更好,更快地學習任務

在加利福尼亞大學伯克利分校開發的新的基於AI的培訓方案,研究了示威和研究人類評論和現實世界的嘗試,教機器人如何執行複雜的任務,例如成功水平的Jenga鞭打100%。學分:加州大學大學 – AI和伯克利機器人培訓實驗室

實驗室通過Jengi以外的複雜任務設置了其機器人系統。機器人把雞蛋轉到鍋中。將一個物體從一隻手轉移到另一隻手;然後他收集了一個主板,一個汽車面板和一條正時皮帶。研究人員之所以選擇這些問題,是因為它們是多樣的,並且根據LO的說法,“在復雜的現實世界中執行機器人任務時,都代表了“各種不確定性”。

研究人員還通過建立故障來測試機器人的適應性。他們會迫使他們打開握力,以便在機器人試圖安裝微芯片時,他會放下一個物體或移動主板,教導它應對不斷變化的情況,他可以遇到實驗室環境。

到培訓結束時,機器人可以在100%的時間內正確執行這些任務。研究人員將其結果與“複製我的行為”(稱為行為克隆)的一般方法進行了比較,該方法經過了相同數量的示範數據培訓。他們的新系統使機器人更快,更精確。

根據Luo的說法,這些指標至關重要,因為該欄對於機器人的能力很高。普通的消費者和工業家不想購買不一致的機器人。 Luo強調,尤其是,“為訂單制定的生產過程,例如通常用於電子,汽車和航空航天零件的生產過程,可以從可靠和適應許多任務的機器人中受益。

LUO認為,下一步是使用操縱物體的基本可能性預先培訓系統,消除了從頭開始研究它們的需求,而是直接發展到獲得更複雜的技能。該實驗室還決定進行研究開源,以便其他研究人員可以使用並依靠它。

Luo說:“該項目的關鍵目標是使該技術可以作為iPhone作為用戶訪問和方便。” “我堅信,可以使用它的人越多,我們就越能影響它。”

該研究的其他作者包括加州大學伯克利分校的Charles Xu和Jeffrey Wu。

更多信息:
Jianlan Luo等。 科學機器人技術 (2025)。 doi:10.1126/scirobotics.ads5033

由加州大學 – 伯克利分校提供


引用:通過與人機器人的反饋,控制了AI

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結