信用: arxiv (2025)。 doi:10.48550/arxiv.2505.04831

在過去的三年中,Chatgpt和Claude等聊天機器人在使用中經歷了氣象增長,因為它們可以幫助您完成各種任務。無論您是寫莎士比亞十四行詩,調試代碼還是需要對不清楚的視覺問題進行答案,人工智能係統(AI)似乎已經揭示了您。這種多功能性的來源?互聯網上的數十億甚至數万億個文本點。

這些數據不足以教機器人成為有用的家庭或工廠助理。要了解如何在各種環境中處理,折疊和放置各種對象的佈置,機器人需要演示。您可以將機器人培訓數據視為使用每個任務運動系統的視頻工具的集合。

這些演示在真實機器人上的收集是時間耗盡而不是完全重複,因此工程師創建了教育數據,使用AI(通常不反映實際物理學)或從零地處理每個數字環境的建模。

計算機和人工智能MIT實驗室(CSAIL)和豐田研究所的研究人員可能已經找到了一種創造機器人多樣化,現實需求的方法。他們的方法“一般場景”創建了數字場景,例如廚房,客廳和餐館,工程師可以用來模擬許多真實的互動和場景。

該工具經過超過4400萬個3D房間的培訓,該房間充滿了桌子和盤子,例如桌子和盤子,將現有資產放置在新場景中,然後將它們變成一個身體上準確的生活環境。有一種方法 出版arxiv 預印服務器。

託管場景的產生創建了這些3D世界,“控制”擴散模型 – AI系統,該系統從隨機噪聲中生成視覺效果 – 您在日常生活中會發現的場景。研究人員使用此生成系統來“介紹”環境,從而填補了整個場景中的某些元素。






https://www.youtube.com/watch?v=ur5i1lzjfaq

您可以想像,一個空的畫布突然變成了一個散落著3D物體的廚房,這些廚房逐漸被重新排列到模仿真實物理的舞台上。例如,系統保證叉子不會穿過桌子上的碗 – 3D圖中的一般故障,稱為“切割”,模型重疊或相交。

但是,場景管理一代如何將其創造引導到現實主義取決於您選擇的策略。它的主要策略是“搜索蒙特卡洛樹”(MCTS),該模型創建了一系列替代場景,在特定目的的方向上填充它們的方向(例如,使場景更現實或包括盡可能多的可食用對象)。 Alphago人工智能計劃使用它在GO中贏得對手(類似於國際象棋的遊戲),因為該系統在選擇最有利可圖的人之前考慮了潛在的運動序列。

“我們是第一個應用MCT生成場景的人,創建將場景作為一致的決策過程的任務,” Ph.D.說。學生尼古拉斯·普法夫(Nicholas Pfuff) Girub該領域“我們繼續在部分場景上建立,以便隨著時間的流逝而產生最佳或更多理想的場景。

在一個特別指示性的實驗中,MCTS將最大數量的物體數量添加到了一個簡單的餐廳場景中。桌子上有34個元素,包括在場景上進行訓練後,只有17個物體,包括大量的Dimsum菜餚。

託管場景的產生還使您可以通過學習成真,本質,擴散模型的培訓來創建各種學習場景,以使用試驗和錯誤實現目標。在使用初始數據進行培訓之後,您的系統將通過培訓的第二階段,在那裡您概述了獎勵(或者主要是所需的結果,並通過評估表明您與此目的有多近)。該模型會自動學習創建具有較高指標的場景,通常會產生與受過訓練的場景大不相同。

用戶還可以直接提供該系統,並引入特定的視覺描述(例如,“一個帶有四個蘋果和桌子上的碗的廚房”)。然後,場景的一般生成可以準確地恢復您的請求。例如,該工具準確地遵循了用戶在建設過程中的價格98%的價格,而骯髒的早餐桌子則以86%的價格遵循了用戶的提示。與可比方法(例如 中型Diffussen 分別。

系統還可以使用提示或燈光上的說明完成特定的場景(例如,“使用相同對象提出場景的不同位置”)。例如,您可以要求他將蘋果放在廚房桌子上的幾盤上,或將棋盤遊戲和書籍放在架子上。實際上,這是“填充空的”,在空的空間中打破對象,但保留了舞台的其餘部分。







學分:馬薩諸塞州技術學院

根據研究人員的說法,他們項目的力量在於它能夠創建機器人實際上可以使用的許多場景。 Pfuff說:“對我們結論的關鍵理解是,對於我們以前準備的場景而言,這是正常的,以免類似於我們真正想要的場景。” “使用我們的轉向方法,我們可以超越“最佳”的廣泛分佈和样本。換句話說,在我們實際上想訓練機器人的場景中產生了各種,現實和調整的任務。”

如此廣泛的場景成為測試的基礎,他們可以記錄與各種對象相互作用的虛擬機器人。例如,機器小心地將叉子和刀放在餐具的持有者中,並在各種3D設置中重新排列麵包。每種建模似乎都平穩,現實,讓人聯想到真正的,適應的機器人,即受控場景的產生可以幫助訓練一次。

儘管該系統可以鼓勵為機器人創建各種各種學習數據,但研究人員說,他們的工作是對該概念的確認。將來,他們希望使用生成AI創建全新的對象和場景,而不是使用固定的資產庫。他們還計劃打開機器人可以打開或扭曲的文章(例如,櫥櫃或裝滿食物的庫),以使場景更加互動。

為了使其虛擬環境更加現實,PFAFF和他的同事可以使用從Internet上圖像獲得的對象和場景庫並使用他們以前的工作來打開真實的對象 縮放Real2Sim該領域擴大了基於AI測試的多樣性和重要性,該團隊希望建立一個將創建大量數據的用戶社區,然後可以將其用作一組龐大的數據,以向各種技能教授聰明的機器人。

“如今,創建逼真的模擬場景可能是一項相當複雜的努力;程序一代可以很容易地創建大量場景,但它們可能不會代表機器人在現實世界中遇到的環境。手動在訂購和道路上手動創建一個場景。”

“與以前使用實現的視覺模型或僅在對像對象專注的工作相比,託管場景的生成提供了最佳方法:在大量以前存在的場景中教生成模型,並將其調整為特定應用程序(使用支持中的培訓)。

“哲學家的機器人師搖滾樂研究所搖滾科里·史密斯(Rock Cory SM ’08)說:“通過教學後的指導場景的產生和尋找輸出時間為大規模自動化場景提供了新的有效基礎。 ” ’10,也沒有參與報紙。 “此外,他可以產生“從不 – 瓦格”的場景,這些場景對較低的任務很重要。將來,這種結構與互聯網上的大量數據的關聯可以解鎖一個重要的里程碑,以有效準備機器人在現實世界中部署的機器人。 ”

更多信息:
尼古拉斯·普法夫(Nicholas Pfuff)等。 arxiv (2025)。 doi:10.48550/arxiv.2505.04831

期刊信息:
arxiv


馬薩諸塞州技術研究所提供


引用:使用生成AI用於機器人的虛擬訓練場(2025年9月29日),於2025年9月29日從https://techxplore.com/news/2025-09-generative-virt-virt-virtual-grunds.html獲得。

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結