Dreamer 4 通過其世界模型中的強化學習來學習解決複雜的控制問題。我們解碼想像的訓練序列以進行可視化,表明世界模型已經學會模擬各種遊戲機制,從低級鼠標和鍵盤操作開始,包括打破方塊、使用工具以及與桌面交互。信用: arXiv (2025)。 DOI:10.48550/arxiv.2509.24527。
在過去的十年中,深度學習改變了人工智能 (AI) 代理在數字環境中感知和行動的方式,使它們能夠掌握棋盤遊戲、控制模擬機器人並可靠地解決各種其他任務。然而,這些系統中的大多數仍然依賴於大量的第一手經驗——數百萬次的試錯交互——來實現哪怕是適度的能力。
這種強力方法限制了它們在物理世界中的實用性,因為此類實驗會很慢、昂貴或不安全。
為了克服這些限制,研究人員轉向了世界模型——代理可以安全地練習和學習的模擬環境。
這些世界模型不僅旨在捕捉世界的視覺效果,還捕捉其潛在的動態:物體移動、碰撞和對動作做出反應的方式。然而,雖然像 Atari 和 Go 這樣的簡單遊戲可以作為有效的測試平台,但世界模型仍然無法匹配 Minecraft 或機器人環境等複雜世界的豐富、開放的物理特性。
谷歌 DeepMind 的研究人員最近開發了 Dreamer 4,這是一種新的人工智能代理,能夠使用一組有限的預先錄製的視頻在可擴展的世界模型中充分學習複雜的行為。
推出新型號 紙 發表於 arXiv 預印本服務器是第一個無需在實際遊戲中進行訓練即可在 Minecraft 中獲取鑽石的人工智能 (AI) 代理。這一非凡成就凸顯了使用 Dreamer 4 純粹憑想像力訓練成功的 AI 代理的能力,這對機器人技術的未來具有重要意義。
“我們人類根據對世界的深刻理解來選擇行動,並提前預測潛在的結果,”該論文的第一作者 Daniyar Hafner 告訴 Tech Xplore。
“這種能力需要一個世界的內部模型,使我們能夠非常快速地解決新問題。相比之下,以前的人工智能代理通常通過大量的試錯來通過蠻力學習。但這對於物理機器人等應用程序來說是不可行的,因為它們很容易崩潰。”
DeepMind過去幾年開發的一些AI代理已經 達到了 巨大的 成功 在圍棋和 Atari 等遊戲中,從小世界模型中學習。然而,這些模型所依賴的世界模型未能捕捉到視頻遊戲《我的世界》等更複雜世界中豐富的物理交互。
另一方面,“視頻模型,例如 我明白 和 索拉 在製作各種場景的真實視頻方面正在迅速進步,”哈夫納說。
“然而,它們不具有交互性,而且它們的生成速度太慢,因此它們不能用作‘神經模擬器’來訓練它們自身的智能體。Dreamer 4 的目標是完全在可以真實模擬複雜世界的世界模型中訓練成功的智能體。”
Hafner 和他的同事決定使用 Minecraft 作為他們的 AI 代理的測試平台,因為它是一款複雜的視頻遊戲,包含無限數量的生成世界和需要 20,000 多個連續鼠標和鍵盤操作才能完成的長期任務。
其中一項任務是鑽石開採,這需要特工完成一系列先決條件,例如砍伐樹木、製作工具以及開采和冶煉礦石。
值得注意的是,研究人員希望僅在“想像的”場景中訓練他們的代理,而不是讓它在真實的遊戲中練習,類似於智能機器人必須在模擬中學習的方式,因為它們在直接在物理世界中練習時很容易崩潰。為此,模型必須在 Minecraft 世界的相當準確的內部模型中研究對象的交互。
哈夫納和他的同事開發的人工智能體基於一個大型變壓器模型,經過訓練可以預測與特定情況相關的未來觀察、行動和獎勵。 Dreamer 4 在一個固定的離線數據集上進行訓練,該數據集包含由人類玩家收集的錄製的 Minecraft 遊戲視頻。
Hafner 說:“訓練完成後,Dreamer 4 就能通過強化學習,在各種想像場景中選擇越來越有效的行動。”
“在世界的可擴展模型內訓練代理需要突破生成人工智能的界限。我們開發了一種高效的轉換器架構和一個名為“減少強制”的新學習目標。與典型視頻模型相比,這些進步實現了準確的預測以及快了 25 倍以上的生成時間。”
Dreamer 4 是第一個在《我的世界》中僅通過離線數據訓練即可賺取鑽石的 AI 智能體,甚至無需在真實遊戲中練習技能。這一發現凸顯了智能體獨立學習如何正確解決複雜和長期問題的能力。
哈夫納說:“離線學習與訓練機器人非常相關,在物理世界中訓練時,機器人很容易崩潰。” “我們的工作代表了一種有前景的新方法,可以創建可以在家里和工廠里工作的智能機器人。”
在研究人員進行的初步測試中,發現 Dreamer 4 智能體能夠準確預測各種對象交互和遊戲機制,從而創建可靠的內部世界模型。該智能體的世界模型大大優於早期智能體所依賴的模型。
“該模型支持單個 GPU 上的實時交互,讓玩家可以輕鬆探索他們的夢想世界並測試其能力,”哈夫納說。 “我們發現該模型準確地預測了採礦和放置方塊、製作簡單物品,甚至使用門、箱子和船的動態。”
Dreamer 4 的另一個優點是,儘管僅使用極少量的動作數據進行訓練,但仍取得了顯著的效果。基本上,這是一個視頻,展示了在視頻遊戲《我的世界》中按下各種按鍵和鼠標按鈕的效果。
哈夫納說:“世界模型實際上可以僅從視頻中獲取大部分知識,而不需要數千小時的動作遊戲錄製。”
“只需幾百小時的動作數據,世界模型就能以通用的方式了解鼠標移動和擊鍵的影響,並轉移到新的情況。這很有趣,因為機器人數據記錄得很慢,但有很多人們在線與世界互動的視頻,Dreamer 4 將來可以從中學習。”
Hafner 和他在 DeepMind 的同事最近的這項工作可以通過更容易地訓練算法來推動機器人系統的發展,使它們能夠在現實世界中可靠地執行手動任務。
與此同時,研究人員計劃通過集成長期記憶組件來進一步改進 Dreamer 4 的世界模型。這確保了代理訓練的模擬世界在很長一段時間內保持一致。
哈夫納補充道:“實現語言理解也將使我們更接近與人們協作並為他們執行任務的代理。”
“最後,通過常規互聯網視頻訓練世界模型將為智能體提供有關物理世界的常識知識,並使我們能夠在各種想像的場景中訓練機器人。”
我們的作者為您寫的 英格麗德·法德利編輯者 薩迪·哈雷事實已核實和核實 羅伯特·伊根——這篇文章是人類辛勤工作的成果。我們依靠像您這樣的讀者來維護獨立的科學新聞。如果此報告對您很重要,請考慮 捐款 (尤其是每月)。您將收到 沒有廣告 帳戶作為謝意。
附加信息:
Daniyar Hafner 等人,“在可擴展世界模型中訓練代理”, arXiv (2025)。 DOI:10.48550/arxiv.2509.24527。
© 2025 科學 X 網絡
引文:DeepMind 推出了一款能夠在可擴展的世界模型中學習執行各種任務的 AI 代理(2025 年,10 月 25 日),2025 年 10 月 25 日檢索自 https://techxplore.com/news/2025-10-deepmind-ai-agent-tasks-scalable.html。
本文檔受版權保護。除善意用於私人學習或研究目的外,未經書面許可不得複制任何部分。所提供的內容僅供參考。










