在12月初,Google DeepMind發布了Genie 2。他們能夠以用戶的形式創建圖像 – 或者很可能是AI自動化代理 – 移至模擬軟件的世界。所得模型的作用模型可能看起來像一個視頻遊戲,但是DeepMind始終將Genie 2作為訓練其他AI系統以更好地設計的方式。借助實驗室週二宣布的新的Genie 3模型,DeepMind認為她為培訓AI代理商做了一個更好的系統。

乍一看,Genie 2和3之間的跳躍並不像去年發生的模型那樣引人注目。借助Genie 2,DeepMind系統能夠創建三個維度的世界,並且即使在用戶或AI代理之後,也可以準確地重建環境的一部分,也讓它探索場景的其他部分。環境一致性通常是以前世界模型的弱點。例如, 革命的綠洲 該系統在記住的佈局時遇到了問題 葡萄酒 他會創造水平。

相比之下,Genie 3提供的改進似乎更平均,但是在當今正式公告前的Google類型更新中,DeepMind Research Resegry Shlomi Fruchter和Deepmind Scientist的DeepMind Research Regiors Shlomi Fruchter聲稱它們代表了道路上的重要石頭。

GIF證明了Genie 3的巨大互動性,

Google Deepmind

那麼Genie 3到底做得更好呢?首先,他將視頻出口到720p,而不是像他的前任一樣360p。它還能夠在更長的時間內維持“一致”模擬。 Genie 2的理論限制長達60秒,但實際上,該模型通常會開始更早地觀看。相反,DeepMind說,Genie 3能夠在開始生產物體之前跑步幾分鐘。

該模型的新手也是一個呼喚“可行世界事件”的DeepMind功能。 Genie 2具有互動性,以至於用戶或AI代理能夠引入運動訂單,並且該模型在幾分鐘後響應以創建下一幀。 Genie 3實時工作。此外,可以使用文本提示來修改模擬,以指示精靈改變其創造的世界狀態。在他展示的一個演示中,該模型曾說過將一群鹿引入一個遮蔽山的人的場景。 DeepMind說,鹿並沒有以最現實的方式移動,但這是Genie 3兇手的特徵。

證明Genie 3對文本做出反應的能力,教會其改變世界的狀態的GIF。 證明Genie 3對文本做出反應的能力,教會其改變世界的狀態的GIF。

Google Deepmind

如前所述,實驗室主要提供模型作為訓練和評估AI代理的工具。 DeepMind說,Genie 3可用於教授AI系統來處理“如果不被其預訓練所覆蓋的話,該怎麼辦。 Fruchter說:“在模型能夠在現實世界中成長之前,需要發生很多事情,但是我們將其視為一種更有效訓練和提高其信譽的方式。 ”

儘管DeepMind在Genie方面有所改善,但該實驗室認識到需要做很多工作。例如,該模型無法以完美的精度創建現實世界的位置,並在文本性能中掙扎。此外,對於真正有用的精靈,DeepMind認為該模型必須能夠維持模擬世界數小時而不是分鐘。儘管如此,該實驗室仍然覺得精靈已經準備好產生真正的影響。

帕克說:“我們已經處於您不將精靈用作獨特的訓練環境的地步,但是您當然可以找到代理商不想做的事情,因為如果他們在某些安排中不安全,即使這些安排並不完美,仍然可以知道。” “您已經可以看到它的去向。隨著模型的改善,它將變得越來越有用。”

目前,Genie 3不適合公眾。但是,DeepMind說,她致力於使該模型可用於其他測試人員。

來源連結