Google DeepMind發行了AI模型“ World”的新版本,稱為Genie 3,能夠生成用戶和AI代理可以在實際時間進行交互的3D環境。該公司還承諾,用戶將能夠比以前更多地與世界互動,並且該模型確實會記住當您外出視線時的狀況。
世界模型是一種AI系統,可以為教育,娛樂或幫助培訓機器人或AI代理等目的模擬環境。借助世界模型,您可以像在視頻遊戲中那樣及時及時創建一個可以移動的空間,但是沒有用3D資產手工製作,而是用AI生產的一切。這是Google付出了很多努力的領域。該公司在12月向Genie 2展示,該公司可能會根據圖像創建互動世界,並製造由OpenAI視頻生產工具的前任駕駛員領導的世界模型。
但是今天的模型有很多缺點。例如,Genie 2的世界只能播放到一分鐘。最近,我嘗試了由皮克斯(Pixar)共同創始人支持的公司提供的“互動視頻”,感覺就像瀏覽了Google Street View的模糊版本,在這裡,事情發生了變化和改變,以我環顧四周時沒有期望的方式。
Genie 3似乎是向前邁出的非凡一步。用戶將能夠通過提示來創建世界,該提示支持“幾分鐘”的連續互動,這是從10-20秒開始的互動,這與Genie 2, 根據博客文章。 Google說,Genie 3可以將空間保持在視覺記憶中大約一分鐘,這意味著,如果您擺脫世界中的事物,然後回到它,牆上的顏色或桌子上的寫作將在同一位置。世界也將擁有720p分辨率,並以24fps的速度運行。
DeepMind為Genie 3添加了所謂的“可誇大世界事件”。使用一個問題,您將能夠做一些事情,例如改變世界中的天氣或添加新角色。
但是,這可能不是您可以自己嘗試的模型。據Google稱,它是作為“有限的研究預覽”開始的,它將在“一小群學者和創作者”中使用,以便其開發人員可以更好地了解危險以及如何適當緩解危險。也有許多限制,例如用戶可以與世界產生的世界互動的有限方式,並且可讀文本“通常只有在世界輸入描述中提供時才會產生”。 Google說,它正在“探索”如何將Genie 3帶到“其他測試人員”之下。