圖像顯示了與模型產生的特定照明條件的擴散圖片和影像圖像的幾何形狀評估的示例。學分:Liang等,Nvidia

近年來,計算機科學家引入了越來越複雜的人工智能模型,這些模型可以在特定的入口或說明後創建個性化的內容。儘管目前廣泛使用了圖像生成模型,但其中許多是不可預測的,並且可以準確地控制它們創建的圖像仍然是一個問題。

在今年會議上的一篇文章中,計算機願景和样本的認可(CVPR 2025)在納什維爾舉行,NVIDIA的研究人員介紹了一種新的機器學習方法DiffusionRenderer,這可能有助於圖像的生成和編輯,從而使用戶可以準確配置特定的圖像屬性。

“生成的AI在視覺創作方面取得了巨大的成功,但它代表了一個全新的創意工作流程,與古典圖形不同,並且仍在與操控性進行戰鬥。”

“借助擴散條件,我們希望通過將傳統圖形管道的準確性與AI的靈活性相結合來克服這一差距。我們的目標是研究和開發下一代渲染,以便更容易獲得,控制並易於與現有工具集成。”

Fidler及其同事提出的新方法可以將兩個維(2D)視頻轉換為與圖形兼容的場景。值得注意的是,這還允許用戶在表示形式中調節照明和材料,從而產生與他們的需求和偏好保持一致的新內容。







學分:nvidia

菲德勒說:“擴散者是一個巨大的突破,因為它同時解決了計算機圖形中的兩個長期問題,這是從真實視頻中拉伸幾何形狀和材料的同時渲染和高級渲染,以從場景中創建逼真的圖像和視頻。”

“擴散者最令人興奮的成就之一是,它將生成的AI帶入了圖形工作過程的核心並進行補充,從而使傳統上費力的任務(例如創建資產,增加和編輯材料)。”

由研究人員代表的新神經渲染方法基於擴散模型,即深度學習算法的類別,可以通過逐步改善相干圖形中的意外噪聲來生成圖像。與過去呈現的圖像的其他方法不同,dixFusionRenderer可以起作用,首先產生G-buffers(即描述特定屬性的中間圖像),然後使用這些想法來創建新的和逼真的圖像。

Fidler解釋說:“我們也為我們在創建具有準確照明和材料的高質量合成數據方面所取得的突破感到自豪,以幫助模型學習真正分解和重建場景。” “我們發現,質量縮放視頻的基本擴散模型的大小 – 有助於當我們與Nvidia Cosmos集成時,結果變得更加敏銳,更加一致。”







學分:nvidia

將來,機器人研究人員和創意專業人士都可以使用擴散者。例如,這對於開發視頻遊戲,廣告或製作電影的內容創建者來說可能很有價值,因為它們將允許他們以高精度添加,刪除或編輯特定屬性。計算機科學家還可以用來創建用於教授機器人技術或圖像分類算法的影像學數據。

Fidler補充說:“它的另一個巨大影響可能是模擬和物理AI -Robotics和AV培訓需要各種各樣的數據集,而擴散器可以從新場景中產生新的照明條件。” “我們很高興繼續在這個領域的界限。

“我們未來的工作專注於獲得更好的結果,提高執行效率並添加更強大的功能,例如語義管理,對象的組成和更高級的編輯工具。”

我們作者為您寫的 Ingrid Fadelly編輯 麗莎鎖並通過事實驗證並考慮 安德魯·齊寧(Andrew Zinin)– 本文是仔細人類工作的結果。我們依靠像您這樣的讀者來保留獨立的科學新聞。如果此報告對您很重要,請考慮 捐款 (尤其是每月)。你會得到的 沒有廣告 作為感激之情。

更多信息:
擴散性:通過視頻擴散模型進行神經反向和直接渲染。 ARXIV:2501.18590(CS.CV)。 arxiv.org/abs/2501.18590

research.nvidia.com/labs/toron … i/diffusionRenderer/

©2025科學X網絡

引用:NVIDIA的新AI工具提供了準確的編輯3D場景和影像圖像(2025年7月14日)。 2025年7月14日收到

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結