Omnimattezero是Omnimatte的第一種生成方法,使用預先訓練的視頻擴散模型僅以0.04 s/fragil(在圖形處理器A100上)實現對象,提取和無縫組成。學分:Dvir Samuel等人
伊蘭大學今天宣布,來自其計算機科學學院的團隊在視頻處理方面取得了突破,這極大地簡化了前景對象與背景的分離,而無需進行廣泛的培訓或優化。新方法稱為Omnimattezero,由Dvir Samuel博士和Galk Chechik教授開發,它們也是NVIDIA人工智能研究的高級總監。有紙 出版 在 arxiv 預印服務器。
最近代表 Siggraph亞洲會議該研究致力於從其背景中提取物體或數字,同時保持複雜的元素,例如皮毛,頭髮,樹葉,陰影,反射,煙霧或令人興奮的水。視頻流水分離的現代方法是基於人工智能模型,該模型應使用數百萬個標記的示例或重型優化的方法進行培訓,它們都是資源和費力的。對Bar-Alan團隊的研究表明,通過縮寫的努力,計算和成本可以實現同等的結果。
Dvir Samuel博士解釋說:“在視頻的分解系統中,該算法應確定對像在舞台上施加的影響,然後以看起來自然的方式刪除或刪除它。”
“到目前為止,每種方法都需要數百萬個示例來教授培訓模型,以及一個非常大的計算能力和能量。即使在模型進行了充分訓練並準備好使用之後,它也可以啟動它以在視頻的短短幾秒鐘內實現幾分鐘的結果。”
該方法用作“視覺堆肥系統”,使您可以處理內容。例如,湖中的天鵝可以以其反射並自由地放置在另一個游泳池中,而湖本身(除了天鵝)可以作為另一場景的背景,並以自然結果的形式重新使用,包括一致的反射,陰影和運動。
與現有方法不同,Omnimattezero避免了昂貴的受控學習或無私優化。取而代之的是,他使用圖像完成方法,傳統上應用於靜態圖像,並使用監視時間和空間變化以維持重建背景一致性的模塊進行了改進。研究人員證明,可以在構建的自我意識機制的幫助下識別物體及其痕跡,這可以連接框架和內部視頻之間的區域。
對團隊的研究表明,不需要將選定的模型分開視頻級別,也不需要極高的計算能力。該方法僅需要現有的視頻生成模型(例如WAN或VEO3)應用於此特定任務。該研究表明,如何使用現代視頻原因來檢測創造的效果和刪除,提取和重新介紹這些對象及其效果到其他真實時間視頻中,從而消除了許多期限處理的典型期望。
這種方法是為視頻編輯和設計師,內容創建者,廣告客戶和AI研究人員設計的。該研究的技術和經濟理由證明顯示了日常使用的未來可訪問性,包括編輯智能手機上錄製的視頻。目前,全球幾個大學團隊正在綜合綜合策劃。
塞繆爾博士的下一個方向將致力於聲音同步。他解釋說:“例如,如果視頻有吠叫,我們射殺了一隻狗,我們不想在沒有圖像的背景中不斷聽到吠叫的聲音。”
該項目是與以色列猶太大學和研究中心起源的研究人員合作進行的。
更多信息:
Dvir Samuel等人,Omnimattezero:快速無訓練的綜合視頻擴散模型, arxiv (2025)。 doi:10.48550/arxiv.2503.18033
引用:一種免費學習,實時編輯視頻的工具,以及對背景部分的開發分離(2025年9月29日)。 2025年9月29日從https://techxplore.com/news/2025-09-tool-free-video-background.html收到
該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。