能夠生成圖像的系統通常需要一個令牌,該系統可以壓縮和編碼視覺數據,以及可以組合和安排這些緊湊表示形式以創建新圖像的發電機。麻省理工學院的研究人員發現了一種創建,轉換和“ INPAIN”圖像的新方法,而無需使用發電機。此圖顯示瞭如何逐漸更改輸入圖像,以優化令牌。學分:馬薩諸塞州技術學院
依靠神經網絡來創建各種入口(包括文本提示)的AI圖像的產生將在本十年末成為十億美元。即使有了今天的技術,如果您想製作一張怪異的照片,例如,一個朋友在火星上貼上旗幟或在黑洞中飛行而無人注意的朋友,這可能需要不到一秒鐘的時間。
但是,在他們執行此類任務之前,通常會在包含數百萬張圖像的大量數據集上研究圖像生成器,這些數據通常與相應的文本結合在一起。這些生成模型的培訓可能是艱難的常規工作,這需要數週或幾個月的時間,在此過程中消耗了廣泛的計算資源。
但是,如果它可以使用AI方法生成圖像而不使用發電機通常可以生成圖像呢?這個真正的機會以及其他有趣的想法在 研究工作 代表 國際機械會議(ICML 2025)今年夏天早些時候在不列顛哥倫比亞的溫哥華舉行。
描述新的操縱和生成圖像方法的論文是 出版 在 arxiv 預印服務器。
它是由MIT實驗室的研究生Lucas Lao Beyer根據信息和決策製造系統(Covers)撰寫的; Tianhong Li,計算機科學和人工智能MIT實驗室的郵政(CSIL); Facebook AI研究的Chen Chen;航空和宇航學麻省理工學院教授和封面主任Sureak Karaman;和凱明(Kaiming He),電氣工程和計算機科學副教授。
這一小組的努力始於Lao Beier去年秋天接受的深層生成模型的最後研討會的課堂項目。在學期的對話中,對於老撾和那些教授研討會的人來說,這項研究具有真正的潛力,這遠遠超出了典型的家庭作業的極限。其他員工很快就開始介紹。
老撾調查的起點是2024年6月的一篇文章,由慕尼黑技術大學的研究人員和中國公司Bontedance撰寫,他提出了一種新的方式來代表稱為一維代幣的視覺信息。借助該設備也是一種神經網絡,可以將256×256像素的圖像轉換為僅32個稱為令牌的序列。
老撾·貝耶爾(Lao Beier)說:“我想了解如何達到如此高的壓縮水平,以及代幣本身的實際代表。”
上一代的代幣器通常將相同的圖像分解為16×16代幣的數組 – 每個令牌,以高度凝結的形式封裝信息,與原始圖像的某個部分相對應。新的1D毒劑可以更有效地使用少量令牌編碼圖像,並且這些令牌可以收集有關整個圖像的信息,而不僅僅是一個像限。
此外,這些令牌中的每一個都是一個由1和0組成的12位數字,允許212 (或大約4000個機會)。
他解釋說:“這就像一個4000個單詞的詞彙,它構成了一種抽象的隱藏語言,可以說一台計算機。” “這不是人類的語言,但我們仍然可以嘗試找出它的含義。”
這正是Lao Beier最初打算探索的方法 – 提供ICML 2025紙種子的作品。他接受的方法非常簡單。如果您想找出特定的令牌在做什麼,老撾拜耶說:“您可以將其拿出來,以一定的價值進行交換,看看結論中是否有可識別的變化。”
通過更換一個令牌,他發現,改變了圖像質量,以低分辨率將圖像轉換為具有高分辨率的圖像,反之亦然。另一個令牌影響了背景中的模糊,而另一個仍然影響了亮度。他還發現了一個與“姿勢”相關的令牌,這意味著,例如,在羅賓(Robin)的形像中,鳥的頭可以從右向左移動。
老撾·貝耶爾(Lao Beier)說:“這是一個看不見的結果,因為沒有人觀察到從視覺上確定的操縱令牌變化。”該發現增加了一種新方法來編輯圖像的可能性。麻省理工學院小組實際上表明瞭如何訂購和自動化此過程,因此不應手動更改令牌。
他和他的同事取得了與圖像產生相關的更間接的結果。能夠生成圖像的系統通常需要一個令牌,該系統可以壓縮和編碼視覺數據,以及可以組合和安排這些緊湊表示形式以創建新圖像的發電機。麻省理工學院的研究人員找到了一種創建圖像的方法,而無需使用發電機。
他們的新方法是由1D tokenizer和所謂的檢測器(也稱為解碼器)使用的,該檢測器可以從代幣系列中重建圖像。但是,借助成品神經網絡(稱為夾子)提供的領導力,該網絡無法獨立創建圖像,但可以衡量該圖像與某個文本提示相對應的很好,例如,團隊能夠將紅色熊貓的形象轉換為老虎。
此外,它們可以從頭開始創建老虎或任何其他所需形狀的圖像 – 從最初將隨機值分配給所有令牌的情況下(然後是經常配置),以使重建的圖像與所需的文本提示越來越一致)。
該小組證明,以相同的設置 – 事實上他在像徵器和檢測器上,但沒有發電機 – 他們也可以做出“實現”,這意味著填寫以任何方式拋棄的圖像的一部分。避免將發電機用於某些任務可能會導致計算成本的顯著降低,因為如前所述,發電機通常需要大量學習。
他在這支團隊的貢獻中似乎很奇怪,他解釋說:“我們沒有發明任何新事物。我們沒有發明1D托克斯,也沒有發明視頻模型。但是我們發現,當您將所有這些部分聚集在一起時,可能會出現新的機會。”
紐約大學的計算機科學家Saing Saing Xie說:“這項工作重新考慮了Tokenizers的作用。” “他表明,圖像令牌工具通常僅用於壓縮圖像,它實際上可以做出更多。事實是,一個簡單(但非常壓縮的)1D tokenizer可以執行諸如文本啟動或編輯之類的任務,而無需教授全尺度的生成模型,這是很棒的。”
普林斯頓大學的Zhuang Liu表示同意,表示MIT集團的工作“表明我們可以生成和操縱圖像,以使其比我們之前想像的要容易得多。這主要證明,圖像的產生可以通過 – 產生非常有效的圖像壓縮機的產生,從而有可能降低在幾個尺寸中創建圖像的成本。”
卡拉曼(Karaman)建議,在計算機視野領域之外可能會有許多應用程序。 “例如,我們可以考慮關注具有獨立駕駛的機器人或汽車的行為的問題,就像它可以快速擴大這項工作的影響一樣。”
老撾比爾根據同一條線思考,並指出1D毒劑提供的極端壓縮使您可以做可以應用於其他領域的“有些令人驚奇的事情”。例如,在獨立汽車(這是其研究興趣之一)領域中,可以代表代幣,而不是汽車可以選擇的各種路線的圖像。
Xie還對這些創新思想可能引起的應用程序也很感興趣。他說:“有一些非常酷的使用選項可以解鎖。”
更多信息:
L. Lao Beyer等。 arxiv (2025)。 doi:10.48550/arxiv.2506.08257
這個故事重印為麻省理工學院新聞(web.mit.edu/newsoffice/),一個受歡迎的網站,涵蓋有關研究,創新和麻省理工學院教學的新聞。
引用:重新考慮圖像生成:象徵器和解碼器提供編輯和實施,而無需發電機(2025年7月22日)。 2025年7月22日從https://techxplore.com/news/2025-07-image-generation-reimageed-tokenzers-decoders.html收到
該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。