在一項新研究中,Apple 研究人員提出了一種擴散模型,其寫入速度比同類模型快 128 倍。這是它的工作原理。
無所不知
以下是您在本研究中需要了解的信息:像 ChatGPT 這樣的法學碩士是自回歸模型。它們按順序生成文本,一次生成一個標記,同時考慮用戶的提示和所有先前生成的標記。
與自回歸模型相反,存在擴散模型。他們並行生成多個標記,並通過幾個迭代步驟對其進行完善,直到形成完整的答案。
最後,擴散模型的一種變體是通量匹配模型,它本質上跳過了擴散模型的迭代過程,並學習一次性生成最終輸出。
要更深入地了解擴散模型的工作原理,請閱讀這篇有關 Apple 基於擴散的編碼模型的文章。要了解有關線程匹配模型的更多信息,請閱讀這篇有關 Apple 蛋白質折疊線程匹配模型的文章。
新蘋果研究
在今天發表的一項研究中,題為“FS-DFM:使用多步傳播語言模型快速準確地生成長文本蘋果公司和俄亥俄州立大學的研究人員提出了一種稱為多步離散流匹配(FS-DFM)的新模型。
在這項研究中,研究人員證明 FS-DFM 能夠在短短八輪快速細化中寫出完整長度的段落,與需要一千多個步驟才能達到類似結果的擴散模型的質量相匹配。
為了實現這一目標,研究人員採取了一種有趣的三步方法:首先,訓練模型來處理不同的細化迭代預算。然後,他們使用指導性“教師”模型來幫助他們在每次迭代中進行更大、更精確的更新,而不會“超出”預期文本。最後,他們微調每次迭代的工作方式,以便模型能夠以更少且更一致的步驟達到最終結果。
與較大的擴散模型相比,FS-DFM 在兩個重要指標上表現良好:困惑度和熵。

簡而言之,困惑度分數是語言模型中文本質量的標準衡量標準。困惑越少,文字聽起來就越準確、自然。
至於熵,它本質上衡量的是模型選擇每個單詞的置信度。在實踐中,如果熵太低,文本可能會變得重複或可預測,但如果熵太高,則可能開始聽起來混亂或不連貫。
與具有 70 億個參數的 Dream 擴散模型和具有 80 億個參數的 LLaDA 擴散模型相比,具有 1.7、1.3 和 1.7 億參數的 FS-DFM 變體始終提供更少的糾纏,並在所有迭代次數中保持更穩定的熵。
鑑於這種方法的結果和前景,以及缺乏類似的模型和研究,研究人員還表示,他們“計劃發布該模型的代碼和基準,以促進可重複性和進一步的研究。”
如果您想更深入地了解 Apple 的方法以及 Apple 模型的更具體的實現細節,請務必查看 完整的文件 在 arXiv 上。它包含幾個性能示例,例如這個示例,它對每個單詞最後修改的迭代進行顏色編碼:

令牌使用八種光顏色(開始→結束)對其最後一次更改的步驟進行編碼。早期穩定代幣出現
在早期的色調中,而後期的編輯則傾向於最終的色調,從而導致局部細化和整體收斂。
很容易看到。請注意,許多標記都是黃色的,表明它們是在過程的早期預測的。這
是由於累積標量造成的(與圖 4 不同)。
在網站上搜索“FS-DFM:使用低步擴散語言模型快速準確地生成長文本”。 arXiv。
亞馬遜上的配飾優惠
FTC:我們使用自動會員鏈接來產生收入。 更多的。