在一篇新論文中,蘋果研究人員團隊詳細介紹了一個創意框架,可以提高法學碩士對數學推理、程式碼生成等的反應。以下是詳細資訊。
擴散和自回歸相結合
在一項名為 LaDiR:潛在擴散增強文本推理的 LLM 的新修訂研究中,Apple 研究人員與加州大學聖地亞哥分校的研究人員一起,詳細介紹了一種有趣的方法,可以提高特定領域中大型語言模型 (LLM) 生成的響應質量。
之前,我們討論了擴散模型,它通過在每次傳遞中並行遍歷許多標記來生成文本,而自回歸模型則通過逐個計算和預測標記來工作。
蘋果甚至研究了用於預測和編碼蛋白質折疊的擴散模型,這非常有趣。
簡而言之,LaDiR 結合了兩種方法:它在推理過程中應用擴散,然後透過自迴歸產生最終結果。
此外,它實際上並行地處理許多推理路徑,每個路徑都運行自己的傳播過程,並具有推動它們探索不同可能性的機制,從而創建一組不同的可能答案。
他們解釋說,在推理過程中,當模型本質上確定它將響應使用者的查詢的內容和方式時,LaDiR 會產生一系列隱藏的推理區塊,每個推理區塊都以隨機模式(或雜訊)開始,並逐漸細化為更連續的步驟。
一旦模型確定它已經完成了足夠的推理,它就會切換到以自回歸方式產生最終答案,一次一個標記。
關鍵細節是 LaDiR 可以並行使用其中幾個推理路徑,使用一種鼓勵它探索不同可能性的機制,以避免它們過早地匯聚到同一個想法上,從而違背了這一切的目的。
值得注意的是,LaDiR 本身並不是一個新模型,而是一個建構在現有語言模型之上的框架。它改變了他們談論問題的方式,而不是完全取代他們。
LaDiR 的工作原理
在研究中,研究人員將 LaDiR 應用於 Meta 的 LLaMA 3.1 8B 進行數學推理和謎題規劃,並將 LaDiR 應用於 Qwen3-8B-Base 進行程式碼產生。
在數學基準測試中,LaDiR 比現有方法實現了更高的準確性,即使在更複雜的非分散式任務上也表現出更好的效能。
在 HumanEval 等程式碼產生測試中,LaDiR 的表現更加穩健,顯著優於標準微調,尤其是在解決更複雜的問題時。
在倒數遊戲等謎題式規劃問題中,LaDiR 探索了比任何基線模型更廣泛的有效答案,並比所有通用基線更可靠地找到了正確的解決方案。然而,它缺乏專門針對特定任務的單次試驗準確性模型。
儘管 LaDiR 論文的某些方面可能看起來相當技術性,但如果您對大型語言模型的內部工作原理和提高文本生成性能的新方法感興趣,那麼它值得一讀。
欲閱讀全文,請點擊此連結。
值得在亞馬遜上查看
FTC:我們使用自動會員連結來產生收入。 更多的。










