Bloom-176B培訓中的一個安靜錯誤。信用: arxiv (2025)。 doi:10.48550/arxiv.2506.14813
Traincheck使用培訓不變式來找到錯誤的主要原因,然後再導致線程問題,節省時間和資源。
密歇根大學開發的一個新的開源框架在深入訓練中訓練期間發生時會積極發現沉默的錯誤。這些難以確定問題不會導致明顯的培訓失敗,而是會悄悄地破壞模型的生產力,花費寶貴的資源和時間。
成績 火車檢查 該結構僅在一次迭代中揭示了20個無聲學習的真實錯誤中的18個,而當前的方法僅捕獲了兩種,並在流行的培訓庫中發現了6個以前未知的錯誤。研究人員在最近提出的一項研究中介紹了火車檢查 USENIX關於操作系統設計和實施的研討會 (OSDI)在波士頓。
“開發了火車檢查,我們努力為開發人員提供解決無聲錯誤的最佳工具,最終提供了更可靠的AI系統,”計算機科學和工程領域的UM UM副教授,研究的高級作者Ryan Juang說。
在深入的教育期間,人工神經網絡學會使用大量數據使用幾個週期內的參數來執行任務,以實現所需的性能。大型人工智能模型,例如大型語言(LLM)和計算機視覺模型的模型,訓練昂貴,這使無聲錯誤特別昂貴,因為它們允許您繼續培訓,這會導致非最佳模型。
當前方法使用高級別信號監測深度學習的訓練,例如,損失(將模型的預測與正確的答案進行了比較),準確性(正確答案的百分比)和梯度規範(模型參數在每個培訓階段的指標發生了多少變化)。
然而,這些具有鳥類外觀的指標是嘈雜的,在訓練過程中自然波動,這使正常變化與真正問題之間的差異變得複雜。例如,關於他的Bloom-176B LLM的擁抱面培訓錯過了一個無聲的錯誤,因為這並沒有引起損失或轉彎的明顯變化。該錯誤導致在不同圖形處理器上工作的模型的副本單獨分發,這使得最終訓練的模型不合適,因此花費了幾個月的昂貴計算。
新的火車檢查方法取決於對不變的培訓,這些培訓是在整個培訓過程中不斷支持的規則。該結構不斷控制不變的訓練,立即警告開發人員有關偏差的問題,並提供了詳細的調試信息,以幫助找出出了什麼問題。與以前無法找到主要原因的高級方法相比,這是向前邁出的一大步,即使發現問題。
Yuksuan Jiang說:“與傳統方法相比,Traincheck對訓練不變式的結論和監視提供了快速的識別和解決,這是一個重大進步。它為檢測機器學習框架中錯誤的新標准設定了新標準。”
研究小組將火車檢查員與20個安靜的錯誤進行了比較,將性能與四種現有檢測方法進行了比較。從先前的研究中提取了六個安靜的錯誤,其餘14個是從開發人員論壇(Github,Stackoverflow和社交網絡)上討論的問題中提取的,以確保他們測試了開發人員面臨的問題的結構。
在20個安靜的錯誤中,Train檢查成功發現了18個,而只有兩個探測器發現了高級別的信號。診斷診斷發現診斷發現了18個錯誤,檢測到違規行為的報告,違規報告發現了10例確切的主要原因,並在其他八個案件附近定位。相反,高級別檢測器只能給出一個錯誤的診斷提示。
Juang說:“我們對使用其基本不變方法在解決真正的問題方面的表現良好給我們留下了深刻的印象。”
在評估虛假錯誤時,Traincheck警告開發人員虛假錯誤,但要低速。儘管發生了錯誤的焦慮,但他們遵循了可識別的法律,使他們相對容易被駁回。
強大的結果表明,可以將火車檢查納入機器學習的各種範圍,從而為開發人員提供預先避免錯誤的工具。提供對沉默錯誤的早期檢測,它可以最大程度地減少浪費的資源,並提高模型的準確性和可靠性。
未來的適應可以改善火車檢查,從而為開發人員提供更多的調試幫助,並將連續驗證方法擴展到其他計算域,例如分佈式系統,提高穩定性和性能,而無聲錯誤是常見的。
更多信息:
Yuxuan Jiang等人,充滿信心的培訓:用自動化的主動檢查教授深入訓練時,會遇到無聲的錯誤, arxiv (2025)。 doi:10.48550/arxiv.2506.14813
Githubub: github.com/orderlab/traincheck
引用:改進AI模型:自動化工具在深度訓練中檢測到無聲錯誤(2025年7月24日)。 2025年7月24日從https://techxplore.com/news/2025-07-automated-tool-silent-erorors.html收到
該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。