什麼折疊統治者可以告訴我們有關神經網絡的

14 7 月 2025

彈簧阻滯和深神經網絡鏈之間的類比說明。信用： 物理評論信 （2025）。 doi：10.1103/ys4n-2tj3

深度神經網絡是人工智能的基礎，從對樣本的識別到大型語言和推理模型，例如ChatGpt。原理：在訓練階段，對網絡的人工神經元的參數進行了優化，以使它們可以執行特定任務，例如自主檢測對像或圖像中的特徵特徵。

這是如何工作的以及為什麼某些神經網絡比其他神經網絡更強大並不容易理解。當前方法似乎無法訪問嚴格的數學描述。然而，如果某人想在最小化資源時創建人工智能，那麼這樣的理解很重要。

由巴塞爾大學數學和計算機科學學院教授Ivan Dokmanich教授領導的研究人員現在已經開發了一個非常簡單的模型，它重現了深神經網絡的主要特徵，並允許我們優化其參數。他們出版他們的結果c 物理評論信場地

神經網絡中的勞動分離

深度神經網絡由幾層神經元組成。當學習圖像中對象的分類時，網絡接近級別的答案級別。這種漸進的方法，在此過程中，兩個類別（例如“貓”和“狗”）被越來越清晰地區分，稱為數據分離。

Dokmanich說：“通常，一個良好有效的網絡中的每一層都會同樣分離數據，但有時大部分工作都是在更深或更小的層中進行的。”

除其他外，這取決於網絡的構建方式：神經元是否只是將傳入的數據與專家稱為“線性”的一定因素相乘？還是他們執行更複雜的計算 – 換句話說，網絡是“非線性”？

進一步考慮：在大多數情況下，神經網絡的訓練階段還包含一個隨機性或噪聲的元素。例如，在每個訓練回合中，無論其輸入如何，都可以簡單地忽略神經元的意外子集。奇怪的是，這種噪音可以增加網絡的性能。

Dokmanich說：“非線性和噪聲之間的相互作用導致非常複雜的行為，這很難理解和預測。”

“另一方面，我們知道數據分離之間的平等分佈會增加網絡的生產率。”

因此，為了取得進步，Dokmanich及其員工在物理理論中汲取了靈感，並開發了可以從直觀上清楚的學習過程的宏觀機械模型。

這些模型之一是折疊標尺，其單獨的部分對應於神經網絡的層，並在一端打開。在這種情況下，非線性來自部分之間的機械摩擦。可以通過在牽引過程中隨機搖動折疊尺的末端來添加噪聲。

這個簡單的實驗的結果是：如果某人緩慢而穩定地拉出標尺，則第一部分展開，而其餘部分仍在很大程度上關閉。

哲學博士Cheng Shi解釋說：“這對應於神經網絡，其中數據的分離主要在小層中發生。” Dokmanich小組的學生和第一位研究作者。反之亦然，如果某人迅速伸展，當它搖動一點時，折疊式尺子的結束精美，均勻地展開。在網上，這將是數據的統一分離。

Shi說：“我們模擬和數學分析了與彈簧連接的塊相似的模型，結果與“真實”網絡之間的一致性幾乎是奇怪的。”

巴塞爾研究人員計劃在不久的將來將其方法應用於大型語言模型。通常，將來可以使用此類機械模型來改善高性能深入 – SEA神經網絡的訓練，而無需接近樣品和錯誤，傳統上用於確定參數的最佳值，例如噪聲和非線性。

更多信息：
Cheng Shi等。 物理評論信 （2025）。 doi：10.1103/ys4n-2tj3

由巴塞爾大學提供

引用：什麼折疊統治者可以告訴我們有關神經網絡的信息（2025年7月14日）。 2025年7月14日收到

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外，如果沒有書面解決方案，就無法再現。內容僅用於信息目的。