學分:Pixabay/CC0公共領域

如果您轉動分子結構的圖像,一個人可以說轉動圖像保持相同的分子,但是機器學習模型可能認為這是一個新的數據點。用計算機科學的語言,該分子是“對稱的”,這意味著如果經過某些轉換(例如旋轉),該分子的基本結構保持不變。

如果藥物檢測模型不了解對稱性,則可以對分子特性進行不准確的預測。但是,儘管取得了一些經驗成功,但尚不清楚是否有一種計算有效的方法來教授一個可以尊重對稱性的良好模型。

麻省理工學院研究人員進行的新研究回答了這個問題,並顯示了用對稱性進行機器學習的第一種方法,這是由必要數據和必要數據的觀點證明的。

這些結果闡明了基本問題,它們可以幫助研究人員開發旨在處理對稱性的更強大的機器學習模型。從檢測新材料到天文異常的檢測再到復雜氣候模型的披露,此類模型將在各種應用中有用。

“這些對稱性很重要,因為它們是我們告訴我們數據的某種信息,我們必須在機器學習模型中考慮到這些信息。現在,我們已經證明您可以使用對稱數據有效地執行機器學習,” MIT研究生和作者的聯合作者Behrooz Tahmasebi說。 學習 現在出版 arxiv 預印服務器。

他由合作社的作者和研究生MIT Ashkan Soleimani加入了報紙。電氣工程與計算機科學系副教授,數據,系統與社會研究所(IDS)和計算機和人工智能實驗室(CSAIL)的成員Stefani Dzhegelka;以及高級作家帕特里克·吉爾(Patrick Gile),杜加爾德·傑克遜(Dugald K. Jackson)的電氣工程和計算機科學教授,以及信息和決策製造系統(LIDS)實驗室的主要調查員。該研究最近在國際機器教學會議上提交(ICML 2025)於7月13日至19日在溫哥華舉行。

對稱的研究

對稱數據出現在許多領域,尤其是在自然科學和物理學中。識別對稱性的模型能夠識別一個對象,例如,無論圖像中的對像在哪裡,都可以識別對象。

如果機器學習模型不打算用於處理對稱性,則在實際情況下與新的對稱數據發生衝突時,它可能不太準確,並且可能會拒絕。另一方面,使用對稱性的模型可以更快,並且需要更少的數據進行培訓。

但是,教授處理對稱數據的模型是一項艱鉅的任務。

一種一般方法稱為數據增加,研究人員將對稱數據傳輸的每個點轉換為幾個數據點,以幫助模型更好地匯總新數據。例如,您可以多次轉動分子結構以獲取新的教育數據,但是如果研究人員希望保證該模型尊重對稱性,那麼這可能會非常過時。

另一種方法是編碼模型架構中的對稱性。一個眾所周知的例子是圖形的神經鏈(GNN),由於其開發方式,其性質過程對對稱數據進行了對稱數據。

“圖形神經網絡是快速有效的,他們非常關心對稱性,但是沒人知道這些模型正在研究什麼或它們的工作。了解GNN是我們工作的主要動機,因此我們從對數據對稱時發生的事情進行理論評估,” Tahmasby說。

他們通過對稱數據研究了機器學習中的統計計算機妥協。這種折衷是意味著需要少量數據的方法可能是更昂貴的計算計算,因此研究人員需要找到適當的平衡。

基於這一理論評估,研究人員開發了一種具有對稱數據的有效的機器學習算法。

數學組合

為此,他們從代數借來的想法來減少和簡化問題。然後,他們使用幾何形狀的思想重新制定了問題,這些想法有效地反映了對稱性。

最後,他們將代數和幾何形狀組合到了優化任務中,該任務可以有效地解決,從而導致其新算法。

塔斯比說:“大多數理論和應用都集中在代數或幾何上。在這裡,我們只是團結在一起。”

該算法所需的數據樣本比經典方法更少,這將提高模型適應新應用程序的準確性和能力。

證明科學家可以通過對稱性開發有效的機器學習算法並證明如何做到這一點,這些結果可以導致神經網絡的新體系結構的發展,這比現代模型更準確,更少。

科學家還可以將此分析用作研究GNN內部工作的起點,以及他們的運營與麻省理工學院研究人員開發的算法有何不同。

Soleimani補充說:“一旦我們發現它更好,我們將能夠開發出更多的解釋,更可靠,更有效的神經網絡架構。”

更多信息:
Ashkan Soleymani等。在多項式時間內具有準確不變的訓練, arxiv (2025)。 doi:10.48550/arxiv.2502.19758

期刊信息:
arxiv


馬薩諸塞州技術研究所提供


這個故事重印為麻省理工學院新聞(web.mit.edu/newsoffice/),一個受歡迎的網站,涵蓋有關研究,創新和麻省理工學院教學的新聞。

引用:新算法通過對稱數據結構提供有效的機器學習(2025年7月30日)。 2025年7月30日與https://techxplore.com/news/2025-07-Algorithm-engorithm-enables-eaffius-machine-smmmetric.html接收

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結