AUC在各種答案模型的測試集中。信用: arxiv (2025)。 doi:10.48550/arxiv.2503.1335
對AI新語言模型的進度的評估可能與他們的培訓一樣困難。斯坦福大學的研究人員提供了一種新方法。
由於新版本的人工智能語言模型的開發頻率增加,因此許多人對提高性能的陳述進行了此操作。證明新模型實際上比後者更好,因此對於該領域來說仍然是一個難以捉摸且昂貴的問題。
通常,為了證明自己的力量並提高了對新模型確實更好的信心,開發人員為控制問題電池揭露了新模型。可能,數十萬此類控制問題存儲在銀行中,人們應考慮答案,從而增加了過程和成本。
實際限制使每個問題都無法詢問每個模型,因此開發人員選擇一個子集,從而引入了基於較溫和的問題進行改進的風險。斯坦福大學的研究人員目前在國際機器學習會議上提出的新文章中提出了一種經濟有效的方法來保留這些評估(ICML 2025)有一項研究 可訪問 在 arxiv 預印服務器。
“我們要做的關鍵觀察是,您還應該解釋問題有多複雜,”領導該研究的工程學院計算機科學系副教授Sanmi Koyejo說。 “有些模型可以實現平局的更多或最糟糕的運氣。我們正在嘗試預見這一點,並適應更公平的比較。”
斯坦福大學人工智能實驗室的候選人桑特·特隆(Sang Trong)補充說:“這種評估過程通常比培訓本身的成本相同或更高。” “我們創建了一個基礎架構,使我們能夠根據複雜性適應問題的子集。她使競爭環境保持一致。”
蘋果和橘子
為了實現自己的目標,Koyeo,Trung和他的同事從教育中藉用了這一概念,被稱為受試者答案的理論,該理論考慮了評估測試集時問題的複雜性。 Koyejo將其與相同的標準化測試(例如SAT和其他類型的自適應測試)進行了比較。每個正確或錯誤的答案都會改變以下問題。
研究人員使用語言模型來分析問題並通過複雜性進行評估,並將成本降低兩倍,在某些情況下降低了80%以上。這種複雜性使研究人員可以比較兩個模型的相對性能。
為了以經濟有效的方式建立一個大型,多樣化的問題,研究人員使用AI的生成力量來創建一個問題,可以將其準確地配置為任何所需的複雜程度。這有助於自動化問題的補充,並從數據庫中選擇“污染”問題。
快速公平
根據作者的說法,有了最好的問題,該領域的其他人可以更好地評估生產力,以較小的要求。這種方法更快,更公平,更便宜。
新方法還可以在知識領域的領域 – 從醫學和數學到法律。 Koyejo針對22個數據集和172個語言模型檢查了系統,發現它很容易適應新的模型和問題。
他們的方法最終能夠概述GPT 3.5安全區域的薄偏移,首先變得更好,然後在2023年測試的幾種變體中撤退。
在對語言模型進行了可靠評估之後,有一個昂貴且不一致的前景,對元素響應理論的一種新方法建立了嚴格,可擴展和適應性的評估。對於開發人員而言,這意味著更好的診斷和更準確的有效性評估。對於用戶而言,這意味著更公平,更透明的模型評估。
“對於其他所有人來說,”科耶說。 “這將意味著更快的進步和對快速開發人工智能工具的信任。”
更多信息:
Sang Truong等人,一種可靠有效的攤銷模型評估, arxiv (2025)。 doi:10.48550/arxiv.2503.1335
引用:新方法使對AI語言模型的評估速度更快,更公平,更便宜(2025年,7月15日)。收到2025年7月15日
該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。