學分:Pixabay/CC0公共領域

本月初,當Openai 發行 他的最後一次旗艦人工智能係統(AI)GPT-5說,該公司表示,它比早期的型號“在各個方向上都聰明得多”。在評估程序編碼,數學和醫療保健等領域的許多測試中,索賠的儲備複製是一個很高的分數。

這樣的測試已成為一種標準方式,我們評估了AI系統,但它們並沒有告訴我們很多關於這些系統在現實世界中的實際生產力和後果的信息。

測量人工智能模型如何更好?一群研究人員和計量學家 – 測量科學專家 – 非常 他為前進方向場地

計量學在這裡很重要,因為我們不僅需要方法來確保AI系統的可靠性,而且我們可以越來越依賴它,而且還可以衡量其更廣泛的經濟,文化和社會影響力。

安全測量

我們依靠計量學來確保使用我們使用的可靠性工具,產品,服務和流程。

以生物醫學倫理和健康狀態將我的內心接近。在醫療保健領域,II承諾將改善患者的診斷和監測,使藥物更個性化並有助於預防疾病,並執行一些行政任務。

這些承諾只有在我們可以確定健康AI安全有效的情況下才能實現,這意味著尋找可靠的方法來衡量它。

例如,我們已經建立了用於衡量藥物和醫療設備的安全性和有效性的系統。但這尚不適用於AI,不適用於醫療保健或其他領域,例如教育,就業,執法機構,保險和生物識別技術。

驗證結果和實際影響

當前,大多數現代的AI系統都是基於控制指標。這些是旨在根據其結果評估AI系統的測試。

他們可以回答有關係統答案準確或相關的頻率,或與人類專家的答案相比的問題。

實際上有數百個AI測試涵蓋 寬的 範圍知識領域場地

然而,參考性能幾乎沒有告訴我們這些模型在實際設置中的影響。為此,我們需要考慮部署系統的上下文。

標準的問題

對於AI的商業開發商來說,招手已經變得非常重要,以展示產品性能並吸引資金。

例如,今年4月,一家年輕的初創公司叫 認知AI 關於令人印象深刻的結果 軟件工程階段此後不久,該公司籌集了 1.75億美元(2.7億美元)的融資 在一項估計為20億美元(31億美元)的交易中。

這些數字也是蓋德。元似乎有 調整 其Llama-4模型的某些版本可在出色的聊天機器人級網站上優化您的評估。在Openai O3模型稱讚Frintiermath測試儀之後,事實證明該公司 可以訪問數據集 標準背後提出了有關結果的問題。

一般風險在這裡被稱為 古德哈特法在英國經濟學家查爾斯·古德哈特(Charles Gudhart)之後:“當措施成為目標時,它就不再是一個很好的措施。”

Rumman Chuudkhuri誰幫助形成了算法倫理領域的發展,對指標過於重視,這可能會導致“操縱,遊戲和近視的關注和短期質量的關注,並且對長期後果的考慮不足”。

在測試之外

因此,如果沒有測試,那呢?讓我們回來以健康AI為例。一個 第一個測試 為了評估大語(LLM)的有用性,醫療許可的考試用於醫療護理。他們被用來評估醫生在允許特定司法管轄區練習之前的能力和安全性。

現代模型現在到達 幾乎完美的評估 在這樣的測試中。但是,他們是 他們被廣泛批評 為了不充分反映實際臨床實踐的複雜性和多樣性。

作為回應,開發了新一代的“整體”框架,以評估這些模型對更多樣化和現實的任務。在醫療領域中,最困難的是 Medhelm 該評估包括五類臨床任務中的第35個標準,從做出決策以及對溝通和研究做出記錄。

如何最好地看測試

更多的整體評估框架(例如Medhelm)試圖避免這些陷阱。開發它們是為了反映特定實踐領域的實際要求。

然而,這些框架仍然與人們如何與現實世界中的AI系統互動。而且,他們甚至沒有開始對自己工作的更廣泛的經濟,文化和社會背景的影響。

為此,我們需要一個全新的評估生態系統。他將不得不依靠科學界,工業和民間社會的檢查,以開發嚴格且可重複的方法來評估AI系統。

對此進行的工作已經開始。有一些方法可以評估AI系統在部署的上下文中的真實影響,例如RED命令(測試人員故意嘗試從系統中產生不良結果)和現場測試(在實際環境中測試系統)。下一步是改進和系統化這些方法,以便實際被認為可靠地測量的方法。

如果AI甚至提供了正在旋轉的轉型的一部分,我們需要一門測量科學來保護我們所有人的利益,而不僅僅是技術精英。

更多信息:
Reva Schwartz等。 arxiv (2025)。 doi:10.48550/arxiv.2505.18893

期刊信息:
arxiv


這是通過對話確保的


本文從 講話 根據創意共享。讀 原始文章場地講話

引用:AI系統在測試中很棒。但是他們在現實生活中如何表現? (2025年8月25日)於2025年8月25日從https://techxplore.com/news/2025-08-siree-real-life.html收到

該文檔具有版權。除了出於私人研究或研究目的的一些公平交易外,如果沒有書面解決方案,就無法再現。內容僅用於信息目的。



來源連結