我們如何區分人工智慧的好壞？

13 5 月 2026

在通往高效能人工智慧之路的眾多步驟中，最重要的步驟之一是由當時普林斯頓大學電腦科學系助理教授李飛飛於 2007 年採取的。李利用亞馬遜的 Mechanical Turk 服務收集了數百萬個小型人類判斷動作，創建了一個大型手工標記圖像資料庫。

「我們的目標是為每種類型的主題拍攝 1,000 張不同的照片，」她在自傳中寫道。我所看到的世界。 “一千張小提琴的照片。一千張德國牧羊犬的照片。”

ImageNet 資料庫於 2009 年推出，李發起了一場研究人員競賽，以創建最佳圖像辨識演算法。幾年後，一位名叫 Alex Krizhevsky 的研究生在 AI 先驅 Geoffrey Hinton 的指導下，在 ImageNet 上訓練了一個神經網路並擊敗了競爭對手。

神經網路幾十年來一直年久失修。這是一個聰明的主意。但電腦運作速度太慢。且資料集太小。但李的數據集不同：它看起來愚蠢、巨大且無用。它成為神經網路的完美輸入。這顯示了數據的力量與神經網路的力量結合。這也證明了李利用人類判斷將數百萬個標籤應用於大量圖像的想法。教訓：如果你能測量它，你就能自動化它。

但事實證明，影像辨識神經網路會以意想不到的方式變得脆弱。 2015 年的報告《深度神經網路很容易被愚弄》要求最先進的系統將一個又一個的樣本分類為純粹靜態的“知更鳥”，該網絡在考慮隨機噪聲時以超過 99.5% 的置信度表示。「犰狳」、「孔雀」。問題在於網路只見過有意義的圖像。並且能自信地說出根本沒有的意思

這是人工智慧能力的「粗糙邊緣」這個術語，指的是人工智慧模型可以在一項任務上表現出色，但在另一項任務上卻表現得非常令人失望。就像神經網路暴露在穩態條件下一樣。

這種粗糙的能力本身並不是問題。該報告的合著者、經濟學家約書亞·甘斯 (Joshua Gans) 表示：“每種技術都有擅長某些方面，但也有擅長某些方面的缺點。” 預測機最好使用開罐器來打開湯罐頭，並使用錘子將釘子釘入牆壁。不是相反，但甘斯補充道，“問題是，當使用人工智慧時，我們不知道哪個是哪個。”

這就引出了一個問題：我們如何知道人工智慧運作良好？當神經網路標記犰狳靜態時，很容易看出問題。但接受這樣的請求，以愛德華霍普的風格創作聖女貞德的形象，是多麼令人印象深刻呢？代理是否真的預訂了一家餐廳，或者除了我日曆上的空間之外沒有預訂任何東西？我要求的商業計劃和演示是否具有說服力並且漏洞百出？或者——也許是最壞的情況——有說服力但漏洞百出？

最有問題的情況是那些很難知道人工智慧是否正常運作的情況。如果人工智慧寫出有缺陷的程式碼或笨拙的散文，結果證明它無效，那麼代價就會很高。這將被檢測到並修復。如果程式碼隱藏了安全漏洞散文中充滿了捏造的事實或抄襲的短語。或結構工程計算似乎不錯。但這棟建築在第一場暴風雨中就倒塌了。這是一個問題。儘管錯誤很少並且平均質量非常好，但這仍然是一個問題。隨著人工智慧變得更加強大，這些問題只會變得更加嚴重。這是因為更具挑戰性的任務通常更難以評估。

兩份新的工作文件解決了品質檢查的棘手問題。在《AGI 的一些簡單經濟學》中，Christian Catalini、Xiang Hui 和 Jane Wu（有時甚至祝賀 AI 生成）提供了一個不可避免的 2×2 矩陣。這種經濟活動可以輕鬆自動化。很容易檢查兩者或兩者。計算機為我們提供自動化、可驗證的輸出。非自動製作的東西仍然充滿信心地手工製作。

困難象限是看似容易完成但難以驗證的任務。 Catalini、Hui 和 Wu 稱之為「困難象限」。「無風險區」並不是一個令人安心的標籤，也不是這樣的。品質檢驗問題並不新鮮。想想旅遊景點中的建築承包商、二手車或餐廳。在這樣的背景下，低品質的產品常常佔據市場，例如虎杖，因為最好的供應商很難證明自己是最好的。

解決方案包括評論、推薦或長期值得信賴的品牌。（杜蕾斯和特洛伊等熟悉的品牌在安全套市場上佔據主導地位並非沒有原因。沒有人想要一個不可預測的保險套）在一個大型、高風險的項目上。可以選擇起訴財力雄厚的交易對手會有所幫助。但沒有理想的解決方案。危險在於，人工智慧將創造出如此多的可能解決方案，以至於超出了我們檢測它們的能力。提出足夠幻覺的法律論點。有缺陷的工程計算、密碼和髒水桶的填充速度比我們區分好工作和壞工作的能力更快。

在第二份報告「鋸齒狀智慧模型」中，約書亞·甘斯（Joshua Gans）提供了一個類比，要求人工智慧執行任務就像試圖透過由偶爾有支柱支撐的木板網路過河。鋸齒狀的邊緣顯示一些木板又長又搖晃。而另一些則又矮又壯。問題一：雖然木板通常很堅固，但搖搖欲墜的木板會花費你大量的時間和注意力。問題二：如果你無法提前預測哪塊木板會讓你失敗，那麼你完全避免人工智慧可能是相當合理的。帶著自己走老路

正如甘斯正確指出的那樣，大多數矽谷人工智慧公司都在努力提高其人工智慧系統的平均性能，即讓整個木板變得更強。最好集中精力加固最不穩定的部分。但這是假設你知道它是什麼。這就引出了第三種解決方案：提高系統的可預測性。如果你事先知道搖搖晃晃的木板在哪裡，它們就沒有那麼危險了。

如果。

首次撰寫並發表於金融時報 2026 年 3 月 18 日

我將參加四月的倫敦馬拉松來支持。這是一個很好的理由。.如果你覺得你可以貢獻一些東西。我將非常感激。

來源連結

我們如何區分人工智慧的好壞？

LEAVE A REPLY Cancel reply

最新文章

肖恩·布雷迪：斯特里克蘭和奇馬耶夫必須永遠保持同樣的能量

最高法院維持禁止郵寄墮胎藥的裁決

印度新聞|國家商業銀行在國際大麻和大麻油販運案中對六人定罪

最佳遊戲顯示器優惠：27 吋 LG UltraGear OLED 現在亞馬遜 40% 折扣

川普前往北京與習近平就貿易、伊朗和台灣問題進行談判

週二玉米漲

世界新聞 |印度人民黨議員 Biplab Kumar Deb 率領議會代表團訪問不丹

部類