新研究表明人工智能尚未為辦公室工作做好準備

微軟首席執行官薩蒂亞·納德拉 (Satya Nadella) 預測基因人工智能將接管知識已經過去近兩年了，但如果你看看今天的典型律師事務所或投資銀行，人力資源仍然佔據著主導地位。儘管大肆宣傳“思考”和“編程”，但數據培訓公司 Mercor 的一項新研究準確解釋了機器人革命停滯不前的原因：人工智能根本無法處理實際工作中的混亂情況。

對“替代”理論的現實檢驗。

Mercor 發布了一個名為 APEX-Agents 的新基準，它非常殘酷。與要求人工智能寫一首詩或解決數學問題的通常測試不同，該測試使用律師、顧問和銀行家提出的真實問題。它要求模型執行全面的多步驟任務，需要在不同類型的信息之間跳轉。

結果？即使是市場上絕對最好的型號（我們談論的是 Gemini 3 Flash 和 GPT-5.2），準確率也無法達到 25%。 Gemini 以 24% 領先，GPT-5.2 以 23% 緊隨其後。其他大多數人都停留在青春期。

為什麼人工智能未能通過“桌面測試”

Mercor 首席執行官布倫丹·福迪 (Brendan Foody) 指出，原始情報並不是問題所在。是上下文。在現實世界中，答案並不是唾手可得的。律師必須檢查 Slack 線程、閱讀政策 PDF、查看電子表格，然後將所有內容放在一起來回答 GDPR 合規性問題。

人類會自然地進行這種上下文切換。事實證明，人工智能在這方面表現得很糟糕。當你強迫這些模型在“分散”的來源中尋找信息時，它們要么會感到困惑，要么給出錯誤的答案，要么乾脆完全放棄。

不可靠的實習生

對於任何擔心自己工作保障的人來說，這都是一種解脫。研究表明，目前人工智能的表現不再像經驗豐富的專業人士，而更像是一個不可靠的實習生，大約有四分之一的時間能做對事情。

也就是說，進展速度快得驚人。 Foody 指出，就在一年前，這些模型的得分在 5% 到 10% 之間。現在他們達到了24%。因此，雖然他們還沒有準備好開車，但他們正在學習駕駛速度比我們預期的要快得多。然而，目前“知識工作”革命仍處於擱置狀態，直到機器人學會如何同時處理多項任務。

來源連結

新研究表明人工智能尚未為辦公室工作做好準備

對“替代”理論的現實檢驗。

為什麼人工智能未能通過“桌面測試”

不可靠的實習生

More Stories

密蘇裡州籃球隊名單：計算 2026-27 賽季的比賽輪換

Midjourney 宣布驚喜收購熱門星座應用程式 Co-Star

「Hum Jeet Gaye」：普拉丹辭職後簡塔·曼塔天文台的淚水和歡樂

You may have missed

青年與作品，喬迪·阿爾伯里奇

Mount Bromo Jazz是Probolingo的主要旅遊推廣舞台

以色列在約旦河西岸發生致命暴力事件後拘留了七十多名嫌疑人

密蘇裡州籃球隊名單：計算 2026-27 賽季的比賽輪換

對“替代”理論的現實檢驗。

為什麼人工智能未能通過“桌面測試”

不可靠的實習生

More Stories

密蘇裡州籃球隊名單：計算 2026-27 賽季的比賽輪換

Midjourney 宣布驚喜收購熱門星​​座應用程式 Co-Star

「Hum Jeet Gaye」：普拉丹辭職後簡塔·曼塔天文台的淚水和歡樂

You may have missed

青年與作品，喬迪·阿爾伯里奇

Mount Bromo Jazz是Probolingo的主要旅遊推廣舞台

以色列在約旦河西岸發生致命暴力事件後拘留了七十多名嫌疑人

密蘇裡州籃球隊名單：計算 2026-27 賽季的比賽輪換

Midjourney 宣布驚喜收購熱門星座應用程式 Co-Star