Home 資訊 新研究表明人工智能尚未為辦公室工作做好準備

新研究表明人工智能尚未為辦公室工作做好準備

9

微軟首席執行官薩蒂亞·納德拉 (Satya Nadella) 預測基因人工智能將接管知識已經過去近兩年了,但如果你看看今天的典型律師事務所或投資銀行,人力資源仍然佔據著主導地位。儘管大肆宣傳“思考”和“編程”,但數據培訓公司 Mercor 的一項新研究準確解釋了機器人革命停滯不前的原因:人工智能根本無法處理實際工作中的混亂情況。

對“替代”理論的現實檢驗。

Mercor 發布了一個名為 APEX-Agents 的新基準,它非常殘酷。與要求人工智能寫一首詩或解決數學問題的通常測試不同,該測試使用律師、顧問和銀行家提出的真實問題。它要求模型執行全面的多步驟任務,需要在不同類型的信息之間跳轉。

結果?即使是市場上絕對最好的型號(我們談論的是 Gemini 3 Flash 和 GPT-5.2),準確率也無法達到 25%。 Gemini 以 24% 領先,GPT-5.2 以 23% 緊隨其後。其他大多數人都停留在青春期。

為什麼人工智能未能通過“桌面測試”

Mercor 首席執行官布倫丹·福迪 (Brendan Foody) 指出,原始情報並不是問題所在。是上下文。在現實世界中,答案並不是唾手可得的。律師必須檢查 Slack 線程、閱讀政策 PDF、查看電子表格,然後將所有內容放在一起來回答 GDPR 合規性問題。

人類會自然地進行這種上下文切換。事實證明,人工智能在這方面表現得很糟糕。當你強迫這些模型在“分散”的來源中尋找信息時,它們要么會感到困惑,要么給出錯誤的答案,要么乾脆完全放棄。

不可靠的實習生

對於任何擔心自己工作保障的人來說,這都是一種解脫。研究表明,目前人工智能的表現不再像經驗豐富的專業人士,而更像是一個不可靠的實習生,大約有四分之一的時間能做對事情。

也就是說,進展速度快得驚人。 Foody 指出,就在一年前,這些模型的得分在 5% 到 10% 之間。現在他們達到了24%。因此,雖然他們還沒有準備好開車,但他們正在學習駕駛速度比我們預期的要快得多。然而,目前“知識工作”革命仍處於擱置狀態,直到機器人學會如何同時處理多項任務。

來源連結