即使是最好的 一項挑戰人工智能大規模取代辦公室職員的實驗表明,人工智能代理人非常渴望在線自由職業。
遠程勞動力指數是由數據註釋公司 Scale AI 和非營利性人工智能安全中心 (CAIS) 的研究人員開發的新基準,衡量前沿人工智能模型自動化具有經濟價值的工作的能力。
研究人員給幾位頂級人工智能代理提供了一系列模擬自由職業任務,結果發現,即使是最好的人工智能代理也只能完成不到 3% 的工作,在可能的 143,991 美元中賺取 1,810 美元。研究人員研究了幾種工具,發現最有能力的是中國同名初創公司的 Manus,其次是 xAI 的 Grok、Anthropic 的 Claude、OpenAI 的 ChatGPT 和 Google 的 Gemini。
CAIS 主任丹·亨德里克斯 (Dan Hendrycks) 表示:“我希望這能讓人們更準確地了解人工智能功能的情況。”他補充說,雖然一些因素在過去一年中得到了顯著改善,但這並不意味著這種情況將以同樣的速度持續下去。
人工智能的驚人進步引發了人們的猜測:人工智能將很快超越人類智能並取代大量工人。 3 月份,Anthropic 首席執行官 Dario Amodei 表示,90% 的編碼工作 它將是自動化的 幾個月內。
之前的人工智能浪潮引發了關於工作崗位流失的錯誤預測,例如 即將更換放射科醫生 與人工智能算法。
研究人員通過經過驗證的 Upwork 工人創造了一系列自由職業。工作涵蓋一系列任務,包括圖形設計、視頻編輯、遊戲開發和數據抓取等管理任務。他們將每項任務的描述與執行該任務所需的文件列表以及人類創建的已完成項目的示例結合起來。
Hendrycks 表示,雖然近年來人工智能模型在編碼、數學和邏輯推理方面取得了更好的成績,但它們仍然難以使用不同的工具並執行涉及多個步驟的複雜任務。 “他們沒有長期記憶存儲,無法不斷從經驗中學習。他們無法像人類一樣獲得工作技能,”他說。
該分析與 OpenAI 9 月份提供的基準經濟論文提供了對比,該論文名為 GDP值它應該衡量具有經濟價值的工作。根據 GDPval 的說法,GPT-5 等前沿人工智能模型在一系列辦公任務中的 220 項任務中接近人類的能力。 OpenAI沒有發表評論。










