在人工智能代理的趨勢中,隨著本週 Anthropic 和 OpenAI 都推出了多代理工具,Anthropic 已經準備好展示其在人工智能編碼方面最大膽的一些實驗。但與往常一樣,對於人工智能相關突破的宣稱,也存在一些重大警告。
週四,人類學家 Nicholas Carlini 發表了一篇博文,描述了他如何在最少的監督下將公司 Claude Opus 4.6 AI 模型的 16 個版本放置在共享代碼庫上,並要求他們從頭開始構建 C 編譯器。
經過兩週的時間和近 2,000 個 Claude Code 會話,花費了約 20,000 美元的 API 費用,AI 模型代理據說已經生成了一個基於 100,000 行的編譯器,能夠在 x86、ARM 和 RISC-V 架構上構建可啟動的 Linux 6.9 內核。
Carlini 是 Anthropic 保障團隊的研究科學家,此前曾在 Google Brain 和 DeepMind 工作過七年,他使用了 Claude Opus 4.6 中推出的一項名為 Agent Teams 的新功能。在實踐中,Claude 的每個實例都在自己的 Docker 容器內運行,克隆共享的 Git 存儲庫,通過寫入鎖定文件來聲明任務,然後將完成的代碼推回上游。沒有協調代理來指揮交通。每個案例都獨立地確定了下一步最明顯需要解決的問題,並著手解決它。當出現合併衝突時,AI模型實例會自行解決。
Anthropic 在 GitHub 上發布了最終的編譯器,可以編譯一組主要的開源項目,包括 PostgreSQL、SQLite、Redis、FFmpeg 和 QEMU。它在 GCC 折磨測試套件中取得了 99% 的成功率,並且在 Carlini 所說的“開發人員的終極測試”中,它編譯並運行 死亡。
值得注意的是,C 編譯器對於編碼半自主 AI 模型來說是一項近乎完美的任務:該規範已有數十年曆史,全面、定義明確的測試套件已經存在,並且有一個眾所周知的參考編譯器可供檢查。大多數現實世界的軟件項目都不具備這些優勢。大多數開發中最困難的部分不是編寫通過測試的代碼,而是編寫通過測試的代碼。首先要知道測試應該是什麼。
發布日期: 2026-02-06 23:40:00
來源連結: arstechnica.com










