如何測試「誠實的」人類人工智慧 Claude Opus 4.8

28 5 月 2026

Anthropic 還沒有準備好讓普通用戶看到據稱強大的 Claude Mythos AI 模型。但這家人工智慧公司剛剛發布了其旗艦產品 Claude Opus 的升級版——現在版本為 4.8。

Anthropic 在周四的新聞稿中承諾：「它建立在 Opus 4.7 的基礎上，對所有基準進行了改進，是一個更高效的合作夥伴。」事實上，下面的基準數據顯示，全面的改進非常小。

根據權利要求，一個重大改進是在幻覺方面。 Claude Opus 4.8 不會對使用者撒那麼多謊。「早期測試人員報告稱，Opus 4.8 更有可能強調其工作的不確定性，並且不太可能提出未經證實的主張，」Anthropic 稱讚該模型的「誠實」。

Claude Opus 4.8 有“更好的判斷力”

「Claude Opus 4.8 的判斷力明顯更好，」Shopify 工程師 Tom Pritchard 告訴 Anthropic。該模型的編碼版本「提出正確的問題，發現自己的錯誤，並在計劃不正確時逆轉」。

鑑於越來越多關於人工智慧代理刪除整個公司資料庫的恐怖故事，這項承諾可能對世界各地的氛圍程式設計師來說是美妙的。

可混搭光速

為了取悅高級用戶，Anthropic 在「快速模式」上提供大幅折扣，在該模式下，克勞德將以正常速度的 2.5 倍運行。該公司表示，快速模式「現在比以前的型號便宜三倍」。

然而，Reddit 上的用戶並不買單。許多人擔心失去更受歡迎的型號 Claude Opus 4.6。「沒有人相信基準圖表，」一位 Reddit 用戶簡潔地寫道，並指出 Opus 4.7 在發佈時似乎也有相當不錯的數據。

無論我們是否可以相信這些基準——需要明確的是，Mashable 尚未獨立驗證這些數字——這就是 Anthropic 所聲稱的。

信用：人類

Claude Opus 4.8 現已透過 Anthropic 的網站 Claude.AI、Claude API 以及 Anthropic 的合作夥伴（例如 Microsoft Foundry）提供。

新型號的價格與其前代型號（即直至 Claude Opus 4.5 的型號）完全相同。所有這些將花費您每百萬輸入代幣 5 美元和每百萬輸出代幣 25 美元。

然而，由於 Anthropic 承諾在幾週內實現克勞德神話，因此您可能想坐下來等待，看看這個模型是否能夠更「誠實」地對待它的幻覺。

主題
人擇人工智慧