Anthropic 還沒有準備好讓普通用戶看到據稱強大的 Claude Mythos AI 模型。但這家人工智慧公司剛剛發布了其旗艦產品 Claude Opus 的升級版——現在版本為 4.8。
Anthropic 在周四的新聞稿中承諾:「它建立在 Opus 4.7 的基礎上,對所有基準進行了改進,是一個更高效的合作夥伴。」事實上,下面的基準數據顯示,全面的改進非常小。
根據權利要求,一個重大改進是在幻覺方面。 Claude Opus 4.8 不會對使用者撒那麼多謊。 「早期測試人員報告稱,Opus 4.8 更有可能強調其工作的不確定性,並且不太可能提出未經證實的主張,」Anthropic 稱讚該模型的「誠實」。
Claude Opus 4.8 有“更好的判斷力”
「Claude Opus 4.8 的判斷力明顯更好,」Shopify 工程師 Tom Pritchard 告訴 Anthropic。該模型的編碼版本「提出正確的問題,發現自己的錯誤,並在計劃不正確時逆轉」。
鑑於越來越多關於人工智慧代理刪除整個公司資料庫的恐怖故事,這項承諾可能對世界各地的氛圍程式設計師來說是美妙的。
可混搭光速
為了取悅高級用戶,Anthropic 在「快速模式」上提供大幅折扣,在該模式下,克勞德將以正常速度的 2.5 倍運行。該公司表示,快速模式「現在比以前的型號便宜三倍」。
然而,Reddit 上的用戶並不買單。許多人擔心失去更受歡迎的型號 Claude Opus 4.6。 「沒有人相信基準圖表,」一位 Reddit 用戶簡潔地寫道,並指出 Opus 4.7 在發佈時似乎也有相當不錯的數據。
無論我們是否可以相信這些基準——需要明確的是,Mashable 尚未獨立驗證這些數字——這就是 Anthropic 所聲稱的。
信用:人類
如何測試克勞德 Opus 4.8
Claude Opus 4.8 現已透過 Anthropic 的網站 Claude.AI、Claude API 以及 Anthropic 的合作夥伴(例如 Microsoft Foundry)提供。
新型號的價格與其前代型號(即直至 Claude Opus 4.5 的型號)完全相同。所有這些將花費您每百萬輸入代幣 5 美元和每百萬輸出代幣 25 美元。
然而,由於 Anthropic 承諾在幾週內實現克勞德神話,因此您可能想坐下來等待,看看這個模型是否能夠更「誠實」地對待它的幻覺。
主題
人擇人工智慧










