Home 資訊 Claude Sonnet 4.6:基準效能,如何測試

Claude Sonnet 4.6:基準效能,如何測試

8

人擇而已 被釋放 最新的大型語言模型(LLM),Claude Sonnett 4.6。週二發布的產品是繼 2 月 5 日發布的 Claude Opus 4.6(該公司的高級人工智慧模型)之後不久發布的。

根據 Anthropic 的說法,「Claude Sonnet 4.6 是迄今為止功能最強大的 Sonnet 型號。」該公司表示,Sonnet 4.6 測試版的上下文視窗有 100 萬個代幣。最重要的是,Anthropic 報告 Sonnet 4.6 在內部安全測試中表現良好,表現出幻覺和欺騙的可能性較低。

Anthropic 表示:「Sonnet 4.6 為我們更多的用戶帶來了編碼技能的極大提高。」他指的是 Claude 在使用 AI 編碼的開發人員中的受歡迎程度。

如果你想使用 Anthropic 最新的人工智慧模型,該公司已經讓這變得非常簡單。以下是如何存取 Clause Sonnet 4.6。

如何使用克勞德十四行詩 4.6

對於免費用戶和專業用戶,Claude Sonnett 4.6 現已作為 claude.ai 和 Claude Cowork 上的預設模型提供。 Anthropic 也透過 API 和所有主要雲端平台發布了該模型。

免費用戶的使用率將受到當前需求的限制。每五個小時重置一次限制。對於需要更高限制的人,Claude Sonnet 4.6 的價格與之前的型號相同。 Claude Pro 方案的費用為每月 20 美元,如果按年支付則每月 17 美元。如果他們透過 API,Claude Sonnett 4.6 的起價為每百萬輸入代幣 3 美元,每百萬輸出代幣 15 美元。

克勞德十四行詩參考演奏 4.6

根據 Anthropic 的基準測試,Claude Sonnet 4.6 是該公司最強大的財務分析和辦公室模型,擊敗了 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT 5.2 等競爭對手。

在這些任務中,Claude Sonnet 4.6 的表現也優於 Anthropic 最強大的 AI 模型 Opus 4.6。

Anthropic 在發佈公告中表示,許多早期使用 Claude Sonnet 4.6 的開發人員更喜歡該模型 – 不僅優於其前身 Claude Sonnet 4.5,還優於 Claude Opus 4.5。根據 Sonnet 4.6 系統卡,儘管 Claude Opus 4.6 得分更高,但新型號在 Humanity’s Last Exam 等關鍵基準測試上有所改進。

效能比較

  • GPQA 鑽石級:89.9%

  • ARC-AGI-2:58.3%

  • MMLU:89.3%

  • SWE 基準驗證:79.6%

  • HLE(人類最後的考試): 有工具 49.0%,無工具 33.2%

人工智慧保險公司 Pace 告訴 VentureBeat,在複雜保險電腦使用基準測試中,Sonnet 4.6 在所有 Claude 模型中得分最高。

這些結果值得注意,因為 Claude Opus 模型通常是最聰明的,最適合複雜邏輯。

Claude Sonnet 4.6 不僅比某些 Opus 型號更強大,而且價格也更便宜。如前所述,Claude Sonnet 4.6 的售價為 3 美元/15 美元,而 Opus 4.6 的售價為 5 美元/25 美元。

主題
人工智慧

來源連結

LEAVE A REPLY

Please enter your comment!
Please enter your name here