Claude Sonnet 4.6：基準效能，如何測試

18 2 月 2026

人擇而已被釋放最新的大型語言模型（LLM），Claude Sonnett 4.6。週二發布的產品是繼 2 月 5 日發布的 Claude Opus 4.6（該公司的高級人工智慧模型）之後不久發布的。

根據 Anthropic 的說法，「Claude Sonnet 4.6 是迄今為止功能最強大的 Sonnet 型號。」該公司表示，Sonnet 4.6 測試版的上下文視窗有 100 萬個代幣。最重要的是，Anthropic 報告 Sonnet 4.6 在內部安全測試中表現良好，表現出幻覺和欺騙的可能性較低。

Anthropic 表示：「Sonnet 4.6 為我們更多的用戶帶來了編碼技能的極大提高。」他指的是 Claude 在使用 AI 編碼的開發人員中的受歡迎程度。

如果你想使用 Anthropic 最新的人工智慧模型，該公司已經讓這變得非常簡單。以下是如何存取 Clause Sonnet 4.6。

如何使用克勞德十四行詩 4.6

對於免費用戶和專業用戶，Claude Sonnett 4.6 現已作為 claude.ai 和 Claude Cowork 上的預設模型提供。 Anthropic 也透過 API 和所有主要雲端平台發布了該模型。

可混搭光速

免費用戶的使用率將受到當前需求的限制。每五個小時重置一次限制。對於需要更高限制的人，Claude Sonnet 4.6 的價格與之前的型號相同。 Claude Pro 方案的費用為每月 20 美元，如果按年支付則每月 17 美元。如果他們透過 API，Claude Sonnett 4.6 的起價為每百萬輸入代幣 3 美元，每百萬輸出代幣 15 美元。

克勞德十四行詩參考演奏 4.6

根據 Anthropic 的基準測試，Claude Sonnet 4.6 是該公司最強大的財務分析和辦公室模型，擊敗了 Google 的 Gemini 3 Pro 和 OpenAI 的 GPT 5.2 等競爭對手。

在這些任務中，Claude Sonnet 4.6 的表現也優於 Anthropic 最強大的 AI 模型 Opus 4.6。

Anthropic 在發佈公告中表示，許多早期使用 Claude Sonnet 4.6 的開發人員更喜歡該模型 – 不僅優於其前身 Claude Sonnet 4.5，還優於 Claude Opus 4.5。根據 Sonnet 4.6 系統卡，儘管 Claude Opus 4.6 得分更高，但新型號在 Humanity’s Last Exam 等關鍵基準測試上有所改進。

效能比較

GPQA 鑽石級：89.9%
ARC-AGI-2：58.3%
MMLU：89.3%
SWE 基準驗證：79.6%
HLE（人類最後的考試）: 有工具 49.0%，無工具 33.2%

人工智慧保險公司 Pace 告訴 VentureBeat，在複雜保險電腦使用基準測試中，Sonnet 4.6 在所有 Claude 模型中得分最高。

這些結果值得注意，因為 Claude Opus 模型通常是最聰明的，最適合複雜邏輯。

Claude Sonnet 4.6 不僅比某些 Opus 型號更強大，而且價格也更便宜。如前所述，Claude Sonnet 4.6 的售價為 3 美元/15 美元，而 Opus 4.6 的售價為 5 美元/25 美元。

主題
人工智慧

來源連結

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Claude Sonnet 4.6：基準效能，如何測試

如何使用克勞德十四行詩 4.6

克勞德十四行詩參考演奏 4.6

效能比較

LEAVE A REPLY Cancel reply

近期文章

巴黎聖日耳曼對摩納哥的比賽中，奧斯曼·登貝萊在上半場被罰下場

Prime Video 獲得串流媒體播放權；這就是為什麼這部流行的科幻動畫引起如此轟動的原因 – Firstpost

熊隊的凱萊布威廉斯和突襲者隊的馬克斯克羅斯比相互欽佩

慕尼黑停止假裝的那一天

三星在 Unpacked 之前預告可穿戴人工智慧攝影工具

作為受克洛普「目標」啟發的阿爾特塔轉型的一部分，阿森納擁有獨特的合約要求

作為戈登拉姆齊的評論——經過消毒的宣傳本來可以更有趣

所有類別