Anthropic的兩個Claude AI模型的最新功能可能是AI越獄社區的終點。該公司向 發佈到他的網站 Claude Opus 4和4.1型號現在有能力與用戶進行對話。根據Anthropic的說法,此功能僅用於“罕見的,極端的有害或濫用用戶互動的極端情況”。

為了澄清,人類表示,這兩個克勞德模型可能來自有害的對話,例如“用戶要求涉及未成年人的性內容的請求,以及尋求允許大規模或恐怖主義行為暴力的信息的努力”。根據Claude Opus 4和4.1,這些模型將僅結束一次對話。但是,即使談論極其有爭議的問題,大多數用戶也不會經歷Claude進行簡短的對話,因為此功能將用於“極端情況”。

克勞德的人類例子結束了對話

(男人)

在克勞德(Claude)結束對話的情況下,用戶無法再向這次對話發送新消息,但是他們可以立即開始新的消息。 Anthropic補充說,如果對話結束了,它不會影響其他對話,用戶甚至可以返回和處理或重複以前的消息直接朝著其他對話路線直接。

對於人類而言,此舉是其研究計劃的一部分,該研究計劃研究了人工智能的福祉。雖然擬人化AI模型的想法仍然是一個持續的討論,但該公司表示,擺脫“潛在的不愉快互動”的能力是管理AI健康風險的低成本方法。 Anthropic仍在嘗試此功能,並鼓勵用戶在遇到這種情況時提供反饋。

來源連結