人類人士說，一些克勞德模型現在可以結束“有害或虐待”的對話

16 8 月 2025

這個男人有宣布了新的可能性這將允許其一些新的更大的模型終止對話，以“持續有害或虐待用戶互動”為“罕見，極端的案例”。令人印象深刻的是，人類說，他不能保護人類用戶，而是AI模型本身。

為了明確表明，該公司沒有聲稱Claude AI模型正在感覺或可能損害與用戶的對話。用他自己的話說，人類仍然“對克勞德（Claude）和其他LLM的可能道德狀況非常不確定”。

但是，他的公告指出了一個最近創建的計劃，以研究他所謂的“模型繁榮”，並說擬人化本質上是採取一種恰當的方法，“致力於識別和實施低成本干預措施以減輕模型的風險”。

目前，最後一次更改僅限於Claude Opus 4和4.1。同樣，假設它只會發生在“極端的肢體”中，例如“用戶對包括未成年人的性內容的請求，以及努力要求允許對大規模或恐怖主義行為進行暴力的信息”。

儘管這些類型的應用程序可能會為人類本身造成法律或公共問題（目擊者最近的報導說Chatgpt如何有可能增強或有助於其用戶的妄想思維），但該公司表示，在安裝前的測試中，Claude 4和明顯的功能障礙模型在他的情況下。

至於對話結束的這些新機會，該公司表示：“在所有情況下，克勞德（Claude）只能在多次重定向努力耗盡時，將討論結束的能力作為最後的度假勝地，並希望有生產力的互動耗盡，或者當用戶明確要求用戶時。

人類人士還說，克勞德（Claude）有“在用戶可能有危害自己或他人的風險的情況下，他被指示不要使用這種能力”。

TechCrunch活動

弗朗西斯科
|
2025年10月27日至29日

當克勞德（Claude）結束討論時，人類表示，用戶仍然能夠從同一帳戶開始新的對話，並通過編輯答案來創建令人討厭的對話的新分支。

該公司說：“我們將此功能視為正在進行的實驗，並將繼續改善我們的方法。”