這個男人有 宣布了新的可能性 這將允許其一些新的更大的模型終止對話,以“持續有害或虐待用戶互動”為“罕見,極端的案例”。令人印象深刻的是,人類說,他不能保護人類用戶,而是AI模型本身。
為了明確表明,該公司沒有聲稱Claude AI模型正在感覺或可能損害與用戶的對話。用他自己的話說,人類仍然“對克勞德(Claude)和其他LLM的可能道德狀況非常不確定”。
但是,他的公告指出了一個最近創建的計劃,以研究他所謂的“模型繁榮”,並說擬人化本質上是採取一種恰當的方法,“致力於識別和實施低成本干預措施以減輕模型的風險”。
目前,最後一次更改僅限於Claude Opus 4和4.1。同樣,假設它只會發生在“極端的肢體”中,例如“用戶對包括未成年人的性內容的請求,以及努力要求允許對大規模或恐怖主義行為進行暴力的信息”。
儘管這些類型的應用程序可能會為人類本身造成法律或公共問題(目擊者最近的報導說Chatgpt如何有可能增強或有助於其用戶的妄想思維),但該公司表示,在安裝前的測試中,Claude 4和明顯的功能障礙模型在他的情況下。
至於對話結束的這些新機會,該公司表示:“在所有情況下,克勞德(Claude)只能在多次重定向努力耗盡時,將討論結束的能力作為最後的度假勝地,並希望有生產力的互動耗盡,或者當用戶明確要求用戶時。
人類人士還說,克勞德(Claude)有“在用戶可能有危害自己或他人的風險的情況下,他被指示不要使用這種能力”。
TechCrunch活動
弗朗西斯科
|
2025年10月27日至29日
當克勞德(Claude)結束討論時,人類表示,用戶仍然能夠從同一帳戶開始新的對話,並通過編輯答案來創建令人討厭的對話的新分支。
該公司說:“我們將此功能視為正在進行的實驗,並將繼續改善我們的方法。”