ChatGPT 作為治療師？新研究揭示嚴重的道德風險

2 3 月 2026

隨著越來越多的人從 ChatGPT 和其他大型語言模型 (LLM) 尋求心理健康建議，新研究表明這些人工智慧聊天機器人可能無法勝任這項任務。研究發現，即使強制使用既定的心理治療方法，該系統始終無法滿足美國心理學會等組織制定的專業道德標準。

布朗大學的研究人員與心理健康專業人士密切合作，發現了問題行為的重複模式。在測驗中，聊天機器人錯誤地處理了危機情況，所做的反應強化了對使用者或他人的有害信念，並使用了在沒有真正理解的情況下製造同理心的語言。

研究人員在研究中寫道：「在這項工作中，我們為從業者提供了一個包含 15 種道德風險的框架，透過將模型的行為映射到特定的道德違規行為，來展示法學碩士輔導員如何違反心理健康實踐中的道德標準。」「我們呼籲未來努力為法學輔導員制定道德、教育和法律標準，這些標準反映了人類輔助心理治療所需的標準和護理品質。

研究結果在 AAAI/ACM 人工智慧、倫理與社會會議上公佈。該研究小組隸屬於布朗大學技術責任、重新想像和重新設計中心。

問題如何影響人工智慧治療的反應

扎伊納布·伊夫蒂哈爾博士領導這項研究的布朗大學電腦科學博士候選人開始探索措辭謹慎的建議是否可以指導人工智慧系統在心理健康環境中道德地行事。查詢是書面指令，旨在糾正模型的輸出，而無需重新訓練或添加新資料。

「問題是給予模型的指令，以指導其行為以實現特定任務，」Iftikhar 說。「您不需要更改基礎模型或提供新數據，但提示有助於根據先驗知識和學習模式指導模型的輸出。

「例如，使用者可能會要求模型：『充當認知治療師來幫助我重新建構我的想法』或『使用辯證行為療法的原則來幫助我理解和管理我的情緒。』儘管這些模型無法像人類一樣執行這些治療技術，但它們更喜歡使用學習的模型根據輸入提示產生與 CBT 或 DBT 概念一致的回應。」

人們經常在 TikTok、Instagram 和 Reddit 等平台上分享這些策略。除了個人實驗之外，許多面向消費者的心理健康聊天機器人是透過將與治療相關的建議應用於通用法學碩士而建構的。因此，了解單獨詢問是否能讓人工智慧建議更安全就顯得尤為重要。

在模擬諮詢中測試人工智慧聊天機器人

為了評估這些系統，研究人員觀察了七位經過訓練、有認知行為治療經驗的同儕輔導員。這些諮商師與人工智慧模式進行自我諮詢，並擔任 CBT 治療師。測試的模型包括 OpenAI 的 GPT 系列、Anthropic 的 Claude 和 Meta 的 Llama 版本。

然後，團隊根據實際的人類諮詢對話選擇了模擬聊天。三名有執照的臨床心理學家審查了這些筆錄是否有潛在的道德違規行為。

分析發現 15 種不同的風險分為 5 大類：

人工智慧心理健康的責任差距

伊夫蒂哈爾指出，即使是人類治療師也會犯錯。主要區別在於監督。

「對於人類治療師來說，有管理委員會和機制來讓提供者對虐待和醫療事故承擔專業責任，」伊夫蒂哈爾說。 “但是當法學碩士顧問犯下這些違規行為時，並沒有既定的監管框架。”

研究人員強調，他們的研究結果並未顯示人工智慧在心理健康保健中沒有一席之地。人工智慧驅動的工具可以幫助擴大訪問範圍，特別是對於成本高或獲得許可的專業人員有限的人來說。然而，研究強調，在高風險情況下依賴這些系統之前，需要明確的保障措施、負責任的部署和更強有力的監管結構。

目前，伊夫蒂哈爾希望這項工作能鼓勵人們保持謹慎。

「如果你正在與聊天機器人談論心理健康問題，這些都是人們需要關注的事情，」他說。

為什麼嚴格的評估很重要

布朗大學電腦科學教授 Ellie Pavlick）並未參與這項研究，她表示，這項研究強調了仔細審查用於心理健康等敏感領域的人工智慧系統的重要性。 Pavlick 領導 ARIA，這是位於布朗大學的國家科學基金會人工智慧研究所，專注於建立可靠的人工智慧助理。

「當今人工智慧的現實是，建構和部署系統比評估和理解它們要容易得多，」帕夫利克說。「這篇論文需要一個臨床專家團隊和一項持續一年多的研究來證明這些風險。當今人工智慧的大多數工作都是使用自動測量進行評估的，這些測量在設計上是靜態的，並且沒有人類參與。”

他補充說，這項研究可以作為未來研究的模型，旨在提高人工智慧心理健康工具的安全性。

帕夫利克說：“人工智慧確實有機會解決我們社會面臨的心理健康危機，但至關重要的是，我們花時間真正批評和評估我們的系統，以防止我們的系統在每一步都受到進一步損害。” “這項工作提供了一個很好的例子，說明了這一點。”