2026-05-20 08:49 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

擴大關於前沿AI的對話

Anthropic正在組織與來自不同智慧傳統（包括超過15個宗教和文化團體）的學者、神職人員、哲學家和倫理學家進行對話，以探討AI發展中的問題。這些對話旨在從多元視角為Claude的價值觀、行為和憲法內容提供信息，並已在道德形成方面產生實驗性想法，例如為Claude提供可調用的“道德提醒”工具。未來計劃與法律學者、心理學家、作家和民間機構等更多羣體交流。

來源Anthropic News

Anthropic致力於構建能夠促進人類進步併為全球利益服務的AI系統。為了實現這一目標，公司積極與不同背景和觀點的人士交流。過去幾個月裏，Anthropic組織了一系列對話活動，邀請來自超過15個宗教和文化團體的學者、神職人員、哲學家和倫理學家，共同探討AI發展中的關鍵問題。

這些對話的初衷在於，AI技術的研發和部署並非孤立進行，而是深刻影響着社會各個層面。Anthropic認為，要構建安全、有益的AI模型，除了深入的技術工作（如對齊、可解釋性、安全保障和評估）外，還需要廣泛吸納多元視角。公司特別關注在強大AI時代，一個與數百萬人互動的AI系統如何實現“善”，以及如何塑造Claude的價值觀（通過類似Claude憲法這樣的文件）。哲學家、神職人員、律師、作家、心理學家和公民領袖等羣體在相關問題上的長期思考和實踐，對Anthropic具有重要參考價值。

在道德形成這一工作方向上，Anthropic與宗教、哲學和人文傳統中的思想家進行了深入探討。AI模型從大量人類文本中學習語言、推理和選擇模式，開發者則通過訓練進一步強化或調整這些模式。這引發了關於AI系統性格塑造的一系列問題：AI的“好”意味着什麼？它應具備哪些特質和行為？在什麼情況下？如何使AI的性格在壓力下保持韌性而不屈服於諂媚等行為？

這些對話已在實踐中產生初步成果。在一個由神經科學與品格形成交叉領域學者參與的討論中，導師或贊助人在道德發展中扮演的“外部良心”角色被反覆提及——在面臨違背自身價值觀的壓力時，可以向這樣的“安全他人”求助。受此啓發，Anthropic為Claude設計了一種工具，使其在任務執行過程中可以調用，獲得關於自身道德承諾的簡短提醒。實驗顯示，Claude在關鍵時刻（如在重大行動前或意識到利益衝突時）會主動調用該工具，並且在多項內部對齊評估中表現出顯著更低的非對齊行為發生率。研究人員正在進一步分析效果來源——是提醒本身起作用，還是暫停反思的行為本身——並計劃分享更多結果。

Anthropic感謝所有參與對話的人士，並強調這些討論只是開端。未來幾個月，公司計劃與法律學者、心理學家、作家和民間機構等更廣泛的羣體接觸，將話題從道德形成擴展到AI如何重塑工作、機構和權力分配等更宏觀的問題。Anthropic將繼續深化已建立的關係，將討論中的見解融入研究，並分享學習成果。