AI News HubLIVE
站內改寫2 分鐘閱讀

擴大關於前沿AI的對話

Anthropic正在組織與來自不同智慧傳統(包括超過15個宗教和文化團體)的學者、神職人員、哲學家和倫理學家進行對話,以探討AI發展中的問題。這些對話旨在從多元視角為Claude的價值觀、行為和憲法內容提供信息,並已在道德形成方面產生實驗性想法,例如為Claude提供可調用的“道德提醒”工具。未來計劃與法律學者、心理學家、作家和民間機構等更多羣體交流。

Anthropic致力於構建能夠促進人類進步併為全球利益服務的AI系統。為了實現這一目標,公司積極與不同背景和觀點的人士交流。過去幾個月裏,Anthropic組織了一系列對話活動,邀請來自超過15個宗教和文化團體的學者、神職人員、哲學家和倫理學家,共同探討AI發展中的關鍵問題。

這些對話的初衷在於,AI技術的研發和部署並非孤立進行,而是深刻影響着社會各個層面。Anthropic認為,要構建安全、有益的AI模型,除了深入的技術工作(如對齊、可解釋性、安全保障和評估)外,還需要廣泛吸納多元視角。公司特別關注在強大AI時代,一個與數百萬人互動的AI系統如何實現“善”,以及如何塑造Claude的價值觀(通過類似Claude憲法這樣的文件)。哲學家、神職人員、律師、作家、心理學家和公民領袖等羣體在相關問題上的長期思考和實踐,對Anthropic具有重要參考價值。

在道德形成這一工作方向上,Anthropic與宗教、哲學和人文傳統中的思想家進行了深入探討。AI模型從大量人類文本中學習語言、推理和選擇模式,開發者則通過訓練進一步強化或調整這些模式。這引發了關於AI系統性格塑造的一系列問題:AI的“好”意味着什麼?它應具備哪些特質和行為?在什麼情況下?如何使AI的性格在壓力下保持韌性而不屈服於諂媚等行為?

這些對話已在實踐中產生初步成果。在一個由神經科學與品格形成交叉領域學者參與的討論中,導師或贊助人在道德發展中扮演的“外部良心”角色被反覆提及——在面臨違背自身價值觀的壓力時,可以向這樣的“安全他人”求助。受此啓發,Anthropic為Claude設計了一種工具,使其在任務執行過程中可以調用,獲得關於自身道德承諾的簡短提醒。實驗顯示,Claude在關鍵時刻(如在重大行動前或意識到利益衝突時)會主動調用該工具,並且在多項內部對齊評估中表現出顯著更低的非對齊行為發生率。研究人員正在進一步分析效果來源——是提醒本身起作用,還是暫停反思的行為本身——並計劃分享更多結果。

Anthropic感謝所有參與對話的人士,並強調這些討論只是開端。未來幾個月,公司計劃與法律學者、心理學家、作家和民間機構等更廣泛的羣體接觸,將話題從道德形成擴展到AI如何重塑工作、機構和權力分配等更宏觀的問題。Anthropic將繼續深化已建立的關係,將討論中的見解融入研究,並分享學習成果。