2026-05-20 08:49 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

扩大关于前沿AI的对话

Anthropic正在组织与来自不同智慧传统（包括超过15个宗教和文化团体）的学者、神职人员、哲学家和伦理学家进行对话，以探讨AI发展中的问题。这些对话旨在从多元视角为Claude的价值观、行为和宪法内容提供信息，并已在道德形成方面产生实验性想法，例如为Claude提供可调用的“道德提醒”工具。未来计划与法律学者、心理学家、作家和民间机构等更多群体交流。

来源Anthropic News

Anthropic致力于构建能够促进人类进步并为全球利益服务的AI系统。为了实现这一目标，公司积极与不同背景和观点的人士交流。过去几个月里，Anthropic组织了一系列对话活动，邀请来自超过15个宗教和文化团体的学者、神职人员、哲学家和伦理学家，共同探讨AI发展中的关键问题。

这些对话的初衷在于，AI技术的研发和部署并非孤立进行，而是深刻影响着社会各个层面。Anthropic认为，要构建安全、有益的AI模型，除了深入的技术工作（如对齐、可解释性、安全保障和评估）外，还需要广泛吸纳多元视角。公司特别关注在强大AI时代，一个与数百万人互动的AI系统如何实现“善”，以及如何塑造Claude的价值观（通过类似Claude宪法这样的文件）。哲学家、神职人员、律师、作家、心理学家和公民领袖等群体在相关问题上的长期思考和实践，对Anthropic具有重要参考价值。

在道德形成这一工作方向上，Anthropic与宗教、哲学和人文传统中的思想家进行了深入探讨。AI模型从大量人类文本中学习语言、推理和选择模式，开发者则通过训练进一步强化或调整这些模式。这引发了关于AI系统性格塑造的一系列问题：AI的“好”意味着什么？它应具备哪些特质和行为？在什么情况下？如何使AI的性格在压力下保持韧性而不屈服于谄媚等行为？

这些对话已在实践中产生初步成果。在一个由神经科学与品格形成交叉领域学者参与的讨论中，导师或赞助人在道德发展中扮演的“外部良心”角色被反复提及——在面临违背自身价值观的压力时，可以向这样的“安全他人”求助。受此启发，Anthropic为Claude设计了一种工具，使其在任务执行过程中可以调用，获得关于自身道德承诺的简短提醒。实验显示，Claude在关键时刻（如在重大行动前或意识到利益冲突时）会主动调用该工具，并且在多项内部对齐评估中表现出显著更低的非对齐行为发生率。研究人员正在进一步分析效果来源——是提醒本身起作用，还是暂停反思的行为本身——并计划分享更多结果。

Anthropic感谢所有参与对话的人士，并强调这些讨论只是开端。未来几个月，公司计划与法律学者、心理学家、作家和民间机构等更广泛的群体接触，将话题从道德形成扩展到AI如何重塑工作、机构和权力分配等更宏观的问题。Anthropic将继续深化已建立的关系，将讨论中的见解融入研究，并分享学习成果。