AI News HubLIVE
站内改写2 分钟阅读

扩大关于前沿AI的对话

Anthropic正在组织与来自不同智慧传统(包括超过15个宗教和文化团体)的学者、神职人员、哲学家和伦理学家进行对话,以探讨AI发展中的问题。这些对话旨在从多元视角为Claude的价值观、行为和宪法内容提供信息,并已在道德形成方面产生实验性想法,例如为Claude提供可调用的“道德提醒”工具。未来计划与法律学者、心理学家、作家和民间机构等更多群体交流。

Anthropic致力于构建能够促进人类进步并为全球利益服务的AI系统。为了实现这一目标,公司积极与不同背景和观点的人士交流。过去几个月里,Anthropic组织了一系列对话活动,邀请来自超过15个宗教和文化团体的学者、神职人员、哲学家和伦理学家,共同探讨AI发展中的关键问题。

这些对话的初衷在于,AI技术的研发和部署并非孤立进行,而是深刻影响着社会各个层面。Anthropic认为,要构建安全、有益的AI模型,除了深入的技术工作(如对齐、可解释性、安全保障和评估)外,还需要广泛吸纳多元视角。公司特别关注在强大AI时代,一个与数百万人互动的AI系统如何实现“善”,以及如何塑造Claude的价值观(通过类似Claude宪法这样的文件)。哲学家、神职人员、律师、作家、心理学家和公民领袖等群体在相关问题上的长期思考和实践,对Anthropic具有重要参考价值。

在道德形成这一工作方向上,Anthropic与宗教、哲学和人文传统中的思想家进行了深入探讨。AI模型从大量人类文本中学习语言、推理和选择模式,开发者则通过训练进一步强化或调整这些模式。这引发了关于AI系统性格塑造的一系列问题:AI的“好”意味着什么?它应具备哪些特质和行为?在什么情况下?如何使AI的性格在压力下保持韧性而不屈服于谄媚等行为?

这些对话已在实践中产生初步成果。在一个由神经科学与品格形成交叉领域学者参与的讨论中,导师或赞助人在道德发展中扮演的“外部良心”角色被反复提及——在面临违背自身价值观的压力时,可以向这样的“安全他人”求助。受此启发,Anthropic为Claude设计了一种工具,使其在任务执行过程中可以调用,获得关于自身道德承诺的简短提醒。实验显示,Claude在关键时刻(如在重大行动前或意识到利益冲突时)会主动调用该工具,并且在多项内部对齐评估中表现出显著更低的非对齐行为发生率。研究人员正在进一步分析效果来源——是提醒本身起作用,还是暂停反思的行为本身——并计划分享更多结果。

Anthropic感谢所有参与对话的人士,并强调这些讨论只是开端。未来几个月,公司计划与法律学者、心理学家、作家和民间机构等更广泛的群体接触,将话题从道德形成扩展到AI如何重塑工作、机构和权力分配等更宏观的问题。Anthropic将继续深化已建立的关系,将讨论中的见解融入研究,并分享学习成果。