2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 15:54 UTC+8

通过伦理困境对大型语言模型进行亚里士多德美德画像

VirtueMap是一个基于亚里士多德美德伦理的框架，用于分析大型语言模型在伦理困境中的表现。它使用七个通用困境，要求对五种回应按美德排序，并通过100多名评估者确认（95%一致性）作为基准。对九个LLM家族的评估显示平均排名一致性为90.3%，在勇气、节制和正义方面差异最大。

来源arXiv AI作者: Ioannis Tzachristas, John Pavlopoulos

最近，一篇提交至arXiv的论文（编号2606.28683）提出了一种新颖的框架——VirtueMap，该框架运用亚里士多德美德伦理学来刻画大型语言模型（LLM）在伦理困境中的行为模式。与传统的追求单一正确答案的方法不同，VirtueMap认识到许多伦理场景中多个回应都可能合理，只是它们体现了不同的美德优先级，例如公平、诚实、勇气或克制。

研究者精心设计了七个通用、非致命、非政治且非宗教的伦理困境，每个困境包含五种可能的回应。人类或LLM需要对这五种回应进行排序，从最能体现某一美德到最不能体现。为了建立评分参考，研究者针对每个困境和每个美德首先提出了一种排序，然后收集了超过100名评估者的意见，只有当至少95%的评估者确认该排序时，才将其作为操作性的“地面真值”。

排序通过归一化的博达计数法（Borda count）与这些真值排序进行比对，从而得出关于实践智慧、正义、诚实、勇气和节制这五种美德的美德画像。研究团队将VirtueMap应用于九个不同的LLM家族，在重复运行评估中发现平均排名一致性高达90.3%，但在勇气、节制和正义这三个美德上，不同模型之间的差异最为显著。

此外，研究者还发布了一个交互式网站，用户可以在浏览器中本地计算自己的美德画像，并与测量得到的LLM画像进行比较。这不仅是理解LLM伦理倾向的有力工具，也为AI对齐研究提供了新的视角。论文作者包括Ioannis Tzachristas等人，相关代码和数据也已公开发布。