AI News HubLIVE
站内改写1 分钟阅读

通过伦理困境对大型语言模型进行亚里士多德美德画像

VirtueMap是一个基于亚里士多德美德伦理的框架,用于分析大型语言模型在伦理困境中的表现。它使用七个通用困境,要求对五种回应按美德排序,并通过100多名评估者确认(95%一致性)作为基准。对九个LLM家族的评估显示平均排名一致性为90.3%,在勇气、节制和正义方面差异最大。

来源arXiv AI作者: Ioannis Tzachristas, John Pavlopoulos

最近,一篇提交至arXiv的论文(编号2606.28683)提出了一种新颖的框架——VirtueMap,该框架运用亚里士多德美德伦理学来刻画大型语言模型(LLM)在伦理困境中的行为模式。与传统的追求单一正确答案的方法不同,VirtueMap认识到许多伦理场景中多个回应都可能合理,只是它们体现了不同的美德优先级,例如公平、诚实、勇气或克制。

研究者精心设计了七个通用、非致命、非政治且非宗教的伦理困境,每个困境包含五种可能的回应。人类或LLM需要对这五种回应进行排序,从最能体现某一美德到最不能体现。为了建立评分参考,研究者针对每个困境和每个美德首先提出了一种排序,然后收集了超过100名评估者的意见,只有当至少95%的评估者确认该排序时,才将其作为操作性的“地面真值”。

排序通过归一化的博达计数法(Borda count)与这些真值排序进行比对,从而得出关于实践智慧、正义、诚实、勇气和节制这五种美德的美德画像。研究团队将VirtueMap应用于九个不同的LLM家族,在重复运行评估中发现平均排名一致性高达90.3%,但在勇气、节制和正义这三个美德上,不同模型之间的差异最为显著。

此外,研究者还发布了一个交互式网站,用户可以在浏览器中本地计算自己的美德画像,并与测量得到的LLM画像进行比较。这不仅是理解LLM伦理倾向的有力工具,也为AI对齐研究提供了新的视角。论文作者包括Ioannis Tzachristas等人,相关代码和数据也已公开发布。