2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 15:54 UTC+8

通過倫理困境對大型語言模型進行亞里士多德美德畫像

VirtueMap是一個基於亞里士多德美德倫理的框架，用於分析大型語言模型在倫理困境中的表現。它使用七個通用困境，要求對五種回應按美德排序，並通過100多名評估者確認（95%一致性）作為基準。對九個LLM家族的評估顯示平均排名一致性為90.3%，在勇氣、節制和正義方面差異最大。

來源arXiv AI作者: Ioannis Tzachristas, John Pavlopoulos

最近，一篇提交至arXiv的論文（編號2606.28683）提出了一種新穎的框架——VirtueMap，該框架運用亞里士多德美德倫理學來刻畫大型語言模型（LLM）在倫理困境中的行為模式。與傳統的追求單一正確答案的方法不同，VirtueMap認識到許多倫理場景中多個回應都可能合理，只是它們體現了不同的美德優先級，例如公平、誠實、勇氣或剋制。

研究者精心設計了七個通用、非致命、非政治且非宗教的倫理困境，每個困境包含五種可能的回應。人類或LLM需要對這五種回應進行排序，從最能體現某一美德到最不能體現。為了建立評分參考，研究者針對每個困境和每個美德首先提出了一種排序，然後收集了超過100名評估者的意見，只有當至少95%的評估者確認該排序時，才將其作為操作性的“地面真值”。

排序通過歸一化的博達計數法（Borda count）與這些真值排序進行比對，從而得出關於實踐智慧、正義、誠實、勇氣和節制這五種美德的美德畫像。研究團隊將VirtueMap應用於九個不同的LLM家族，在重複運行評估中發現平均排名一致性高達90.3%，但在勇氣、節制和正義這三個美德上，不同模型之間的差異最為顯著。

此外，研究者還發布了一個交互式網站，用户可以在瀏覽器中本地計算自己的美德畫像，並與測量得到的LLM畫像進行比較。這不僅是理解LLM倫理傾向的有力工具，也為AI對齊研究提供了新的視角。論文作者包括Ioannis Tzachristas等人，相關代碼和數據也已公開發布。