通過倫理困境對大型語言模型進行亞里士多德美德畫像
VirtueMap是一個基於亞里士多德美德倫理的框架,用於分析大型語言模型在倫理困境中的表現。它使用七個通用困境,要求對五種回應按美德排序,並通過100多名評估者確認(95%一致性)作為基準。對九個LLM家族的評估顯示平均排名一致性為90.3%,在勇氣、節制和正義方面差異最大。
最近,一篇提交至arXiv的論文(編號2606.28683)提出了一種新穎的框架——VirtueMap,該框架運用亞里士多德美德倫理學來刻畫大型語言模型(LLM)在倫理困境中的行為模式。與傳統的追求單一正確答案的方法不同,VirtueMap認識到許多倫理場景中多個回應都可能合理,只是它們體現了不同的美德優先級,例如公平、誠實、勇氣或剋制。
研究者精心設計了七個通用、非致命、非政治且非宗教的倫理困境,每個困境包含五種可能的回應。人類或LLM需要對這五種回應進行排序,從最能體現某一美德到最不能體現。為了建立評分參考,研究者針對每個困境和每個美德首先提出了一種排序,然後收集了超過100名評估者的意見,只有當至少95%的評估者確認該排序時,才將其作為操作性的“地面真值”。
排序通過歸一化的博達計數法(Borda count)與這些真值排序進行比對,從而得出關於實踐智慧、正義、誠實、勇氣和節制這五種美德的美德畫像。研究團隊將VirtueMap應用於九個不同的LLM家族,在重複運行評估中發現平均排名一致性高達90.3%,但在勇氣、節制和正義這三個美德上,不同模型之間的差異最為顯著。
此外,研究者還發布了一個交互式網站,用户可以在瀏覽器中本地計算自己的美德畫像,並與測量得到的LLM畫像進行比較。這不僅是理解LLM倫理傾向的有力工具,也為AI對齊研究提供了新的視角。論文作者包括Ioannis Tzachristas等人,相關代碼和數據也已公開發布。