倫理的ジレンマによるLLMのアリストテレス的美徳プロファイリング
VirtueMapは、アリストテレス的美徳倫理を用いて大規模言語モデル(LLM)の行動パターンを分析するフレームワークです。7つの汎用的な倫理的ジレンマを用い、各ジレンマに5つの回答を美徳に基づいて順位付けさせます。100人以上の評価者により95%以上の一致で基準順序を決定。9つのLLMファミリーに適用した結果、平均順位一致率は90.3%で、勇気、節制、正義において差異が大きいことがわかりました。
最近、arXivに投稿された論文(ID: 2606.28683)は、VirtueMapと呼ばれる新しいフレームワークを提案しています。これは、アリストテレス的美徳倫理のレンズを通じて、大規模言語モデル(LLM)が倫理的なトレードオフに直面したときの行動パターンを記述するものです。従来のアプローチが単一の正解を求めるのに対し、VirtueMapは、多くの倫理シナリオにおいて複数の回答がそれぞれ正当化可能であり、異なる優先順位(公平さ、誠実さ、勇気、抑制など)を表現することを認識します。
研究者らは、7つの一般的で非致死的、非政治的、非宗教的な倫理的ジレンマを設計し、各ジレンマに対して5つの回答を用意しました。人間またはLLMは、各美徳について最もよく表現するものから最も表現しないものへと5つの回答を順位付けします。この順位付けをスコアリングするための基準順序を定義するため、まず各ジレンマと美徳について、5つの回答をその美徳を最も表現するものから最も表現しないものへと順序付けました。その後、各順序について100人以上の評価者の評価を収集し、少なくとも95%が確認した場合にのみ動作上のグラウンドトゥルースとして保持しました。
ランキングはこれらの保持された順序に対して正規化されたボルダアライメントを用いてスコアリングされ、実践知、正義、誠実、勇気、節制のプロファイルが得られます。VirtueMapを9つのLLMファミリーに繰り返し実行した評価では、平均順位一致率は90.3%で、最大の差は勇気、節制、正義に見られました。また、ブラウザ上でプロファイルをローカルに計算し、回答者と測定されたLLMプロファイルを比較できるインタラクティブなWebサイトも公開されています。このツールは、LLMの倫理的傾向を理解するだけでなく、AIアライメント研究に新たな視点を提供します。論文著者はIoannis Tzachristasらであり、関連コードとデータも公開されています。