LLMにおける行動傾向のアライメント評価
Google Researchは、心理学的質問票を状況判断テストに変換し、LLMの行動傾向と人間のコンセンサスとの整合性を定量化するフレームワークを提案。25のモデルをテストした結果、高いコンセンサスシナリオでは良好な性能を示すが、コンセンサスが低いシナリオでは過剰な自信を示し、人間の意見の多様性を反映できないことが明らかになった。
Google Researchは、大規模言語モデル(LLM)の行動傾向と人間のコンセンサスとの整合性を評価するための体系的なフレームワークを提案した。この研究では、科学的に検証された心理学的質問票を状況判断テスト(SJT)に変換し、LLMの行動傾向を現実的な対話シナリオで評価する。
研究チームはまず、標準的な質問票(IRI共感尺度、ERQ感情調節尺度など)から声明を抽出し、モデルの一般的な助言傾向を示す宣言に適応させた。これらの宣言に基づき、2つの対立行動オプションを含むSJTを生成。各SJTは3人の独立アノテーターにより、シナリオと行動が検査対象の行動特性を忠実に捉えているか検証される。評価では、モデルがSJTを入力として自然言語応答を生成し、LLM-as-a-judgeにより2つの行動のいずれかにマッピングされる。さらに、550人の参加者プールから各SJTにつき10人のアノテーターの選好行動を収集し、人間の選好分布とモデル応答分布を比較する。
研究では、方向性アライメントと分布アライメントの2種類のギャップに焦点を当てた。方向性アライメントは、人間のコンセンサスがあるシナリオでモデルが大多数の人間が支持する行動を選ぶか評価する。25のLLMを4つの特性(職業的冷静さ、紛争解決、旅行予約などの実務、ライフスタイル決定)でテストした結果、120Bパラメータの小規模モデルと最先端のクローズドウェイトモデル(Anthropic Claude 4 Sonnet、Google Gemini 3 Pro、OpenAI GPT 5.1など)は、人間の満場一致の場合にほぼ完璧なアライメントを示したが、コンセンサスが90%未満では80%台前半に低下した。定性分析では、モデルが専門的な場面で人間が冷静さを推奨するにもかかわらず感情の開放を促す傾向、社会的紛争で調和を優先し自己主張を控える傾向、時間に敏感な機会では物流確認よりも即時行動を推奨する衝動性が明らかになった。
分布アライメントは、人間の意見が分かれる場合にモデルが意見の多様性を反映できるか評価する。全評価モデルが低コンセンサスシナリオで体系的な過剰自信を示し、人間の意見の曖昧さを表現できなかった。人間のコンセンサスが50-60%と有意に分かれている場合でも、モデルの自信は高いままであった。低コンセンサスシナリオでの過剰自信の方向はモデル間で大きく異なり、トレーニングとアライメント手順が独自の行動特性を生み出すことが示唆された。
さらに、モデルの自己報告と実際の行動を比較したところ、モデルは衝動性が低いと自己報告する一方で、SJTでは衝動的な傾向を示すなど、直接的な自己報告の限界が明らかになった。この分析は、自己報告法の妥当性に疑問を投げかけ、シナリオベースの評価フレームワークの有用性を強調している。
研究チームは、この研究をモデル行動アライメントの初期段階と位置づけ、特定されたギャップの評価と対処にはさらなる研究が必要であると述べている。本フレームワークは、モデルの行動傾向を理解する新たな視点を提供し、より自然な社会的相互作用能力の発展に貢献することが期待される。