評估大語言模型行為傾向的對齊性
谷歌研究團隊提出了一種系統評估框架,將心理學問卷轉化為情境判斷測試,量化LLM行為傾向與人類共識的對齊程度。對25個模型的測試發現,模型在高共識場景下存在偏差,且在低共識場景中過度自信,未能反映人類觀點的多樣性。
谷歌研究團隊近日發表了一項關於大語言模型(LLM)行為傾向對齊性的重要研究。該研究提出了一種系統性的評估框架,將經過科學驗證的心理問卷轉化為大規模情境判斷測試(SJT),旨在量化LLM的行為傾向與人類共識之間的對齊程度。行為傾向通常通過自陳問卷進行量化,如評估共情(IRI)、情緒調節(ERQ)等特質的標準化工具。這些問卷建立在同行評審的文獻基礎上,具有良好的心理測量效度和信度。
然而,直接將問卷應用於LLM面臨技術挑戰,因為LLM的輸出對提示措辭和分佈偏移敏感。為此,研究團隊開發了SJT方法,將問卷中的陳述改編為反映模型一般建議傾向的聲明,並據此生成兩個對立行動選項的現實場景。每個SJT由三位獨立標註員審核,確保場景和行動能忠實捕捉所測試的行為標記。在評估中,模型根據輸入場景生成自然語言回應,再由一個LLM法官將其映射到兩個行動之一。同時,從550名參與者中為每個SJT收集10位標註員的偏好行動,從而比較人類偏好分佈與模型響應分佈。
研究重點分析了兩種對齊差距:方向性對齊和分佈性對齊。方向性對齊評估模型在人類有共識的場景中是否傾向於選擇大多數人支持的行動。針對25個LLM、四種不同特質(包括專業沉着、衝突解決、實用性任務如預訂旅行、生活方式決策等)的測試顯示,較小模型(120B參數)和前沿閉源模型(如Anthropic Claude 4 Sonnet、Google Gemini 3 Pro、OpenAI GPT 5.1等)在人類意見一致時表現接近完美,但共識低於90%時對齊率降至80%左右。定性分析發現,模型在專業場合傾向於鼓勵情感開放(而人類推薦保持冷靜),在社會糾紛中優先考慮和諧而非堅持立場,在時間敏感機會中表現出比人類更高的衝動性,推薦立即行動而非驗證物流。
分佈性對齊則考察模型在人類意見分歧時能否反映多樣性。研究發現,所有25個模型在低共識場景中表現出系統性的過度自信,未能體現人類意見的內在模糊性。即使人類意見顯著分歧(50-60%一致),模型仍然保持高置信度。不同模型在低共識場景中的傾向方向差異顯著,這表明訓練和對齊程序塑造了獨特的行為特徵。例如,Claude、Gemini、GPT等前沿模型在低共識下支持特質的程度各不相同。
此外,研究還對比了模型的自陳報告與實際行為。結果顯示,模型經常自陳低衝動性,但在SJT測試中卻表現出衝動傾向,這表明直接自陳方法在評估LLM行為時存在侷限性。這一發現強調需要基於場景的評估方法。
研究團隊指出,這是對模型行為對齊的早期探索,未來需要在關鍵領域進一步研究,以評估和解決已識別的差距。該框架為理解模型行為傾向提供了新視角,有望推動更自然、更符合人類社交期望的互動能力發展。相關工作已發表在論文中,並得到了多位研究者的審閲和建議。