AI News HubLIVE
サイト内リライト2 分で読了

DSO:バイアス軽減のための直接ステアリング最適化

Appleの機械学習研究チームは、強化学習を用いてモデルの活性化をステアリングする線形変換を学習するDSO(Direct Steering Optimization)を提案。VLMやLLMにおけるバイアスを効果的に軽減し、公平性と性能の間で最先端のトレードオフを実現するとともに、推論時にユーザーが制御可能。

Appleの機械学習研究チームは、生成モデルにおけるバイアスを軽減するための新しい手法DSO(Direct Steering Optimization)を発表した。この研究はCVPR 2026で発表される予定であり、著者はLucas Monteiro Paes、Nivedha Sivakumar、Oliver Wang、Masha Fedzechkina、Barry-John Theobald、Luca Zappella、Nicholas Apostoloffで、一部はカーネギーメロン大学に所属し、一部の作業はAppleで行われた。

生成モデル、特に視覚言語モデル(VLM)は、ユーザーに代わって意思決定を行うために頻繁に使用される。例えば、視覚障害者が部屋の中から医師を特定するのを助ける場合などだ。しかし、VLMの決定は入力内の人物の知覚される人口統計学的属性に影響され、女性を医師として認識できないなどのバイアスが生じることがある。さらに、バイアスを減らすと性能が低下する場合があり、ユーザーはバイアス軽減とモデル能力のバランスを取るためのさまざまなニーズを持っている。そのため、推論時に制御可能なバイアス低減を可能にする方法が求められている。

アクティベーションステアリングは、推論時の制御可能性のための一般的なアプローチであり、大規模言語モデル(LLM)でより安全な行動を誘導する可能性が示されている。しかし、現在のステアリング手法では、人口統計グループ間で等確率の結果が必要となるバイアスの修正が困難である。この問題に対処するため、DSOは強化学習を使用してアクティベーションをステアリングするための線形変換を学習し、モデルの性能を維持しながらバイアスを軽減するように調整される。

実験では、複数のVLMおよびLLMにおいてDSOが評価され、公平性と能力の間で最先端のトレードオフを達成することが示された。具体的には、DSOは出力のバイアスを大幅に低減しつつ、性能の低下を最小限に抑える。さらに、実務者は推論時にトレードオフを細かく制御でき、アプリケーションの要件に応じてバイアス軽減の強度を動的に調整できる。

この研究の重要な貢献は、ステアリング戦略を設計する際に、事前定義されたヒューリスティックに依存するのではなく、モデルの動作を直接最適化する利点を示したことにある。ステアリングを強化学習問題として定式化することで、DSOは既存手法よりも効果的で柔軟なバイアス介入を提供する。研究チームはコードをGitHubで公開する予定であり、今後の研究促進が期待される。

Appleの機械学習研究チームは、これまでもActivation Transport(2025年)やSTEER(2023年)など、制御可能性と公平性に関する研究を進めてきた。DSOの提案は、これらの取り組みをさらに発展させ、より信頼性が高く公平なAIシステムの構築に貢献するものである。