制限付きAPIアクセスによるLLMアーキテクチャ特性のブラックボックス推定
新しい攻撃手法NightVisionは、APIが単一のlogitのみを返しlogitバイアスを許可しない制限下でも、大規模言語モデルの隠れ次元、深さ、パラメータ数を低い誤差率で推定できる。
大規模言語モデル(LLM)の商用プロバイダーは通常、モデルアーキテクチャの詳細を公開しない。これは知的財産を保護するためであるが、研究者やユーザーがモデルの能力を理解するのを困難にしている。従来の研究では、APIがtop-k logitsやlogitバイアス機能を提供する場合、出力確率の分析を通じてアーキテクチャパラメータの一部(例:フィードフォワードネットワークの隠れ次元)を復元できることが示されていた。これを受けて、多くのLLMプロバイダーはAPIを制限し、各デコードトークンに対して単一のlogitのみを返し、logitバイアス機能を削除した。しかし、Christopher Ellisら6名の研究者による最新の研究(arXiv:2607.01313)は、そのような制限下でも重要なアーキテクチャ属性が推定可能であることを示した。彼らはNightVisionという攻撃手法を提案した。
NightVisionの核心は「共通セットプロンプティング」技術である。複数の異なるプロンプトを構築し、モデルに同じトークンセットを出力させることで、それらのトークンの対数確率を取得する。異なるプロンプトは内部表現の分布を変化させるため、複数の対数確率セットに対するスペクトル分析により隠れ次元の特徴信号を抽出できる。さらに、NightVisionはエンドツーエンドの最初のトークンまでの時間(TTFT)測定を利用する。推定された隠れ次元とTTFTの関係から、モデルの深さとパラメータ数を推定する。
研究チームは32のオープンソースLLMで評価を行った。結果、隠れ次元の平均相対誤差は全モデルで23%、混合エキスパートモデル(MoE)では9%であった。パラメータ数が30億を超えるモデルでは、深さとパラメータ数の推定誤差は53%以内に収まった。広範なアブレーション実験により、トークン予算やモデル特性に対する精度のスケーリングも確認された。
NightVisionの意義は、現在のLLM APIがアーキテクチャのプライバシー保護に不十分であることを明らかにした点にある。プロバイダーが制限を強化しても、攻撃者は巧みなプロンプトとタイミング測定を用いて機密情報を取得できる可能性がある。この研究は、LLMサービスのセキュリティ設計に新たな課題を投げかけ、例えばノイズの導入やタイミング情報の精度制限などの対策が求められる。同時に、API経由のモデルが完全な「ブラックボックス」ではなく、内部構造が意図せず露出する可能性があることをユーザーに警告している。