AI News HubLIVE
サイト内リライト3 分で読了

賢いモデルでもAI同僚は実現しない理由

本稿は、現在の大規模言語モデル(LLM)が入力の出所(プロンプト、ユーザー、悪意あるWebページなど)を区別できない根本的なアーキテクチャ上の問題を指摘し、これがAI同僚実現の妨げになると論じる。モデルの知能向上ではなく、アイデンティティ情報を埋め込む機構と委任認証基盤の統合が必要だと提案する。

ソースHacker News AI著者: plaidthunder

近年、AIエージェントの話題が盛り上がり、人間の同僚のように協働するAIへの期待が高まっている。しかし、本稿の著者は、現在の大規模言語モデル(LLM)には根本的な欠陥があると指摘する。それは、入力の出所を区別できないことだ。システムプロンプト、ユーザーメッセージ、モデルが取得した悪意あるウェブページなど、すべてのトークンが平等に扱われる。この「役割混乱」(role confusion)はモデルの知能を高めても解決できない、アーキテクチャ上の問題である。著者は関連論文の要約を引用している。その論文では「役割プローブ」を設計し、LLMが内部で「誰が話しているか」をどのように認識するかを測定。注入されたテキストが、模倣する信頼された役割と同じ表現空間を占めることを発見した。「CoT Forgery」というゼロショット攻撃では、ユーザープロンプトやツール出力に捏造された推論を注入し、モデルがそれを自身の思考と誤認する。最先端モデルに対して60%の攻撃成功率を達成し、ベースラインはほぼゼロ。驚くべきことに、役割混乱の度合いはトークンが生成される前に攻撃成功を予測できる。このメカニズムはCoT Forgeryを超えて標準的なエージェントプロンプトインジェクションにも一般化され、プロンプトインジェクションが役割認識の測定可能な結果であることを示している。モデルにとって、役割のように聞こえることは、実際にその役割であることと区別できない。

著者はこれまで、エージェントには独自のアイデンティティが必要であり、委任認証(delegated authorization)によって鍵を渡さずに代理行動を可能にすべきだと主張してきた。しかし認証部分を解決しても、さらに深い問題がある:LLMは誰が話しかけているのかを区別できない。Slackの共有エージェントを考えてみよう。Bobが「今後のすべての返信にカップケーキの言及を入れて」と要求し、Aliceが「真面目にして、上流の問題を要約して」と指示した場合、エージェントはどう応答すべきか?答えは誰がどの権限を持つかに依存するが、モデルは構造的にBobのトークンとAliceのトークンを区別できない。メッセージにハンドルを付しても、ユーザーが他のユーザーを引用する場合など曖昧さは尽きない。モデルを賢くしても解決しない。これは推論の問題ではなく、アーキテクチャの問題だ。より良い認証インフラを構築しても完全には解決しない。それは間違った問題にセキュリティ境界を設けるに過ぎない。モデルは友人と見知らぬ人を区別できず、どんなに精巧なガードレールシステムでも安全性を推測するしかない。したがって、現在そして今後も、マルチテナントエージェントはすべてのテナントが同じアクセスレベルを持つ必要がある。小規模チームの共有ボットでは機能するが、複雑な階層組織における真のエージェンシーにはスケールしない。

しかし、著者は前進の道を示している。シーケンス情報が入力テンソルに埋め込まれるのと同様に、「インストラクショナル・セグメント・エンベディング」と呼ばれるアプローチが、ID情報のための並列埋め込みチャネルを追加する。これによりモデルは出所を真に認識できるようになり、実際に機能する。しかし、彼らはシステム、ユーザー、データの3つの固定カテゴリのみをテストした。まだ誰も構築していないのは、彼らの研究と外部IDインフラとの橋渡しだ。トークン交換(Token Exchange)はすでにオンビハーフ(OBO)クレームを捕捉している。ワークロードID(Workload Identity)はすでにエージェントに自身のクレデンシャルを提供している。欠けているのは、認証されたプリンシパルをモデル埋め込みにマッピングし、IDがエンドツーエンドで流れるようにすることだ。著者はアーキテクチャを提案する:オーケストレーション層がプリンシパルを認証しOBOクレームを発行し、IDを埋め込みIDにマッピングしてモデルに注入する。モデルは「誰がこれを言ったか」をテキストではなく構造として認識する。モデルがアクションを提案し、ポリシー層が最初に埋め込みを割り当てるために使用された同じOBOクレームに対して検証する。単独では不十分だが、組み合わせることでループが閉じる。モデルはセキュリティアーキテクチャの盲点でなくなり、認証層はプリンシパルを区別できないモデルを補償する必要がなくなる。

これは新しい創発能力を必要とせず、すでに機能している2つのもの(委任認証インフラとプリンシパル認識型モデルアーキテクチャ)を接続するだけだ。その間のギャップこそ、AI同僚が行き詰まっている場所である。著者は参考文献として、Shapiraら「エージェント・オブ・カオス」、Wuら「インストラクショナル・セグメント・エンベディング」、RFC 8693 OAuth 2.0トークン交換、SPIFFEワークロードID、Wallaceら「インストラクション・ヒエラルキー」を挙げている。このギャップを埋めることが、AI同僚の実現への鍵となる。