PMのためのAI負債管理ガイド
AI負債は技術的負債以上のものであり、オプション負債です。つまり、AIシステムが本番環境で壊れたときに対応する能力を失うことです。この記事では、PMやAIプロダクトオーナーがAI負債を管理するためのツールを紹介します。3つのゲージと3つのレバーについて説明します。
AI負債は単なる技術的負債ではありません。それはオプション負債です。AIシステムが本番環境で故障したときの対応能力を失うことです。これは、PMとAIプロダクトオーナーがAI負債を管理するためのツールを説明するシリーズの第1部です。
この記事を読むことで、次のことがわかります。どのような種類のAI負債を抱えているかを特定する、スケーリングがリスクになるタイミングを認識する、顧客の信頼、コスト、プライバシーを損なわずに適切な対策を講じる。
マヤのケースを考えましょう。彼女はバーチャルエージェントを2四半期担当し、ホリデープロモーションの数日前に問題が山積みになっています。アシスタントが古い返品ポリシーを引用し続け、顧客は人間を求めてループに陥り、注文番号がログに再び現れています。マヤの「クイックフィックス」は誤回答の苦情を28%増加させ、週末には通常の3倍の会話量が見込まれます。VIPキャンセルが急増し、財務部門は会話コストを注意深く監視しています。マヤは負債を抱えています。それはスプレッドシートで計算できる行儀の良い負債ではなく、最も予期しないときにドアを蹴り倒して支払いを要求する手に負えない種類の負債です。
すべてのプロダクトマネージャーは技術的負債を知っています。現在の短期的な解決策を選ぶと将来にコストがかかります。しかし、技術的負債は通常行儀が良いです。リファクタリング作業を見積もり、スプリントを計画し、エンジニアリング時間を予算化できます。それは住宅ローンに似ています。既知の元本、管理可能な金利、明確な返済経路があります。AI負債は違います。AI負債はヤミ金融から借りるようなものです。金利は変動し、しばしば隠されています。一度支払いを逃すと(バージョン管理されていないポリシー更新、キャッチしなかったドリフト、誰も所有していないプロンプトチェーン)、モデルが幻覚を見たり、アシスタントが廃止されたポリシーを引用したり、解決率が本番環境で急落したり、顧客が離れ始めます。
さらに悪いことに、AIシステムは確率的で不透明で文脈依存であるため、原因が結果にきれいにマッピングされることはまれです。マヤの問題はアシスタントが壊れていることではありません。チームが何が壊れているのかを見ることができず、顧客の信頼を危険にさらさずに修正を安全にテストできないことです。その結果、マヤの選択肢は急速に消えています。
マヤのケースは3つのことを示しています。第一に、AI負債はオプション負債です。AIシステムに関するすべての決定は、問題が発生したときの対応能力を維持するか奪うかのどちらかです。そしてAIでは、従来のソフトウェアよりも問題がより速く、より不可解に発生します。第二に、マヤのケースは「オプション原則」を示しています。ほとんどの現実の条件下では、オプションをうまく管理するPMは、モデルをうまく管理するPMよりも優れたパフォーマンスを発揮します。第三に、マヤのケースはPMがオプションをうまく管理する方法を示しています。
マヤは前四半期に、AI負債から脱却するためのツールを構築する先見の明を持っていました。それは、負債を測定する3つのゲージと、問題が発生したときに引く3つのレバーです。これらのゲージとレバーにより、彼女は一週間もがくことなく72時間で負債から脱却できました。
コントロールルーム
3つのゲージ、3つのレバー、1つの付箋ルール。マヤが今週末に行うすべては、このパネルを通じて実行されます。
コントロールルームを想像してください。目の前には3つのゲージがあり、それぞれ異なる種類のAI負債(基盤負債、ドリフト負債、運用負債)を測定しています。各負債ゲージには緑、黄、赤のゾーンがあります。緑はオプションがあることを意味します。実験、スケーリング、ミスからの回復が可能です。黄は柔軟性を失い始めていることを意味します。赤は盲目的に飛行していることを意味し、どの動きも状況を悪化させる可能性があります。
各ゲージの横にはレバーがあり、ゲージが赤くなったときに引きます。レバーを引いても問題は解決しません。顧客の信頼を損なわずに問題を修正するための時間と情報を買うだけです。
すべてを支配する1つのルールが付箋に書かれています。いずれかのゲージが赤または不明な場合は、決してスケールしないこと。
ゲージ1:基盤負債
基盤負債はトレーサビリティに関するものです。問題が発生したとき、何が起こったかを突き止められますか?たとえば、顧客が誤った回答について苦情を申し立てたとき、会話を呼び出し、アシスタントがどのバージョンのポリシーを引用していたかを確認し、理由を理解するために再実行できますか?できないなら、盲目的に修正していることになります。
基盤負債はドリフトとは異なります。ドリフトは、外部世界が変化する一方でモデルが同じままであるときに発生します。人々は新しいことを、モデルが扱うように訓練されたことのない状況について、新しい言葉で尋ね始めます。基盤負債は、モデルの周りの足場が変化する一方でモデルが同じままであるときに発生します。ポリシーバージョン、検索インデックス、プロンプトチェーン、またはその他の足場が、真実と一致しなくなります。マヤの返品ポリシーバグは基盤負債の例です。変化したのは世界ではなく、アシスタントの背後にあるインデックスです。
ゲージ1は2つのことを測定します。昨日の振る舞いを再現できる可能性、および回答が現在のポリシーを引用している可能性。緑:サンプリングされたトランスクリプトの95%以上がフォレンジックリプレイとリグレッションリプレイの両方に合格。黄:いずれかのテストで70〜95%。赤:70%未満、または返金やキャンセルなどの重要なインテントで引用が欠落。レバー:バージョン化とリプレイ。PMの決定:緑になるまでスケールをブロック。
ゲージ2:ドリフト負債
ドリフト負債は、モデルが生きる世界が変化する一方でモデルが同じままであるときに発生します。新しいプロモーションやシーズンがインテントの混合を変えます。キャンセルが増え、住所変更が増え、12月にはギフトレシートの質問が殺到します。ダッシュボードはモデルが正確であると表示し続けます。そのスコアは3か月前の会話の凍結サンプルに対して測定されているからです。その古いサンプルには新しい質問が含まれていません。したがって、数値は緑のままですが、実際のシグナルは赤くなります。チャットの時間が長くなり、より多くの人が人間を求め、問題を解決せずに去る人が増えます。モデルはうまくやっていると言います。顧客は同意しません。
ゲージ2は、顧客の満足度が低下している一方でダッシュボードがまだ良好に見えているかどうかを測定します。緑:解決率がベースラインの±3%以内、かつ「エージェント依頼」がベースライン+2%以下。黄:いずれかの指標で3〜7%のばらつき。赤:解決率が7%以上低下、または「エージェント依頼」が5%以上上昇して2日連続。レバー:シャドウとリフレッシュ。PMの決定:緑になるまでスケールをブロック。
ゲージ3:運用負債
運用負債は、速度、コスト、プライバシー、所有権などの地味なものに関するものです。ピーク時に応答が遅くなり、会話あたりのコストが上昇し、顧客の住所や注文番号などの個人データが本来あるべきでない場所に現れ始めます。システムのどこかに、誰も完全に理解していないプロンプトの絡まりがあり、6か月前に去った誰かによって書かれ、誰も選択を覚えていないデフォルト設定で3つのサービスをまとめています。
ゲージ3は、応答が高速か、コストが制限されているか、ログがクリーンか、システムのすべての部分が誰かによって所有されているかを測定します。緑:TTFTが1秒未満、p95ターンレイテンシが2秒未満、コストが目標範囲内、30日間のPIIインシデントゼロ、すべてのプロンプトとアダプターに名前付き所有者。黄:p95レイテンシ2〜3.5秒、またはコストが目標を0〜20%超過。赤:p95が3.5秒超、コストが目標を20%以上超過、またはPII漏洩。レバー:ガードレールと安定化。PMの決定:緑になるまでスケールをブロック。
マヤの場合、ブラックフライデーに応答が4秒に低下し、顧客が会話の途中で諦め始めました。さらに悪いことに、プライバシーチェックで顧客の住所がログに含まれていることが判明し、チームは迅速に修正できませんでした。ロジックが3つのサービスに分散し、単一の所有者がいなかったためです。
リスクは現実のものです。IBMの2025年データ漏洩コストレポートは、平均的な漏洩コストを444万ドルとし、無許可の「シャドウ」AIがさらに約67万ドルを追加し、AI関連のインシデントに遭った企業の97%が適切なアクセス制御を実施していなかったとしています。エアカナダは法廷で厳しい教訓を学びました。2024年、チャットボットが遺族の顧客に誤った遺族運賃ポリシーを伝えたことで責任を問われました。仲裁廷は、ボットが会社から独立しているという航空会社の主張を退けました。マヤの問題も同様です。顧客向けアシスタントが会社のポリシーではないことを自信を持って述べています。
Klarnaは別の方向からポイントを示しています。2024年にはAIが700人のエージェントの仕事をしたと自慢していましたが、2025年には人材を再雇用し始めました。コスト削減がサービス品質も削減したのです。何が壊れているかを見るための計器なしで急速にスケールすると、速度そのものがあなたを傷つけるものになります。
ゲージとそれらが測定する負債の種類について、さらに3つのことを言う必要がありますが、コスト管理のためここで記事は打ち切られています。