AI生産性の罠:より多くのアウトプット
AIはコードやドキュメントの生成を安価にするが、これによりレビューや検証作業が増加し、実際には納品速度が遅くなる。研究によると、AIツールの使用によりタスク時間が19%増加する可能性がある。問題はアウトプットが増えてもスループットや成果が変わらないことだ。組織はトークン数ではなく、レビュー時間や手戻り率などを測定すべきである。
AIはコードの生成、チケットの起草、ミーティングの要約、提案書の作成を非常に安価にする。しかし、生成が安価になったからといって、作業が実際に速く完了するわけではない。より多くの生のアウトプットは、より多くのレビュー、より多くの検証、そしてより多くのダウンストリームのクリーンアップを意味し、これは避けられない傾向である。正しいプルリクエストのマージや健全なエンジニアリング上の決定に至るまでの総時間が改善されなければ、エンジンは単により多くのノイズを生み出しているに過ぎない。実際の配送速度は変わらない。
私たちはアウトプット、スループット、成果を区別しなければならない。アウトプットは生成される生の成果物である。スループットは配送システムを通じて正常に移動する検証済みの作業である。成果とは、正しい決定または安全な本番環境の変更である。AIは個人のアウトプットを増やすが、スループットと成果はほとんど変わらないことが多い。
このギャップは、経験豊富なオープンソース開発者を対象とした最近のMETRの研究で浮き彫りにされた。ツールを使い始めたとき、開発者はAIがタスク時間を約4分の1に短縮すると予測した。研究後も、主観的には時間を節約できたと感じていた。しかし、実際の測定結果は逆で、AIツールの使用が許可された場合、タスクは19%長くかかった。標準的なアウトプットの測定は誤解を招く可能性があると研究者は述べている。生成ツールは冗長だが同等のコードを生成したり、タスクをより多くの部分に分解したりする傾向があり、実際には総認知的努力を減らさない。その結果、1つのバグレポートが5つのチケット、3つのプルリクエスト、1つの移行ノートになる。これにより、レビューする差分が大きくなり、実行する生成テストが増え、トリアージする成果物が増え、重要な詳細を見逃す可能性が高まる。
興味深いのは、開発者のエクスペリエンスは依然として非常にポジティブだったことだ。AIは白紙の状態の摩擦を取り除くのに優れており、作業をよりスムーズに感じさせる。AIは人間の労働を創造から評価へと変えるため、主観的な速度と実際の測定時間に差が生じる。他人の作業をチェックするのは自分で書くよりも簡単だが、チェックにはしばしば時間がかかる。レビュー、クリーンアップ、検証といったダウンストリームの作業が積み重なるが、開発者はブロックが解除されたように感じる。AIは依然として非常に有用である。Copilotのようなツールを使った対照実験では、開発者はボイラープレートの作成、APIグルーコードの生成、テストの足場の作成といった境界のあるプログラミングタスクをはるかに速く完了できることが示されている。
問題は、レビューと検証により多くの時間がかかり、それが配送サイクルをさらに停滞させることだ。年次DORAレポートは、AIの導入が個人の生産性感を高める一方で、AIの導入がソフトウェア配送の安定性とスループットのボトルネックになる可能性があると指摘している。コード生成の高速化はレビューキューとマージリスクを増大させ、チームをより大きなバッチサイズに駆り立てる。AIはそれが入るシステムを増幅する傾向がある。明確に定義されたソフトウェア所有権、厳格なレビュープロセス、高度に信頼性の高いデプロイパイプラインを持つほとんどのチームは、このテクノロジーの恩恵を受けるだろう。しかし、弱いインセンティブ、あいまいな本番環境の境界、悪い検証のもとでは、AIは低品質のアウトプットの加速器にすぎなくなる。
組織がAIトークンの大量使用を生産性の代理(例:コード行数やコミット数)として報いる場合、測定は大きな問題となる。これらの指標は簡単に操作でき、実際のビジネス価値とはほとんど関係がない。
このパターンは、何千人もの開発者のテレメトリに見られる。Farosが1万人以上の開発者を分析したところ、高いAI導入率はより多くのタスク完了とマージされたプルリクエストと相関する一方で、はるかに長いレビュー時間、より大きなプルリクエスト、そして開発者あたりのバグ増加にもつながることがわかった。高いAI導入率と企業レベルの配送指標や品質KPIの改善との間に有意な関連性は見られなかった。
これは明らかだ。開発者が2倍の速さでコードを書けるとしても、人間のレビューが依然としてボトルネックであれば、作業はレビューで立ち往生する。AI生成による大きな差分は、レビューアが調べる必要のある探索空間を大幅に拡大する。ほぼ正しいように見える生成コードの微妙な間違いは、明確な人間の設計を持つ手書きコードをレビューするよりも多くの専門家の注意を必要とする。強力な所有権や堅牢な検証がなければ、生み出されるのはレビュー債務である。
これはコード以外でも、AI生成の「ワークスロップ」という形で見られる。見栄えはするがプロジェクトを実際に前進させない滑らかなものだ。何も解決しない無限のメモ、不一致を隠す議事録、デューデリジェンスの負担を著者ではなく読者に押し付ける提案などだ。これにより、低質のアウトプットを読んで処理する時間を費やすすべての人に真の隠れたコストが生じる。
実際の作業は、クレームを検証し、要約を調整し、提案が実際に実行可能かどうかを判断しなければならない人々に先送りされる。成果物を数える代わりに、チームが正しいマージ、確固たる決定、または出荷された結果に到達するのにかかる総時間が短くなったかどうかを測定する必要がある。これには、受け入れられた変更ごとのレビュー時間、手戻り率、変更失敗率、決定待ち時間、レビューア負荷などのより良い指標が必要である。これらの測定値を収集することは、単純なトークン数や完了タスクを収集するよりも困難であり、その結果、多くの組織はそれらを収集しない。優れた配送追跡は、受け入れられた作業と配送の真のコストを考慮する必要がある。
AIは、草稿、足場、初回実行の障壁を下げるための強力なツールである。その後も、ボトルネックは依然としてレビューである。
私が構築しているもの
タスクを委任する。ソフトウェアを入手する。
VroniにGitHubの問題、バグレポート、仕様、または大まかなアイデアを与えてください。リポジトリを読み、変更を計画し、コードを書き、チェックを実行し、レビュー可能なプルリクエストに向けて作業します。
vroni.comをご覧ください。