AI News HubLIVE
站内改写2 分で読了

gh、jq、GitでAI生産性を自分で測定する:なぜ数値は横ばいで手戻りが増えているのか

AI使用が約65%増加したにもかかわらず、プルリクエストのスループットはわずか7.76%しか増加していません。本記事では認識と現実のギャップを明らかにし、オープンソースツールを用いた実用的な測定方法を提供します。

ソースHacker News AI著者: dennispi

人工知能(AI)コーディングツールの普及は、生産性のパラドックスをもたらしました。AIの使用が約65%急増したにもかかわらず、プルリクエスト(PR)のスループットはわずか7.76%の増加にとどまっています。これはDX社が400組織を対象に実施した調査によるものです。一方、METRの複数の研究では、開発者のAIに対する生産性の認識と現実に大きな乖離があることが示されています。2025年の研究では、16人の経験豊富な開発者がAIを使うと24%速くなると予測したのに対し、実際には19%遅くなりました。2026年の追跡研究では、モデルの改善や開発者の習熟により速度低下は縮小しましたが、信頼区間はゼロをまたいでおり、統計的有意性は限定的です。

この現象は「トークノミクス(Tokenomics)」と呼ばれ、生成されるコードは増える一方で、マージ可能なアウトプットや本番出荷は追いついていないことを指します。Linux Foundationもトークノミクス財団を設立し、カンファレンス「Tokenomicon」を開催するなど、冗談めかしながらもそのコスト増加は現実のものとなっています。

現在の生産性ダッシュボードには深刻な問題があります。Farosによれば、AI採用率の高いチームではレビュー時間が91%増加し、CircleCIのデータではメインブランチのスループットが7%低下、メインブランチのマージ成功率は5年ぶりの低水準となる70.8%に落ち込みました。さらに、31.3%のPRがレビューなしでマージされています。これらの数字は、動作(motion)は増えているが、デリバリーは改善されていないことを示しています。

「Jカーブ」の主張——現在は下降局面で、将来的に上昇に転じるという説——に対し、著者は、出口基準を日付と数値で明示しない限り、反証不可能な言い訳に過ぎないと警鐘を鳴らします。

有効な対策は、AI導入前にベースラインを確立することです。「同一エンジニア」の縦断的比較を用いれば、勤続年数、チーム変更、季節変動などの交絡因子を排除できます。DXの事例では、AIユーザーは自身のベースラインと比較してPRスループットが年率30%向上したのに対し、非AIユーザーは5%の向上にとどまりました。

次の4つの指標は、GitHub CLI(gh)、jq、Git、cronジョブだけで測定可能です。

  1. サイクルタイム:PR作成からマージまでの中央値。下書きPRやボット(Dependabotなど)は除外します。GitHub APIで計算します。
  2. レビュータイム:最初のレビューまでの待機時間の中央値と、レビューなしでマージされたPRの割合。
  3. 手戻り率:30日以内に削除された行のうち、削除時点で30日以内に書かれた行の割合。git blameとPythonスクリプト(コード付き)で計測し、月次で実行します。
  4. 欠陥エスケープ率:本番環境で見つかったバグのうち、開発・テストで捕捉されなかったものの割合。GitHub IssuesやLinearなどで自動集計します。

これらの指標は必ずチームレベルで集計し、個人のパフォーマンス評価に使ってはいけません。信頼できるベースラインに基づいた測定こそが、AIツールの真の影響を明らかにします。