AI News HubLIVE
站内改写3 分で読了

AIはその価値を示すべき:「AI生産性保証」のご紹介

多くの企業がAIに巨額を投資する一方、実際のリターンを測定できていない。Cognitionは、AIエンジニア「Devin」が支払額に見合う価値を提供しない場合、最大1,000万ドルのクレジットを提供する「AI生産性保証」を発表。この保証は、AIの出力と人間の作業時間を比較する検証済みの推定ツールに基づく。

ソースHacker News AI著者: nadis

企業はかつてないほどAIに投資しているが、ほとんどの企業はその見返りが何かを明確に説明できない。ダッシュボードには消費トークン数や生成コード行数などのアクティビティ指標が表示されるが、実際に「ビジネスはどれだけの価値を得ているのか」という問いに答えるものはない。

業界は使用量指標の最大化から成果の最大化へと移行する必要があるが、現時点ではそれを測定する適切な基準がない。AIベンダーこそがその基準を提供すべきである。

Cognitionは、自律型AIソフトウェアエンジニア「Devin」がエンタープライズ顧客に提供する生産的なエンジニアリングアウトプットを測定するAI推定ツールを構築した。この推定ツールは、同じ作業を手作業で行った場合にかかる時間をエンジニアが評価したものと照合して検証された。

この結果に基づき、同社はエンタープライズ顧客に保証を提供できるだけの自信を得た。すなわち、Devinが支払額に見合うエンジニアリング価値を提供しない場合、Cognitionはその価値が達成されるまで最大1,000万ドルの使用料を負担する。これを「AI生産性保証」と名付け、他のAI企業にも同様の方向性が広がることを期待している。

仕組み

エージェントが各Devinセッションをレビューし、以下の2つを推定する。

  1. このセッションは有用なアウトプットをもたらしたか?
  2. もしそうなら、人間のエンジニアが同じ作業を完了するのにどれだけの時間がかかったか?

測定単位は「生産的アウトプットの時間」である。コード行数は労力を反映しないからだ。数時間の調査が必要な重大なバグでも、修正は2行で済む場合がある。推定エージェントは、ユーザーのプロンプト、存在するプルリクエスト、Devinが実行したすべてのアクション、DeepWikiからのコードベースコンテキストにアクセスできる。セッションがマージされなかったプルリクエストを生んだり、非生産的と分類された場合、アウトプットは有用でないとみなされる。エンタープライズ顧客のユーザーから人手による時間見積もりのデータセットを収集し、検証に用いた。

検証と限界

エンタープライズ顧客の一連のユーザーに、Devinのタスクを手作業で行う場合にかかったであろう時間を尋ねた。単独の見積もりは完璧ではないが、さまざまな複雑さのタスクにおいて高低が平均化される。

これにより、エージェントによるエンジニアリング生産性、すなわち有用なアウトプットの時間が推定される。これはROIの測定に代わるものではなく、ROIには各タスクのビジネス価値に関するより深いコンテキストが必要である。Cognitionでは、カスタマーフェーシングチームがエンタープライズと直接協力し、エージェント導入の全体的なROIインパクトを理解している。この推定ツールは生産的アウトプットを測定することでベースラインを提供する。同社は継続的に改善し、学んだことを公開していく計画である。

AI生産性保証

Cognitionは真のエンジニアリング価値を提供することを中心に構築されている。Devinはモデルに依存せず、タスクごとに適切なモデルを使用し、顧客の価格パフォーマンス最適化を支援する。Devinはすでに支出を管理し、ユーザーをより生産的なプロンプトに導くためのきめ細かな制御機能を備えている。同社のチームは顧客アカウントに直接組み込まれ、価値の高いプロジェクトの特定、エンジニアとのバックログでのペアプログラミング、エージェント群の生産的管理に関するワークショップの開催、成果の測定を行っている。

これらの機能、エンゲージメントモデル、そして過去の生産性データのレビューにより、同社はエンタープライズ展開においてDevinの生産性に財務的なコミットメントを行う自信を得た。エンジニアリング時間は標準的なグローバルレートを使用してドル価値に変換され、年間契約の終了間近に顧客の実際の消費額と比較される。価値が不足した場合、最大1,000万ドルのクレジットが発行される。

すべてのAIベンダーは、顧客に対して投資に対する見返りを説明できるべきである。Cognitionは、より多くの業界がこの方向に進むことを望んでいる。AI生産性保証の詳細については、こちらから問い合わせ可能。既存の顧客はアカウントチームに連絡できる。