AI應證明自身價值:推出AI生產力保障
許多公司在AI上投入巨大卻難以衡量實際回報。Cognition推出AI生產力保障,承諾若其AI工程師Devin創造的價值低於客戶支付費用,將提供高達1000萬美元的信用額度。該保障基於一個經過驗證的生產力估算器,透過比較AI完成任務的輸出與人類工程師所需時間來計算。
企業正以前所未有的規模投資人工智慧,但大多數公司卻無法說清他們從中獲得了什麼回報。儀表盤上顯示著令牌消耗量、生成的程式碼行數等活動指標,但沒有一個能真正回答這個問題:企業究竟獲得了多少價值?
業內需要從最大化使用指標轉向最大化成果——但目前還沒有衡量這一點的良好標準。AI供應商應該提供這樣的標準。
Cognition構建了一個AI生產力估算器,用於衡量其自主AI軟體工程師Devin為企業客戶提供的有效工程產出。他們根據工程師對完成相同工作所需時間的評估對該估算器進行了驗證。
驗證結果使公司有了足夠的信心,向企業客戶提供一項保障:如果Devin交付的工程價值低於客戶支付的費用,Cognition將提供高達1000萬美元的信貸額度,直到價值達標為止。他們稱之為“AI生產力保障”,並希望其他AI公司也能朝著類似的方向發展。
工作原理
一個代理程式會審查每次完成的Devin會話,並評估兩件事:
- 該會話是否產生了有用的輸出?
- 如果是:人類工程師完成同樣的工作需要多長時間?
他們以“工程產出小時數”作為衡量單位,因為程式碼行數並不能反映努力程度:一個需要數小時調查的關鍵性bug可能只需要兩行程式碼就能修復。估算代理程式可以訪問使用者的提示、存在的拉取請求、Devin採取的所有操作以及來自DeepWiki的程式碼庫上下文。如果會話產生了未合併的拉取請求或被歸類為無產出,則該輸出被視為無用。他們從企業客戶使用者那裡收集了人工時間估計的資料集用於驗證。
驗證與侷限性
他們請企業客戶中的一組使用者評估,如果手動完成Devin任務需要多長時間。沒有任何單一估計是完美的,但在許多不同複雜度的任務中,高估和低估會相互抵消。
這產生了一個關於代理程式工程生產力的估算——有用輸出的小時數。但它並不能替代衡量投資回報率,後者需要更深入的任務商業價值背景。在Cognition,客戶團隊直接與企業合作,瞭解其代理部署的全面投資回報影響。這個估算器透過衡量有效產出提供了一個基線。他們計劃繼續迭代並分享所學。
AI生產力保障
Cognition圍繞交付真實工程價值而構建。Devin與模型無關——他們為每項任務使用合適的模型,幫助客戶最佳化價效比。Devin已經具備精細的控制功能來管理支出並引導使用者使用更高效的提示。他們的團隊直接嵌入客戶賬戶:識別高價值專案、與工程師結對處理積壓任務、舉辦關於高效管理代理群組的工作坊,並衡量成果。
憑藉這些特性、他們的參與模式以及對歷史生產力資料的審查,他們現在有足夠的信心在企業部署中對Devin的生產力做出財務承諾。工程小時數按標準全球費率換算成美元價值,並與客戶在年度合同接近結束時的實際消費進行比較。如果價值不足,他們將提供最高1000萬美元的信貸。
每個AI供應商都應該能夠告訴客戶他們從投資中獲得了什麼。Cognition希望看到更多行業朝著這個方向前進。如果您想了解更多關於AI生產力保障的資訊,可以聯絡他們。現有客戶可以聯絡其客戶團隊。