AI應證明自身價值:推出AI生產力保障
許多公司在AI上投入巨大卻難以衡量實際回報。Cognition推出AI生產力保障,承諾若其AI工程師Devin創造的價值低於客户支付費用,將提供高達1000萬美元的信用額度。該保障基於一個經過驗證的生產力估算器,通過比較AI完成任務的輸出與人類工程師所需時間來計算。
企業正以前所未有的規模投資人工智能,但大多數公司卻無法説清他們從中獲得了什麼回報。儀表盤上顯示着令牌消耗量、生成的代碼行數等活動指標,但沒有一個能真正回答這個問題:企業究竟獲得了多少價值?
業內需要從最大化使用指標轉向最大化成果——但目前還沒有衡量這一點的良好標準。AI供應商應該提供這樣的標準。
Cognition構建了一個AI生產力估算器,用於衡量其自主AI軟件工程師Devin為企業客户提供的有效工程產出。他們根據工程師對完成相同工作所需時間的評估對該估算器進行了驗證。
驗證結果使公司有了足夠的信心,向企業客户提供一項保障:如果Devin交付的工程價值低於客户支付的費用,Cognition將提供高達1000萬美元的信貸額度,直到價值達標為止。他們稱之為“AI生產力保障”,並希望其他AI公司也能朝着類似的方向發展。
工作原理
一個代理程序會審查每次完成的Devin會話,並評估兩件事:
- 該會話是否產生了有用的輸出?
- 如果是:人類工程師完成同樣的工作需要多長時間?
他們以“工程產出小時數”作為衡量單位,因為代碼行數並不能反映努力程度:一個需要數小時調查的關鍵性bug可能只需要兩行代碼就能修復。估算代理程序可以訪問用户的提示、存在的拉取請求、Devin採取的所有操作以及來自DeepWiki的代碼庫上下文。如果會話產生了未合併的拉取請求或被歸類為無產出,則該輸出被視為無用。他們從企業客户用户那裏收集了人工時間估計的數據集用於驗證。
驗證與侷限性
他們請企業客户中的一組用户評估,如果手動完成Devin任務需要多長時間。沒有任何單一估計是完美的,但在許多不同複雜度的任務中,高估和低估會相互抵消。
這產生了一個關於代理程序工程生產力的估算——有用輸出的小時數。但它並不能替代衡量投資回報率,後者需要更深入的任務商業價值背景。在Cognition,客户團隊直接與企業合作,瞭解其代理部署的全面投資回報影響。這個估算器通過衡量有效產出提供了一個基線。他們計劃繼續迭代並分享所學。
AI生產力保障
Cognition圍繞交付真實工程價值而構建。Devin與模型無關——他們為每項任務使用合適的模型,幫助客户優化性價比。Devin已經具備精細的控制功能來管理支出並引導用户使用更高效的提示。他們的團隊直接嵌入客户賬户:識別高價值項目、與工程師結對處理積壓任務、舉辦關於高效管理代理羣組的工作坊,並衡量成果。
憑藉這些特性、他們的參與模式以及對歷史生產力數據的審查,他們現在有足夠的信心在企業部署中對Devin的生產力做出財務承諾。工程小時數按標準全球費率換算成美元價值,並與客户在年度合同接近結束時的實際消費進行比較。如果價值不足,他們將提供最高1000萬美元的信貸。
每個AI供應商都應該能夠告訴客户他們從投資中獲得了什麼。Cognition希望看到更多行業朝着這個方向前進。如果您想了解更多關於AI生產力保障的信息,可以聯繫他們。現有客户可以聯繫其客户團隊。