AI应证明自身价值:推出AI生产力保障
许多公司在AI上投入巨大却难以衡量实际回报。Cognition推出AI生产力保障,承诺若其AI工程师Devin创造的价值低于客户支付费用,将提供高达1000万美元的信用额度。该保障基于一个经过验证的生产力估算器,通过比较AI完成任务的输出与人类工程师所需时间来计算。
企业正以前所未有的规模投资人工智能,但大多数公司却无法说清他们从中获得了什么回报。仪表盘上显示着令牌消耗量、生成的代码行数等活动指标,但没有一个能真正回答这个问题:企业究竟获得了多少价值?
业内需要从最大化使用指标转向最大化成果——但目前还没有衡量这一点的良好标准。AI供应商应该提供这样的标准。
Cognition构建了一个AI生产力估算器,用于衡量其自主AI软件工程师Devin为企业客户提供的有效工程产出。他们根据工程师对完成相同工作所需时间的评估对该估算器进行了验证。
验证结果使公司有了足够的信心,向企业客户提供一项保障:如果Devin交付的工程价值低于客户支付的费用,Cognition将提供高达1000万美元的信贷额度,直到价值达标为止。他们称之为“AI生产力保障”,并希望其他AI公司也能朝着类似的方向发展。
工作原理
一个代理程序会审查每次完成的Devin会话,并评估两件事:
- 该会话是否产生了有用的输出?
- 如果是:人类工程师完成同样的工作需要多长时间?
他们以“工程产出小时数”作为衡量单位,因为代码行数并不能反映努力程度:一个需要数小时调查的关键性bug可能只需要两行代码就能修复。估算代理程序可以访问用户的提示、存在的拉取请求、Devin采取的所有操作以及来自DeepWiki的代码库上下文。如果会话产生了未合并的拉取请求或被归类为无产出,则该输出被视为无用。他们从企业客户用户那里收集了人工时间估计的数据集用于验证。
验证与局限性
他们请企业客户中的一组用户评估,如果手动完成Devin任务需要多长时间。没有任何单一估计是完美的,但在许多不同复杂度的任务中,高估和低估会相互抵消。
这产生了一个关于代理程序工程生产力的估算——有用输出的小时数。但它并不能替代衡量投资回报率,后者需要更深入的任务商业价值背景。在Cognition,客户团队直接与企业合作,了解其代理部署的全面投资回报影响。这个估算器通过衡量有效产出提供了一个基线。他们计划继续迭代并分享所学。
AI生产力保障
Cognition围绕交付真实工程价值而构建。Devin与模型无关——他们为每项任务使用合适的模型,帮助客户优化性价比。Devin已经具备精细的控制功能来管理支出并引导用户使用更高效的提示。他们的团队直接嵌入客户账户:识别高价值项目、与工程师结对处理积压任务、举办关于高效管理代理群组的工作坊,并衡量成果。
凭借这些特性、他们的参与模式以及对历史生产力数据的审查,他们现在有足够的信心在企业部署中对Devin的生产力做出财务承诺。工程小时数按标准全球费率换算成美元价值,并与客户在年度合同接近结束时的实际消费进行比较。如果价值不足,他们将提供最高1000万美元的信贷。
每个AI供应商都应该能够告诉客户他们从投资中获得了什么。Cognition希望看到更多行业朝着这个方向前进。如果您想了解更多关于AI生产力保障的信息,可以联系他们。现有客户可以联系其客户团队。