AI News HubLIVE
站内改写4 分钟阅读

Token资本效率

企业如何通过定义任务、匹配模型、测量效果来提升在AI投入上的资本效率,降低成本并提高回报。

来源Hacker News AI作者: kmad

Satya Nadella 最近发表了一篇关于AI驱动经济中未来企业形态的文章,并引入了“Token资本”的概念,它现在与人力资本和金融资本并存。一个自然的延伸是“Token资本效率”,即组织每投资一美元在Token上所能获得的商业价值;具体而言,是产生的价值除以消耗的Token数量乘以其价格,涵盖推理、任务执行和学习。更高的效率来自于从每个Token中提取更多价值,为每个结果消耗更少的Token,或以更低的成本获取Token。这直接依赖于企业的一种新动态:组织如何将有价值的知识工作表示为LLM能够可靠处理的Token。

几乎没有任何公司目前是Token资本高效的。大家都在摸索中前进,往往损害了技术预算。大约18个月内,我们从Token最大化循环到了Token支出反弹。CFO和董事会面对意外账单开始质疑。核心矛盾在于公司急于“做AI”与财务责任之间的冲突。这项技术的使用模式不同于其他企业软件,因为它既无处不在又通常按使用量计费。加之进展速度,每个人都自动默认使用最好的模型,希望无论任务如何都能获得最佳性能。

大多数组织正在推动每个用户尽可能多地使用AI,无论其技术成熟度如何。这没问题;99%的用户不必知道Opus级和Haiku级模型之间的能力差异,但在企业规模上存在显著差异。但“尽可能使用AI”的指令没有边界或治理,正是导致账单膨胀且回报不明确的原因。这种方法还遭受结果可变性,因为人们常常写两句话的提示并希望得到最佳结果。

我们正处于模型变得如此优秀的阶段,以至于前沿与“商品化”AI使用的需求出现了分化。前沿能力对于探索真正的未知、规划复杂活动和更高级的推理很有用。对于更常见、定义明确的任务,前沿模型可能大材小用。本文涵盖了针对结构化、理解充分的任务可能采取的方法。

最明显的方法是匹配任务复杂度与模型能力。但要做到这一点,任务本身需要被充分理解。通过花时间定义有意义的任务,您可以显著提高Token资本效率(即同时降低成本并改善结果)。

设想我们让计算机做某事的每种方式作为一个单一谱系,从完全确定性到完全概率性。最左边是传统的计算机程序:公式化、确定性且可测量。向右移动,您用灵活性换取确定性,将更多的“如何做”交给模型——先是规范,然后是工作流,再是“轻推”——直到最右边是原始LLM提示:最大灵活性,最小保证。关键点在于“做什么”从未消失。您总是有一个意图;即您想要实现什么。只有“如何做”的规范在向右移动时逐渐消失。

大多数企业用户和Token最大化者生活在右边:将一切都委托给模型。对于某些工作来说,这是一个合理的地方。例如,编码代理非常适合,因为成熟的代码库以测试的形式给模型提供约束。失败的测试是一个边界。如今大多数知识工作没有这样的边界,至少没有数字化的测试,这就是结果可变性和相关挫败感的来源。

但是知识工作者执行的许多任务可以具有明确定义的边界,从而可以在图表上向左移动并大幅提高Token资本效率。做好这一点归结为一系列步骤:定义任务、匹配模型、测量结果,然后优化。将复杂流程分解为离散任务可减少变异性。

一个有效的离散任务通常是一组定义明确的输入,可能包括某些标准或流程步骤,以及一组期望的输出,使得您可以测量输出的可接受性。例如,假设我要检查一张发票并提取特定行项目的关键详细信息,输出格式可放入数据库并进行编程处理。我可以给人类一个PDF和一个电子表格,或者我可以将它们扔给Claude并概述目标和期望输出。两者在变异性、一致性、速度和成本方面都有一些权衡。除非您详尽地写下过程中的每一步,否则规范中几乎总会有差距;没有反馈机制,且这是运行业务流程的繁琐方式。最重要的是,您提示中留下的任何差距都可能导致输出中的潜在变异性。

通过将概率核心包裹在确定性外壳中,您可以利用模型的力量在“中间”做困难的工作,同时保留以一致方式理解和监控过程输入和输出的能力。模型的包裹很重要,因为您指定的越少,模型就越需要“即兴发挥”,对于LLM而言,这趋向于其训练数据的平均值。Anthropic的Thariq说得很好:“你留下的每一个空白,Claude都会用分布内的选择来填充。”

在如何指定输入、输出和过程方面做到彻底,也成为一个复合差异因素:您定义和构建评估的每套任务都成为您拥有的东西。这是使您的公司独特的知识产权和经验。评估是您能够知道对于给定的一组输入,过程提供了可接受的输出质量并按预期运行的机制。同样重要的是,知识产权是可组合的。代理可以开始串联经过考验的任务,而无需每次都重新发明轮子(并花费Token)。

通过测量来匹配正确的模型

有了任务定义,最初的问题又回来了:应该用哪个模型?诱惑是凭声誉或基准来回答。选择前沿模型然后继续。但声誉或分数不足以为决策提供足够信息。更有效的方法是根据您刚刚定义的任务测量候选模型。至少有两个可测量的维度:能力和成本。如果您没有定义任务,就无法测量其成功率。如果无法测量成功,两件事随之而来:您无法以CFO能接受的任何规模量化结果(或回报),并且您无法在保持可接受的性能水平的同时更换模型,因为您从未首先定义您将持守的性能标准。这就是Satya最近提出的观点:“公司应该能够切换‘通才’模型,而不会失去其学习系统中建立的‘公司专家’专业知识。”

构建一个捕获您IP的脚手架有机会,这样您就不会觉得总是要默认使用最新或最大的模型。这双向起作用——您可以沿着成本曲线下移,也可以“搭便车”享受更好模型的改进,而无需每次都重新设计工作流,因为它已经被定义。一旦您有了评估结果的能力,您可以有效地沿着成本曲线下移,但前提是您能够确定您的业务容忍水平。公共基准是好的方向指标,但对于模型在您会计部门内执行工作流的能力没有任何说明。在您的特定任务上,评估成为您的IP,因为它是测量模型性能的边界。这正是Satya所说的:公司的私有评估应跟踪对业务重要结果的改进。

一切都是优化问题

一旦您有了任务定义和评估来评分,一切都变成优化问题。您可以沿着成本曲线下移:更小的模型、更紧凑的提示、更少的脚手架。您一直走下去,直到性能超过您最初设定的容忍水平(例如,我可以接受分类任务97%的准确率)。这个交叉点就是您的停止点,如果做得正确,您可能节省一个数量级的成本。没有规范和评估,您甚至看不到这个图表。那时您只是在猜测并希望账单下降。

一个自然的起点是使用模型提供的东西,通过提示优化实现——这不是您手工完成的事情。使用像@DSPyOSS + GEPA这样的框架和技术,您可以a)以可维护、可测量的方式构建任务,以及b)自动识别哪些更便宜的模型在可接受的准确度下适用于您的用例。对于某些高容量且理解充分的过程,微调或强化学习开始变得更加合理。

您能测量您的Token资本效率吗?

可能听起来很明显,但能够创建用于运营业务的有价值任务和评估清单的公司将在短期内节省成本,更重要的是,他们将能够做到Satya指出的最重要的事情:建立“学习循环,使人力资本和Token资本复合增长”。组织是大型复合系统,员工执行任务作为其工作的一部分,以追求一些总体目标。学会创建重要工作数字清单的组织不仅会在AI时代比竞争对手花费更少,他们还将受益于复合知识、模型能力和成本改进,而竞争对手则从头重写提示。那些具有高Token资本效率的组织将获胜。

Token资本效率 | AI News Hub