AI News HubLIVE
站内改写2 分钟阅读

为什么你的AI账单比实际应支付的更大

一次287美元的调试会话促使工程师Tejas Chopra创建了Headroom,这是一个开源的上下文优化层,通过压缩和缓存发送给LLM的上下文,已在五个月内为用户节省了70万美元,并将token使用量视为可解决的工程问题。

来源Hacker News AI作者: chhum

一次287美元的调试会话促使一位工程师重新思考我们如何向大语言模型(LLM)提供数据,其结果已在五个月内为用户节省了约70万美元。

Tejas Chopra在调试GPU故障时,按常规流程提取日志并让Claude识别问题,但发现单个提示消耗了整个上下文窗口的两倍。他意识到模型多次读取整个日志文件,处理所有内容后才提取出真正相关的三行。当他汇总月度账单时,个人项目工作花费了287美元。

解决方法是重写提示以忽略INFO行,仅关注警告和警报。响应时间缩短,token成本下降,但Chopra仍然感到困扰。他认为不能期望每个开发者都手动策划提示,因此开始探索自动化流程。

结果就是Headroom,一个面向LLM的开源上下文优化层。在Linux开源峰会上展示该项目时,Chopra发现这一想法引起了广泛共鸣。在停止收集统计数据前,Headroom在五个月内为其用户节省了约70万美元,并回收了2000亿token。这一早期成功促使Chopra离开高级工程师职位,创立了Headroom Labs。

Headroom的压缩流程经历了三个不同阶段。首先针对JSON,通过去除空格、逗号、引号和嵌套缩进,在不丢失任何数据的情况下实现30%的节省。其次,它寻找值之间的统计相似性进行压缩。例如,如果数组中有88/90个值在0到1之间,另外两个是异常值,则只传输异常值和摘要。最后,每个压缩负载都由缓存条目支持,缓存键由会话ID和原始数据哈希组成,避免跨会话污染。原始数据存储在本地Redis或SQLite中,默认TTL为5到30分钟,企业部署时可使用RDS或Bigtable等数据库。

压缩的风险在于模型可能需要被丢弃的数据。Chopra的解决方案是在压缩输出中留下一个工具调用,模型可以调用它以获取完整的原始数据。这种情况发生在不到1%的案例中,因为统计压缩应足够保守,且模型足够智能。

Headroom为不同上下文类型使用不同的压缩器:代码使用抽象语法树,锁文件有专门处理,网页(如文档、API参考)另有方法,而非结构化文本则由一个名为Kompress Base的小型开源模型处理,该模型通过判断删除每个词是否改变语义来学习压缩语法。

Headroom目前仅压缩输入,输出压缩正在开发中。本地文件读取(约占典型编码代理流程中上下文的60%)不进行压缩,而是通过与Serena或CodeMCP等工具集成,减少需要读取的文件面。

另一个有趣的功能是“learn”机制,它挖掘历史代理会话中的重复失败模式,并自动将修正写入CLAUDE.md文件。这解决了代理在多个会话中重复犯相同错误的问题。

构建Headroom的主要挑战是集成。每个LLM提供商的API方言不同,路由层(Bedrock、Vertex AI、Azure)又引入变体。此外,编码代理和工具的多样性使兼容性矩阵更加复杂。Headroom对Claude和Codex提供一级支持,其他为实验性。

Chopra建议将token卫生视为新的工程学科。通过像管理计算信用一样管理token预算,并在数据到达提供商之前进行压缩,团队可以获得提供商无动力提供的AI支出可见性。

为什么你的AI账单比实际应支付的更大 | AI News Hub