2026-06-16站内改写1 分钟阅读更新: 2026-06-16

上下文压缩并非单一事物：匹配预算下可读符号重新表达与连贯摘要的比较

研究人员提出了一种名为'Telegraph English'的可读符号格式，用于多跳问答中的上下文压缩。它以更少的令牌成本将检索到的段落重写为结构化的实体-关系语句，从而保留推理证据。在MuSiQue、TwoWiki和HotpotQA上的对照实验中，它在每个数据集上都优于三种匹配预算的压缩基线（字符级删除、截断和随机子采样），F1分数提高了13到20个百分点。在最难的数据集上，它还优于同一编码器生成的连贯散文摘要。预先注册的深度交互假设未得到支持：优势并未随数据集内推理深度的增加而增加。这些结果表明，在匹配的令牌预算下，可读符号重新表达比自然语言或连贯摘要更能密集地保留实体内容。

来源arXiv Computational Linguistics作者: Sisong Bei, Mikhail L. Arbuzov, Ziwei Dong, Dmitri Kalaev, Alexey Shvets

上下文压缩是自然语言处理中的一个重要问题，特别是在多跳问答任务中，模型需要从多个篇章中推理出答案。然而，现有压缩方法往往在保留推理证据和降低令牌成本之间存在权衡。最近，一篇来自arXiv的论文（arXiv:2606.14875）提出了一种名为“Telegraph English”的可读符号格式，旨在解决这一挑战。

Telegraph English的核心思想是将检索到的段落重写为结构化的实体-关系语句。这种格式保留了实体间的逻辑关系，同时以更少的令牌压缩了原始文本。与传统的字符级删除、截断或随机子采样等基线方法相比，Telegraph English能够更密集地保留实体内容。研究人员在三个多跳问答数据集（MuSiQue、TwoWiki和HotpotQA）上进行了对照实验，结果显示，在所有数据集上，Telegraph English均优于三种匹配预算的压缩基线，F1分数提升了13到20个百分点。在最难的数据集上，它甚至优于同一编码器生成的连贯散文摘要。

值得注意的是，研究人员预设的一个假设——压缩优势会随着推理深度的增加而增大——并未得到实验数据支持。这表明，Telegraph English的有效性并非依赖于推理链的长度，而是源于其独特的符号化表达方式。这项研究提供了新的证据，表明在匹配的令牌预算下，可读的符号重新表达比自然语言或连贯摘要更能保留实体内容，从而为小语言模型在复杂推理任务中的应用提供了新的思路。

此外，该研究还强调了上下文压缩不仅是一种技术，更是一种策略选择。Telegraph English格式的可读性和符号化特性使其在保留关键信息的同时，能够显著降低计算成本。这对于资源受限的环境尤为重要，例如移动设备或实时推理系统。未来，研究人员计划进一步探索Telegraph English在不同语言和领域中的适用性，并优化其生成效率。