2026-06-08站内改写2 分钟阅读更新: 2026-06-08

为什么将任务委托给LLM会导致文档损坏？

最新研究揭示，将文档编辑等任务委托给大型语言模型（LLM）时，模型可能会在交互过程中默默损坏文档内容。研究构建了DELEGATE-52基准测试，发现即使最先进的模型在20次交互后也会导致25%的内容损坏，原因包括错误累积、弱模型删除与强模型幻觉、上下文过载以及领域熟悉度不足。代理式AI工具对此问题帮助有限。

来源KDnuggets作者: Iván Palomares Carrascosa

我们正在进入一个AI新时代，互动变为任务委托。用户不仅与AI聊天，还委托其完成从编辑源代码到格式化专业文本甚至管理账本的长期任务。因此，他们以前所未有的信任度依赖AI系统在多轮交互中维护文档等文件的完整性。

然而，一项最新研究揭示了一个问题：将任务委托给大型语言模型（LLM）时，它可能默默损坏你交给它的文档。为了理解这一问题，科学家们构建了一个名为“DELEGATE-52”的严格评估框架。该基准涵盖52个专业领域，从法律文本到Python编程、音乐符号或晶体学。

研究人员使用一种基于“往返”方法的智能模拟，测试了19种不同的LLM：要求AI执行特定编辑，然后执行完全相反的指令来撤销编辑。在理想情况下，模型应返回原始文档，完全完好。现实检验：即使是最智能的模型，如Gemini Pro、Claude Opus和GPT-5，在20次交互后也能损坏高达25%的原始文档内容；较弱的模型则接近50%。

研究人员揭示了文档损坏的若干原因。首先，错误会累积：就像传统的“传话游戏”，LLM的小错误会悄悄积累，变得险恶地显著。一次编辑可能增加一些局部错误，但一系列复杂编辑会长期滚雪球，导致文档急剧退化。

其次，弱模型倾向于删除内容，而智能模型则会产生幻觉。研究中突出了不同模型失败方式的显著转变：较弱模型倾向于删除，意外地丢弃内容，经过多次交互后由于文档内容明显缩小而变得明显。而在前沿LLM中，根本问题不是删除而是损坏：它们保持文档的整体“外观和感觉”，甚至维持几乎完整的字数，但悄悄打错、修改或替换事实信息为听起来合理的虚构。讽刺的是：模型越智能，检测其损坏行为就越困难，因为最终输出乍看之下仍然合法。

第三，上下文过载和干扰附件：在混乱条件下，即大量上下文信息或过多附加文档，模型难以保持信息结构完整。随着文档大小增加或更多“干扰文件”被包含在提示上下文中，退化的严重性和影响急剧上升，模型不再坚持源文本，而是更容易依靠预测逻辑来填补空白。

最后，领域熟悉度也很重要：并非所有文件在委托任务中都会退化到相同程度。根据研究，LLM在高度结构化的编程领域（如Python源代码）表现良好。当被推向纯自然语言任务或小众空间格式时，它们很快失去保持文件完全完整所需的严格内部逻辑感。

即使LLM被升级为拥有代理工具——如执行代码或直接读写文件的能力——委托导致的文档损坏和退化问题并未消失。事实上，代理附加组件几乎无法阻止发生在LLM底层Transformer架构核心的问题。重新思考如何验证长期AI任务是必要的。在此之前，将LLM作为完全无监督的文档编辑器仍然是一种高风险赌博。