委托智能体编辑文档的代价：前沿LLM也会破坏25%的内容

2026-05-10

你能信任AI智能体替你编辑文档吗？一项来自arXiv的新研究给出了令人不安的答案：不能，至少现在还不行。

这项研究名为“LLMs Corrupt Your Documents When You Delegate”，由Philippe Laban、Tobias Schnabel和Jennifer Neville共同完成。他们设计了一个名为DELEGATE-52的基准测试，模拟跨越52个专业领域（从编程到晶体学再到乐谱）的长时间委托工作流。

结果令人警醒：即使是最先进的前沿模型——包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT 5.4——在长工作流结束时平均破坏了约四分之一的文档内容。更弱的模型表现更差。

关键发现

研究揭示了三个反直觉的结果：

错误是稀疏但致命的。 模型并非“千刀万剐”式缓慢退化，而是在大部分轮次中近乎完美重建，然后在某几轮中突然丢失10–30个百分点的内容。这种灾难性失败模式使得问题尤其难以检测。

代理工具无法挽救局面。 即使让模型使用外部工具（如文件读写、搜索），DELEGATE-52上的表现也未见提升。问题的根源不在于模型的可访问能力，而在于其核心的推理可靠性。

长上下文是放大器。 文档越大、交互轮次越多、干扰文件越多，内容退化的程度就越严重。简单来说，你让AI做的事情越多，它搞砸的可能性就越大。

对智能体经济的启示

这篇论文触及了智能体经济的核心信任问题。如果AI智能体在执行委托任务时连文档的完整性都无法保证，那么在支付、合约、代码审核等更关键的场景中，风险只会更大。

开发者在构建代理系统时，需要重新思考验证机制：不仅要检查任务是否完成，还要检查任务执行过程中是否有“附带损害”。这也意味着，当前“委托即信任”的交互模式需要更严格的审计和回滚能力。

阅读原文