委托智能体编辑文档的代价:前沿LLM也会破坏25%的内容
你能信任AI智能体替你编辑文档吗?一项来自arXiv的新研究给出了令人不安的答案:不能,至少现在还不行。
这项研究名为”LLMs Corrupt Your Documents When You Delegate”,由Philippe Laban、Tobias Schnabel和Jennifer Neville共同完成。他们设计了一个名为DELEGATE-52的基准测试,模拟跨越52个专业领域(从编程到晶体学再到乐谱)的长时间委托工作流。
结果令人警醒:即使是最先进的前沿模型——包括Gemini 3.1 Pro、Claude 4.6 Opus和GPT 5.4——在长工作流结束时平均破坏了约四分之一的文档内容。更弱的模型表现更差。
关键发现
研究揭示了三个反直觉的结果:
错误是稀疏但致命的。 模型并非”千刀万剐”式缓慢退化,而是在大部分轮次中近乎完美重建,然后在某几轮中突然丢失10–30个百分点的内容。这种灾难性失败模式使得问题尤其难以检测。
代理工具无法挽救局面。 即使让模型使用外部工具(如文件读写、搜索),DELEGATE-52上的表现也未见提升。问题的根源不在于模型的可访问能力,而在于其核心的推理可靠性。
长上下文是放大器。 文档越大、交互轮次越多、干扰文件越多,内容退化的程度就越严重。简单来说,你让AI做的事情越多,它搞砸的可能性就越大。
对智能体经济的启示
这篇论文触及了智能体经济的核心信任问题。如果AI智能体在执行委托任务时连文档的完整性都无法保证,那么在支付、合约、代码审核等更关键的场景中,风险只会更大。
开发者在构建代理系统时,需要重新思考验证机制:不仅要检查任务是否完成,还要检查任务执行过程中是否有”附带损害”。这也意味着,当前”委托即信任”的交互模式需要更严格的审计和回滚能力。