Agents of Chaos：AI 智能体红队安全研究报告

2026-03-31

来自东北大学、MIT、哈佛、斯坦福等机构的研究团队发布了一项关于 AI 智能体安全的红队测试研究。他们在真实环境中部署了具备持久记忆、邮件账户、Discord 访问、文件系统和 shell 执行权限的智能体，进行了为期两周的安全测试。

研究发现

研究团队记录了 11 个典型案例，发现的主要安全问题包括：

研究使用 OpenClaw 框架，在隔离的虚拟机环境中部署智能体。每个智能体拥有：

研究发现智能体在 L2 自主级别运行：能够自主执行子任务（如发送邮件、执行命令），但缺乏自我模型来识别任务是否超出能力范围，也无法可靠地判断何时应该将控制权交还给人类。

这些发现揭示了在真实部署环境中 AI 智能体的安全、隐私和治理漏洞，呼吁法律学者、政策制定者和跨学科研究者紧急关注。