计算机视觉操控比结构化 API 贵 45 倍

Reflex 团队发布了一项引人注目的基准测试,直接比较了两种让 AI 智能体操作同一管理后台的方式:基于屏幕截图的”计算机视觉操控”(vision agent/browser-use)与直接调用结构化 API。

基准任务是在一个客户管理后台中找到姓”Smith”且订单最多的客户,定位其最近的待处理订单,审核该订单的所有待处理评价,并将订单标记为已发货——涉及三种数据资源、跨实体查询和读写操作,是内部工具最常见的任务类型。

采用 Claude Sonnet、相同数据集、相同应用逻辑,唯一的变量是接口方式。

结果差异悬殊。API 智能体在 8 次调用、约 20 秒内完成任务,每次运行一致。而计算机视觉智能体在最简单的提示下甚至无法完成——它找到了一个待处理评价,但没有发现页面上还有三个在可视区域之外。即使为视觉智能体编写了 14 步的详细操作指引,它也需要 14-22 分钟,消耗 40-75 万输入 token,成本是 API 路径的 45 倍。

关键数据:API 智能体(Sonnet)每次运行严格 8 步、20 秒、约 1.2 万输入 token;视觉智能体平均 53 步、1003 秒(约 17 分钟)、55 万输入 token,且三次运行间的 token 消耗从 40 万到 75 万不等。如果使用更便宜的 Haiku 模型走 API 路径,成本差距进一步拉大。

这些数据揭示了当前 AI 智能体架构中的一个关键假设问题:团队默认选择计算机视觉操控不是因为效率高,而是因为为每个内部工具编写 API 接口太昂贵。但这条”偷懒”的代价被转移到了 token 消耗和运行时间上。Reflex 还指出,14 步操作指引本身就是工程工作量——每个步骤都是编写人员投入的真实成本。

对于正在构建智能体工作流的团队而言,这篇报告提供了清晰的选择框架:在你为所有内部工具编写 MCP 或 REST 接口之前,先算一算计算机视觉方案的 token 账单。

阅读原文

← 全部文章