计算机视觉操控比结构化 API 贵 45 倍

2026-05-06

Reflex 团队发布了一项引人注目的基准测试，直接比较了两种让 AI 智能体操作同一管理后台的方式：基于屏幕截图的“计算机视觉操控”（vision agent/browser-use）与直接调用结构化 API。

基准任务是在一个客户管理后台中找到姓“Smith”且订单最多的客户，定位其最近的待处理订单，审核该订单的所有待处理评价，并将订单标记为已发货——涉及三种数据资源、跨实体查询和读写操作，是内部工具最常见的任务类型。

采用 Claude Sonnet、相同数据集、相同应用逻辑，唯一的变量是接口方式。

结果差异悬殊。API 智能体在 8 次调用、约 20 秒内完成任务，每次运行一致。而计算机视觉智能体在最简单的提示下甚至无法完成——它找到了一个待处理评价，但没有发现页面上还有三个在可视区域之外。即使为视觉智能体编写了 14 步的详细操作指引，它也需要 14-22 分钟，消耗 40-75 万输入 token，成本是 API 路径的 45 倍。

关键数据：API 智能体（Sonnet）每次运行严格 8 步、20 秒、约 1.2 万输入 token；视觉智能体平均 53 步、1003 秒（约 17 分钟）、55 万输入 token，且三次运行间的 token 消耗从 40 万到 75 万不等。如果使用更便宜的 Haiku 模型走 API 路径，成本差距进一步拉大。

这些数据揭示了当前 AI 智能体架构中的一个关键假设问题：团队默认选择计算机视觉操控不是因为效率高，而是因为为每个内部工具编写 API 接口太昂贵。但这条“偷懒”的代价被转移到了 token 消耗和运行时间上。Reflex 还指出，14 步操作指引本身就是工程工作量——每个步骤都是编写人员投入的真实成本。

对于正在构建智能体工作流的团队而言，这篇报告提供了清晰的选择框架：在你为所有内部工具编写 MCP 或 REST 接口之前，先算一算计算机视觉方案的 token 账单。

阅读原文