AI操控电脑？先看看这45倍的账单

视觉智能体的幻梦：当”像人一样操作”变成一种奢侈品

过去一年，”AI操控电脑”几乎成了大模型公司的标准演示项目。OpenAI的Operator、Anthropic的Computer Use、Google的Project Mariner——每家都在展示AI如何打开浏览器、点击按钮、填写表单，完成那些”人类才能做”的任务。

但本周，Reflex团队发布了一组令人清醒的实测数据：完成同一个管理面板的常规操作任务，视觉智能体需要53步、消耗55.1万个token；而同样的任务，通过结构化API只需8次调用、1.2万个token。成本差：45倍。

这组数字不是在贬低视觉智能体的技术价值，而是在追问一个更根本的问题：我们是不是在用最昂贵的方式，解决最简单的问题？

视觉智能体的工作模式本质上是一个”盲人摸象”的循环：截图→理解→决策→操作→再截图。每一步都需要模型”重新理解”整个屏幕状态，即便它只是在点击一个已知位置的按钮。这就好比每次开门之前都要先画一张整栋楼的平面图。

而API调用是确定性的。数据结构清晰，输入输出明确，不需要模型花大量token去”猜”当前页面长什么样、按钮在哪里、弹窗是什么含义。

45倍的差距，核心不是模型能力的问题，而是信息获取效率的问题。视觉是最宽泛但最冗余的信息通道，API是最窄但最高效的通道。当任务可以被结构化描述时，选择视觉通道就像用卫星地图来导航到隔壁便利店。

成本只是表面问题。更值得担忧的是可靠性。

Reflex的测试中，53步操作意味着53次出错的可能。视觉智能体在真实环境中面临的干扰远比演示环境复杂：弹窗广告、页面布局变化、网络延迟导致的加载状态、响应式设计的不同断点……每一步都可能出现偏差，而偏差会像滚雪球一样累积。

想象一个关键的业务流程——比如批量处理订单或调整服务器配置——在第47步因为一个意外的Cookie弹窗而彻底跑偏。这不仅浪费了成本，更制造了”看起来在工作”的假象。

这并不意味着Computer Use毫无价值。问题在于适用场景的边界。

视觉智能体的真正价值在于探索未知界面——那些没有API、没有文档、甚至你自己都不确定流程是什么的场景。比如：首次使用一个陌生的SaaS工具、测试自家产品的用户体验、或者在紧急情况下临时操作一个没有自动化接口的系统。

但对于那些已知、重复、可结构化的任务，继续用视觉智能体来驱动，就像用锤子拧螺丝——能拧，但不该拧。

讽刺的是，视觉智能体的大热反而可能推动API标准化的发展。当开发者意识到”让AI看屏幕操作”的成本是调用API的45倍时，他们会更有动力为自家产品提供结构化接口。

OpenAI本月发布的Symphony编排规范也印证了这个方向——多智能体协作的核心不是让每个Agent都去”看屏幕”，而是通过标准化的消息格式和协议让Agent之间高效通信。

AI操控电脑确实很酷。但”酷”和”好”之间隔着一个词：效率。

在技术演示中，45倍的成本差异可以忽略不计；在生产环境中，它会变成一个让人夜不能寐的数字。真正的AI工程不是追求最炫酷的交互方式，而是在每一步都做出最优的效率选择。

下次再看到”AI帮你操作电脑”的宣传时，不妨问一句：这个任务，真的需要AI去看屏幕吗？

如果答案是否定的，那省下来的44倍成本，够你的团队吃很多顿午饭了。