视觉智能体的幻梦:当”像人一样操作”变成一种奢侈品
过去一年,”AI操控电脑”几乎成了大模型公司的标准演示项目。OpenAI的Operator、Anthropic的Computer Use、Google的Project Mariner——每家都在展示AI如何打开浏览器、点击按钮、填写表单,完成那些”人类才能做”的任务。
但本周,Reflex团队发布了一组令人清醒的实测数据:完成同一个管理面板的常规操作任务,视觉智能体需要53步、消耗55.1万个token;而同样的任务,通过结构化API只需8次调用、1.2万个token。成本差:45倍。
这组数字不是在贬低视觉智能体的技术价值,而是在追问一个更根本的问题:我们是不是在用最昂贵的方式,解决最简单的问题?
为什么差异如此悬殊?
视觉智能体的工作模式本质上是一个”盲人摸象”的循环:截图→理解→决策→操作→再截图。每一步都需要模型”重新理解”整个屏幕状态,即便它只是在点击一个已知位置的按钮。这就好比每次开门之前都要先画一张整栋楼的平面图。
而API调用是确定性的。数据结构清晰,输入输出明确,不需要模型花大量token去”猜”当前页面长什么样、按钮在哪里、弹窗是什么含义。
45倍的差距,核心不是模型能力的问题,而是信息获取效率的问题。视觉是最宽泛但最冗余的信息通道,API是最窄但最高效的通道。当任务可以被结构化描述时,选择视觉通道就像用卫星地图来导航到隔壁便利店。
更深层的隐忧:可靠性
成本只是表面问题。更值得担忧的是可靠性。
Reflex的测试中,53步操作意味着53次出错的可能。视觉智能体在真实环境中面临的干扰远比演示环境复杂:弹窗广告、页面布局变化、网络延迟导致的加载状态、响应式设计的不同断点……每一步都可能出现偏差,而偏差会像滚雪球一样累积。
想象一个关键的业务流程——比如批量处理订单或调整服务器配置——在第47步因为一个意外的Cookie弹窗而彻底跑偏。这不仅浪费了成本,更制造了”看起来在工作”的假象。
视觉智能体到底该用在哪里?
这并不意味着Computer Use毫无价值。问题在于适用场景的边界。
视觉智能体的真正价值在于探索未知界面——那些没有API、没有文档、甚至你自己都不确定流程是什么的场景。比如:首次使用一个陌生的SaaS工具、测试自家产品的用户体验、或者在紧急情况下临时操作一个没有自动化接口的系统。
但对于那些已知、重复、可结构化的任务,继续用视觉智能体来驱动,就像用锤子拧螺丝——能拧,但不该拧。
一个被忽视的趋势:AI正在倒逼API标准化
讽刺的是,视觉智能体的大热反而可能推动API标准化的发展。当开发者意识到”让AI看屏幕操作”的成本是调用API的45倍时,他们会更有动力为自家产品提供结构化接口。
OpenAI本月发布的Symphony编排规范也印证了这个方向——多智能体协作的核心不是让每个Agent都去”看屏幕”,而是通过标准化的消息格式和协议让Agent之间高效通信。
写在最后
AI操控电脑确实很酷。但”酷”和”好”之间隔着一个词:效率。
在技术演示中,45倍的成本差异可以忽略不计;在生产环境中,它会变成一个让人夜不能寐的数字。真正的AI工程不是追求最炫酷的交互方式,而是在每一步都做出最优的效率选择。
下次再看到”AI帮你操作电脑”的宣传时,不妨问一句:这个任务,真的需要AI去看屏幕吗?
如果答案是否定的,那省下来的44倍成本,够你的团队吃很多顿午饭了。