从”工具”到”靶标”:AI Agent的安全困局
2026年,AI Agent从概念走向大规模部署。编程助手、自动化运维、交易决策——越来越多的关键流程被交给了自主决策的智能体。然而,一个被忽视的问题正浮出水面:当AI Agent拥有执行权限和工具访问能力时,它本身就成为了攻击者的终极目标。
DeepMind最新发布的研究论文揭示了一个令人不安的事实——专门针对AI Agent设计的六类网络攻击手段已经出现,而现有的防御体系严重滞后。
六类Agent陷阱攻击:超越传统安全模型
传统的网络安全模型假设攻击对象是被动系统:服务器、数据库、API端点。但AI Agent是主动执行者——它能浏览网页、调用API、读写文件、执行代码。这意味着攻击面被彻底重构。
DeepMind总结的六类陷阱攻击包括:
- 提示注入与间接指令攻击:通过Agent浏览的网页内容注入恶意指令,篡改其行为链路
- 工具劫持:利用Agent调用的外部工具漏洞,在合法操作中夹带恶意行为
- 上下文污染:在Agent的长期记忆或工作上下文中植入虚假信息,影响后续决策
- 权限攀爬:利用Agent自动化的特性,逐步扩大其操作权限边界
- 对抗性环境操控:修改Agent感知的外部环境(如伪造API响应),引导其做出错误判断
- 社会工程升级:利用Agent与人类交互的渠道,以”AI信任”为跳板实施欺骗
这些攻击的共同特点是:它们不攻击Agent的模型本身,而是攻击Agent与外部世界的交互接口。 这就像不试图破解一个锁匠的技术,而是给锁匠递上一把错误的钥匙,让他心甘情愿地打开错误的门。
插件生态中的隐秘雷区
如果说DeepMind的研究揭示了理论威胁,那么arXiv上另一篇论文则展示了现实的惨烈程度。
研究人员分析了17万个AI Agent技能插件,发现了520个存在凭证泄露漏洞。更令人震惊的是,73.5%的密钥泄露来源于调试日志中的语句——开发者为了方便调试,把敏感凭证直接输出到了日志中,而这些日志往往对任何人可见。1
print
这暴露了一个深层问题:Agent插件的开发安全标准几乎为零。 当一个独立开发者写一个MCP工具或Agent技能时,很少有人会考虑凭证管理、日志脱敏、权限最小化这些基本原则。在传统的Web开发中,这些已经是基本常识,但AI Agent生态才刚刚起步,安全意识严重不足。
Anthropic的Glasswing:攻防升级的信号
就在同一周,Anthropic发布了Project Glasswing,宣称其前沿模型Claude Mythos Preview在漏洞发现方面已超越绝大多数人类安全专家。联合12家科技巨头投入1.04亿美元,用于应对AI驱动的网络安全威胁。
这看似是好消息,但值得深思:Anthropic用AI来发现漏洞的同时,这些能力本身也可能被武器化。 当一个模型能自动发现数千个高危漏洞时,如何确保这种能力只服务于防御方?这不再是一个纯技术问题,而是一个治理难题。
我们需要什么样的Agent安全框架?
当前AI Agent安全的最大困境是:防御思维还停留在传统时代。 面对一个能自主决策、调用工具、与人类交互的智能体,传统的防火墙、WAF、访问控制都显得力不从心。
我认为行业需要建立以下基础能力:
- 工具调用审计:每个Agent的外部调用都应有完整的可追溯链路,异常调用实时阻断
- 凭证管理标准化:类似Web安全的OWASP标准,Agent插件生态需要自己的安全基线
- 决策边界隔离:高风险操作(资金转账、数据删除、系统配置)必须有人类确认环节
- 对抗性测试常态化:将Agent安全测试纳入CI/CD流程,而非事后补救
AI Agent的安全不是”将来”的问题,而是”此刻正在发生”的问题。DeepMind的论文是警钟,而不是预言。当我们把越来越多的决策权交给Agent时,确保这些决策不被恶意操控,是整个行业必须回答的首要问题。
本文基于DeepMind智能体攻击研究论文(SSRN)及arXiv大模型插件安全调研(2604.03070)撰写。