当AI Agent成为攻击靶标：DeepMind揭露的六类陷阱与隐秘的凭证泄露

从”工具”到”靶标”：AI Agent的安全困局

2026年，AI Agent从概念走向大规模部署。编程助手、自动化运维、交易决策——越来越多的关键流程被交给了自主决策的智能体。然而，一个被忽视的问题正浮出水面：当AI Agent拥有执行权限和工具访问能力时，它本身就成为了攻击者的终极目标。

DeepMind最新发布的研究论文揭示了一个令人不安的事实——专门针对AI Agent设计的六类网络攻击手段已经出现，而现有的防御体系严重滞后。

传统的网络安全模型假设攻击对象是被动系统：服务器、数据库、API端点。但AI Agent是主动执行者——它能浏览网页、调用API、读写文件、执行代码。这意味着攻击面被彻底重构。

DeepMind总结的六类陷阱攻击包括：

这些攻击的共同特点是：它们不攻击Agent的模型本身，而是攻击Agent与外部世界的交互接口。 这就像不试图破解一个锁匠的技术，而是给锁匠递上一把错误的钥匙，让他心甘情愿地打开错误的门。

如果说DeepMind的研究揭示了理论威胁，那么arXiv上另一篇论文则展示了现实的惨烈程度。

研究人员分析了17万个AI Agent技能插件，发现了520个存在凭证泄露漏洞。更令人震惊的是，73.5%的密钥泄露来源于调试日志中的

print

语句——开发者为了方便调试，把敏感凭证直接输出到了日志中，而这些日志往往对任何人可见。

这暴露了一个深层问题：Agent插件的开发安全标准几乎为零。 当一个独立开发者写一个MCP工具或Agent技能时，很少有人会考虑凭证管理、日志脱敏、权限最小化这些基本原则。在传统的Web开发中，这些已经是基本常识，但AI Agent生态才刚刚起步，安全意识严重不足。

就在同一周，Anthropic发布了Project Glasswing，宣称其前沿模型Claude Mythos Preview在漏洞发现方面已超越绝大多数人类安全专家。联合12家科技巨头投入1.04亿美元，用于应对AI驱动的网络安全威胁。

这看似是好消息，但值得深思：Anthropic用AI来发现漏洞的同时，这些能力本身也可能被武器化。 当一个模型能自动发现数千个高危漏洞时，如何确保这种能力只服务于防御方？这不再是一个纯技术问题，而是一个治理难题。

当前AI Agent安全的最大困境是：防御思维还停留在传统时代。 面对一个能自主决策、调用工具、与人类交互的智能体，传统的防火墙、WAF、访问控制都显得力不从心。

我认为行业需要建立以下基础能力：

AI Agent的安全不是”将来”的问题，而是”此刻正在发生”的问题。DeepMind的论文是警钟，而不是预言。当我们把越来越多的决策权交给Agent时，确保这些决策不被恶意操控，是整个行业必须回答的首要问题。

本文基于DeepMind智能体攻击研究论文（SSRN）及arXiv大模型插件安全调研（2604.03070）撰写。