2026年5月27日 15 个节点 #tech#ai#research

智能体的信任边界

一张概念图,剖析 MCP 驱动的 AI 智能体如何从供应链、协议与工具继承信任——以及哪些遏制原语才能真正把爆炸半径(blast radius)压回去。

完整简报

AI 智能体同时从许多地方继承信任——模型厂商、框架、MCP 服务器、每一个 npm/pypi 依赖、每一份工具清单。只要任一层失守,智能体就会按攻击者的意图行事。信任边界不再是一堵墙,而变成了一张图。

作为攻击面的供应链

开源软件包如今几乎嵌入每一条智能体路径。单个被污染的依赖,会在 LLM 驱动的工作流中摇身变为一次「已授权」的操作——因为智能体把这个包当作自己的运行时一样,完全信任。

Mini Shai-Hulud

2026 年 4 月 29 日从 4 个 SAP CAP 包起步,数周内扩散到 160 多个 npm 包。它读取 AWS、Azure、GCP、Kubernetes 的令牌——尤为值得注意的是 MCP 与 Claude 的配置文件,直接从安装机器的 /proc/{pid}/mem 中读取。

Starlette CVE-2026-48710

BadHost 披露的 Starlette ≤1.0.0 漏洞——每周 3.25 亿次下载。波及 FastAPI、vLLM、LiteLLM 以及大多数 Python MCP 服务器。热门智能体栈中的单个传递依赖,就意味着同一个漏洞同时无处不在。

恶意软件包的规模

Sonatype 2026 年报告:2025 年共编目 454,600 个新增恶意软件包,99% 在 npm,同比 +75%。被投毒依赖的基础发生率已不再是尾部风险——它就是使用开放生态的成本之一。

协议层的暴露

MCP 改变了工具抵达模型的方式:智能体不再调用静态、经过审定的 API,而是拨号连向任意服务器。协议本身成为新的暴露面——简陋的传输、薄弱的认证默认值、含糊的服务器身份。

Anthropic SDK 的 STDIO 缺陷

OX Security 披露(2026 年 4 月 15 日):约 200,000 个 MCP 服务器以默认信任假设通过 STDIO 传输暴露在外。Anthropic 将该行为归类为设计意图——把安全边界推给了部署方。

注入增幅

arxiv:2601.17549 发现,相比未集成 MCP 的方案,加入 MCP 工具会让对抗性提示的成功率提升 23–41%。智能体的行动空间越丰富,攻击者就能在单条注入指令里表达越多。

真正遏制爆炸的是什么

防御从「零信任」口号转向具体的原语:能力隔离、作用域化的密钥、签名的工具清单、模型输出与工具执行之间的内容防火墙。目标是让一次入侵停留在局部,而不是横向蔓延。

能力隔离

每个 MCP 服务器只获得尽可能窄的能力——默认只读、无 shell、未声明则不许网络出站。模型从不持有主凭证;它持有的,是绑定到单个任务的、由代理颁发的令牌。

密钥作用域化

云、Kubernetes 与源代码管理的令牌,绝不放进 MCP 配置文件或与模型共享的环境变量里。短时效的 OIDC 交换与按工具签发的令牌,让被盗凭证更难派上用场、也更易吊销。

签名的工具清单

工具清单、MCP 服务器与提示词模板都经过签名并固定版本(pin)。引入一台新的 MCP 服务器,需要与采纳一个新代码依赖同样的信任仪式——而不是一句「装上就跑」。

OWASP Agentic Top 10

OWASP 的智能体 Top 10 把反复出现的失效模式——工具投毒、身份伪冒、记忆投毒、过度自治——加以编目。它的价值不在于充当检查清单,而在于成为跨团队谈论智能体威胁的共同词汇。

共担责任,主体在部署方

Backslash 对 Anthropic 立场的解读:四层中有三层——主机、部署、工具生态——落在部署方而非模型厂商身上。把 MCP 安全当成厂商的问题,在结构上就是错的。

作为旁证信号的 UX 反弹

2026 年 5 月,DuckDuckGo 安装量激增 30%,Brave 每日处理 5000 万次查询——这表明用户也在拒绝无边界的 AI 界面,是工程侧围绕失控智能体行为的信任危机在市场侧的回响。

open_in_new startupxo.com/ko/news/2026/05/ai-search-rejection-duckduckgo-momentum

来源与相关