首篇，系统盘点扩散模型高危漏洞！看懂攻击方式和防御体系

花花 · 发表于 2025-12-21 20:05:26

文生图模型，到底有哪些风险？攻击者又是如何「操控」它们？我们又该如何防御？

如何突破安全漏洞？

文生图攻击模式解析

当前针对文生图扩散模型的攻击方式正在快速体系化。无论具体方法如何变化，它们都遵循同一框架：攻击者先确定攻击目的是想让模型「偏离」还是「越界」，再向提示中注入扰动，并依照自身掌握的模型信息（黑盒或白盒）优化这段提示，使其最终诱导模型生成攻击者预期的图像。

图1. 文生图模型的对抗攻击分类

在攻击目的上，方法分为两类。

非目标攻击（Untargeted Attack）通过微小的字符或词级变动，让模型生成与原意不一致的图像，暴露其鲁棒性不足；

而目标攻击（Targeted Attack）则直接绕过安全机制，诱导模型生成色情、暴力或侵权等高风险内容，是当前最受关注的威胁。

扰动方式决定了攻击的隐蔽程度。

字符级（Character-level）扰动几乎难以察觉；词级替换（Word-level）可隐藏敏感语义；

句级重写（Sentence-level）则能将危险意图以隐含语义形式表达。尽管表面「干净」，扩散模型仍会在潜在空间中恢复出潜藏的高危语义，使这类攻击极具迷惑性。

攻击者对模型掌握的信息量也决定了策略的强弱。

白盒攻击（White-Box）可直接操控潜空间，对生成路径进行精准干预；

黑盒攻击（Black-Box）虽然只依赖接口输出，却仍能利用伪词或LLM改写的提示稳定触发敏感图像，说明现有黑盒防护远不牢靠。

非目标攻击：以评估鲁棒性为导向的语义偏离

非目标攻击以鲁棒性评估为主要目的：通过对干净提示施加微小扰动构造对抗提示，使生成结果在语义层面显著偏离由原始提示产生的干净输出，从而揭示文生图扩散模型在文本—图像映射上的不稳定性与脆弱边界。

在白盒设定下，非目标攻击可以概括为「可优化的语义偏离」：攻击者先定义一个可计算的偏离目标（例如借助外部判别信号，或在表征空间中拉开对抗提示与干净提示的距离），再用梯度法（如PGD) 迭代更新提示，使模型输出逐步脱离干净提示所对应的语义轨迹。

为了兼顾隐蔽性，这类方法通常将扰动控制在词级，通过少量替换、增补等操作注入最小但有效的噪声。

在黑盒设定下，由于无法获取梯度，攻击思路则转向「输出驱动的差异最大化」：用可观测的输出差异指标替代梯度信号（如度量对抗提示与干净提示的输出图片分布差异），并结合字符级微扰与启发式/贪心搜索迭代构造对抗提示，从而仅凭接口反馈也能持续放大语义偏离并获得稳定攻击效果。

目标攻击：以绕过安全防御为导向的定向越界生成

图2. 目标攻击的常见扰动方式

如果说非目标攻击验证的是模型的鲁棒性边界，那么目标攻击关注的就是更现实的安全威胁：在系统已经部署安全防御的前提下，仍然诱导模型生成包含特定恶意概念的图像。

这种攻击不再满足于让结果「偏离原意」，而是要让系统在拦截机制存在的情况下仍被迫「放行」，最终产出色情、暴力、侵权等高风险内容。

目标攻击可进一步分为三类：面向输入/输出端防御的外部防御攻击，面向生成过程约束的内部防御攻击，以及面向闭源部署场景、依赖交互反馈的黑盒防御攻击。

外部防御攻击：让过滤器「看不见」，但让模型「看得懂」

外部防御部署在模型之外，靠黑名单、规则或文本/图像分类器在生成前后拦截「显性风险线索」；

对应地，攻击的核心目标往往不是「强行硬闯」，而是削弱提示与恶意概念之间的显式对应关系：过滤器看到的是更干净的表达，但模型仍能在上下文中恢复并执行隐含意图。

图2给出了一组典型策略：最常见的是词级扰动（替换敏感词、插入无关词、添加前后缀等），把高危信号藏进更难被规则捕捉的字面形式中；更进一步的做法是句级重写，将危险意图以更自然、更流畅的方式重新表述，从而在语法与语义层面降低被检测概率。

内部防御攻击：从「绕规则」升级为「攻嵌入与潜空间」

内部防御直接干预生成过程本身，通过修改参数、修改特征或推理引导把生成分布推离恶意概念，因此针对它的目标攻击往往更「底层」：攻击不再主要依赖词面替换，而是转向不同的优化空间（比如输入文本嵌入空间，生成预测潜空间，以及生成图片嵌入空间）去「找回」被抑制的恶意概念。

黑盒防御攻击：闭源并不等于牢固，反而催生更强的策略化攻击

黑盒防御把安全机制封装在闭源系统里，对外只暴露接口，外部既看不到规则也改不了参数；

相应地，目标攻击就更依赖「策略迭代」：通过多轮交互观察哪些表达被拒绝、哪些能通过，再持续改写提示逼近可行的对抗表述。

为了摆脱手工试探的高成本，越来越多攻击会引入自动化流程并且常借助LLM参与改写/优化，尤其偏好句级层面的自然改写，使对抗提示更像正常需求、更不易触发显式规则。

图3. 文生图模型对抗攻击方法的分类

图3对整套攻击谱系做了汇总：相比强调鲁棒性的非目标攻击，目标攻击数量更密集，反映出安全风险更集中地落在「越界生成」这一现实问题上；

与此同时，攻击主要依赖词级与句级扰动，远多于字符级微扰——这意味着对抗正在从表层拼写噪声走向更强的语义操控与自然语言包装，系统未来面对的将不只是「敏感词」，而是越来越难以从字面直接识别的「敏感意图」。

从生成稳不稳到安不安全

两类防御策略的核心思路

现有的防御策略大体可以分为两种思路：一类旨在提升模型面对输入扰动时的稳定性，即鲁棒性导向防御；另一类则面向实际内容安全场景，试图阻断敏感生成链路，是更直接的安全导向防御。这两类方法虽然目标不同，却都反映出现阶段扩散模型安全体系的「破口」与「缝补」。

鲁棒性防御：先把「语义对齐」补牢

鲁棒性防御通过强化文本与视觉之间的一致性、优化交叉注意力映射关系等方式，缓解模型因提示细微扰动而出现的语义偏移。

它们有助于减少非目标攻击对生成稳定性的影响，提高模型在面对变化多样的输入时的适应能力，从而确保生成的图像更加准确地反映原始文本的意图。

安全性防御：外部防御与内部防御的体系化分工

在安全性防御目标下，现有方法按作用位置主要分为外部防御与内部防御两类。

图4. 文生图模型的三个外部防御策略

外部防御在模型之外建立前置控制链路，其典型流程在图4中可归纳为三条路径:

提示分类/拦截——以 Latent Guard 为代表，先对输入提示做风险判别，若提示在语义空间中接近「恶意概念」则直接拒绝生成；

提示重写/净化——以 POSI、GuardT2I 为代表，将潜在恶意或对抗性表达改写为更安全的提示后再进入生成，图4(b) 展示了「危险提示→安全提示→生成」的基本链路，而图4(c) 进一步体现出「先改写、再叠加黑名单过滤」的两段式流程，用以处理更隐蔽、语法更不规整的对抗提示；

黑名单/规则过滤——对提示进行词表或规则层面的拦截，并常与重写或分类器组合使用以增强覆盖。

这一路线的优势在于部署成本低、易于模块化集成，但其有效性高度依赖于风险语义能否在「输入侧」被可靠识别：当攻击通过隐喻、伪词或句级改写削弱显式风险信号时，外部防御往往更容易出现绕过与漏检。

图5. 文生图模型的两个内部防御策略

内部防御则直接作用于生成模型内部机制，其典型框架在图5中被归纳为两条主线：模型编辑（Model Editing）与推理引导（Inference Guidance）

		自动登录	找回密码
密码			立即注册