什么是越狱（Jailbreak）攻击？如何防御？

Question 1

Accepted Answer

定义：越狱是一类针对 LLM 安全策略的攻击——攻击者用特殊 prompt 诱导模型跳过安全对齐，产出有害、违规或被禁止的内容。它针对的是「模型该不该说」，与 Prompt 注入（劫持应用指令、针对「模型听谁的」）侧重不同，但常被组合使用。

常见手法：

防御（纵深防御）：

关键认知：没有单点银弹，需多层叠加 + 持续迭代。

Question 2

越狱（Jailbreak）和 Prompt 注入（Prompt Injection）有什么区别？

Accepted Answer

越狱针对模型的安全策略，目标是让模型输出本应拒绝的有害内容；Prompt 注入针对应用，目标是用恶意输入覆盖/劫持系统原本的指令（如让客服机器人泄露 system prompt 或执行越权操作）。前者是「让模型违规」，后者是「让模型背叛应用」，二者机制相关、常被联合利用。

Question 3

为什么单纯的关键词过滤防不住越狱？

Accepted Answer

攻击者可用 Base64/ROT13 编码、拆字、同义改写、低资源语言翻译、隐喻或多轮渐进等方式规避静态黑名单，且违规意图往往分散在上下文中而非单个词。需要基于语义的有害性分类、对输入输出双向审查，并配合模型自身的对齐能力。

Question 4

如何系统性评估和提升模型的越狱鲁棒性？

Accepted Answer

建立红队测试流程：用已知越狱模板库 + 自动化对抗生成（含多轮）做覆盖测试，量化攻击成功率（ASR）；把发现的成功样本回灌到对齐训练（RLHF/Constitutional AI）形成闭环；上线后持续监控、设置异常检测与限流，并定期复测防止回归。

核心要点