Guardrails（护栏）

输出前的安全检查

亦作、亦称：护栏

Guardrails（护栏）是部署在 AI 系统输入与输出环节的多层安全机制，通过规则、分类器或辅助语言模型拦截有害、违规或偏离业务意图的内容。它不修改模型权重，而是在推理链路外侧构建独立的运行时防线，是大语言模型从原型走向生产落地的关键工程保障。

概述

护栏借用公路防护栏的比喻：模型高速行驶，护栏不减速，但防止它冲出车道。

典型护栏管道由三个阶段顺序执行，形成纵深防御。

按技术机制可分为四类，延迟与精度各有取舍。

基于规则（Rule-based）：正则表达式或关键词列表；延迟极低，但召回率有限，易被改写绕过。
基于分类器（Classifier-based）：轻量文本分类模型（BERT 量级）对输入/输出打安全评分；OpenAI Moderation API、Google Perspective API 属于此类。
LLM 裁判（LLM-as-judge）：以第二个语言模型对主模型输出做语义级批判式审阅，能捕获隐式违规，代表产品为 Meta 的 Llama Guard（2023）；精度最高，但增加延迟和成本。
结构化约束（Structural Guard）：强制输出符合 JSON Schema 或特定语法，防止格式损坏；Guardrails AI 框架的核心能力在于此类。

业界已形成较成熟的开源与商业生态。

Llama Guard（Meta AI，2023）：基于 Llama-2-7B 微调的安全分类模型，支持自定义风险分类体系，无需完整重训练即可适配新策略；论文为 arXiv:2312.06674。
NeMo Guardrails（NVIDIA，2023）：开源工具包，使用 Colang 领域特定语言定义对话状态机，管控话题偏移与越界行为。
Guardrails AI：Python 库，通过声明式 validator 对模型输出做结构化校验与自动修复。
AWS Bedrock Guardrails / Azure Content Safety：云端托管服务，可集成到任意 LLM 调用链，降低自建运维成本。

护栏需覆盖来自用户侧和模型侧的多类风险。

内容安全过滤的概念早于 LLM，LLM 时代的护栏随越狱攻击的爆发而系统化。

2022 年前：搜索引擎与社交平台长期使用基于规则和分类器的方法过滤违规内容，是护栏的技术前身。
2022 年底：ChatGPT 大规模部署后，越狱案例爆发，业界认识到仅靠对齐训练不足，需运行时防线。
2023 年：NVIDIA NeMo Guardrails、Guardrails AI 开源发布；Meta 发表 Llama Guard 论文；各大云厂商推出内置内容安全 API。
2024 年至今：随 AI Agent 兴起，护栏从单次问答扩展到多轮工具调用链路，如何在 Agent 每步动作上施加有效约束成为活跃课题。

护栏并非银弹，存在若干已知工程挑战。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。