文章摘要
守护 AI 世界的安全底线。从算法偏见到差分隐私,从对抗攻击到模型可解释性,系统学习 AI 伦理与安全防护技术。
0为什么 AI 需要安全?
AI 正在做决定:谁能获得贷款、谁能被录取、谁该被逮捕。
如果 AI 有偏见呢?如果 AI 被攻击呢?如果 AI 泄露隐私呢?
AI 安全不是"有了再说"的事——它必须是设计时就考虑的。
3AI 供应链安全:从依赖到模型的完整防护
2026 年以来,AI 供应链安全事件频发。从 npm 314 包攻击到 Hugging Face 模型投毒,AI 供应链的威胁面正在以前所未有的速度扩张。了解供应链安全,是 AI 安全学习的必修课。
AI 供应链安全的核心关注点包括:代码依赖安全——你的项目依赖数十个甚至上百个开源包。每个包都可能被篡改、劫持或注入恶意代码。使用 lock 文件锁定版本、定期进行依赖审计是基本的防护手段。训练数据安全——训练数据是 AI 系统的根基。数据投毒攻击通过在训练集中注入精心构造的样本,使模型学习到隐藏的后门行为。即使被投毒的模型在标准测试中表现完全正常,在特定触发条件下也会展现出恶意行为。模型权重安全——预训练模型的不可读性使其成为独特的安全风险。即使下载了来自可信来源的模型,也需要对其进行行为审计——测试正常和异常情况下的输出是否符合预期。供应链安全不是单个工具的堆叠,而是一套完整的防御体系。 你需要建立 AI-SBOM(软件物料清单)、实施签名验证、运行对抗性测试、并将安全检查集成到 CI/CD 流程中。默认零信任是 AI 供应链安全的基本立场——不要假设上游提供的模型和数据是可信的,永远自行验证。
💡 一句话理解
从生成第一份 AI-SBOM 开始你的供应链安全之旅。记录所有外部依赖、模型和数据集的来源、版本和哈希值。
⚠️ 常见踩坑
2026 年 npm 314 包攻击事件证明,即使是使用最广泛的开源包,也可能成为攻击入口。永远不要假设依赖链是安全的。
4大语言模型特有的安全风险
大语言模型(LLM)带来了传统 AI 系统所不具备的全新安全风险类别。理解这些风险,是使用和部署 LLM 的前提条件。
提示注入(Prompt Injection) 是 LLM 最突出的安全问题之一。攻击者通过精心构造的输入提示,绕过系统的安全限制,让模型执行不应该执行的操作。例如,在客服场景中,攻击者可能通过特定的提示词让模型泄露内部信息或生成有害内容。越狱攻击(Jailbreaking) 是提示注入的升级形式。攻击者通过角色扮演、逻辑绕过、多轮对话等策略,使模型突破其安全对齐的限制,生成原本被禁止的内容。研究表明,即使是最先进的对齐模型,也存在一定概率被越狱成功。训练数据泄露是另一个重大风险。LLM 在训练过程中可能记忆并复现训练数据中的敏感信息。已有研究证明,通过特定的提示策略,可以从 GPT 系列模型中提取出训练数据中包含的个人身份信息(PII)、API 密钥等敏感内容。模型幻觉与事实捏造虽然不是传统意义上的「安全攻击」,但其危害同样严重。LLM 可能自信地生成完全错误的信息,这种「自信的谎言」在医疗、法律等高风险领域可能造成严重后果。防御策略包括:系统提示词加固、输出过滤、事实性验证层、输入长度限制、多模型交叉验证等。单一防御手段永远不够,需要多层防护叠加才能有效降低风险。
💡 一句话理解
部署 LLM 时,务必在模型输出后加一层事实性验证——可以用另一个小型模型或规则引擎来检查输出的合理性。
⚠️ 常见踩坑
不要只依赖模型自身的安全对齐来保护你的应用。系统提示词是最薄弱的防线,攻击者有无数种方法绕过它。你需要在应用层面构建额外的安全层。
架构图示 1
架构图示 2
🎯 相关面试题
巩固本篇知识点,备战 AI 岗位面试。
- 高级概念查看详解 →
差分隐私(Differential Privacy)如何保护训练数据?
通过加噪提供 (ε,δ) 保证,使任一单样本对模型影响有界;训练侧用 DP-SGD(梯度裁剪+加噪)实现。
- 初级开放查看详解 →
你怎么看「AI 会不会取代你的工作」?
平衡作答:AI 替代的是重复性任务而非整个角色,更可能「会用 AI 的人取代不会的」;讲自己如何用 AI 提效、转向更高价值工作。
- 中级开放查看详解 →
为什么有人担心 AGI / 超级智能的安全?
担忧来自能力快速提升、目标错配、不可控与权力集中,对应可扩展对齐、可解释、评测与治理。
- 中级开放查看详解 →
AI 治理与监管有哪些框架(如 EU AI Act)?
EU AI Act 按风险分级监管,NIST AI RMF 提供自愿性管理框架;治理落地靠问责、审计、红队与文档。
路线内导航