💡

文章摘要

守护 AI 世界的安全底线。从算法偏见到差分隐私,从对抗攻击到模型可解释性,系统学习 AI 伦理与安全防护技术。

0为什么 AI 需要安全?

AI 正在做决定:谁能获得贷款、谁能被录取、谁该被逮捕。

如果 AI 有偏见呢?如果 AI 被攻击呢?如果 AI 泄露隐私呢?

AI 安全不是"有了再说"的事——它必须是设计时就考虑的

1三大安全维度

AI 安全分为三大维度:

公平性与伦理— 偏见检测、公平性度量、SHAP/LIME 可解释性

隐私保护— 差分隐私、联邦学习、安全多方计算

对抗安全— 对抗样本、模型逆向、对抗训练、输入消毒

这三个维度互相独立又互相牵制——一个偏向公平的模型未必隐私安全,一个隐私安全的模型也未必抗对抗攻击

2学习建议

所有开发者都应该学的:

安全专业方向:

最低底线:任何上线的 AI 系统都必须先过偏见检测与可解释性这两关

💡 一句话理解

💡 用 SHAP 分析一个贷款审批模型,看看 AI 到底在依据什么做决定——结果可能让你大吃一惊。

3AI 供应链安全:从依赖到模型的完整防护

2026 年以来,AI 供应链安全事件频发。从 npm 314 包攻击到 Hugging Face 模型投毒,AI 供应链的威胁面正在以前所未有的速度扩张。了解供应链安全,是 AI 安全学习的必修课。

AI 供应链安全的核心关注点包括:代码依赖安全——你的项目依赖数十个甚至上百个开源包。每个包都可能被篡改、劫持或注入恶意代码。使用 lock 文件锁定版本、定期进行依赖审计是基本的防护手段。训练数据安全——训练数据是 AI 系统的根基。数据投毒攻击通过在训练集中注入精心构造的样本,使模型学习到隐藏的后门行为。即使被投毒的模型在标准测试中表现完全正常,在特定触发条件下也会展现出恶意行为。模型权重安全——预训练模型的不可读性使其成为独特的安全风险。即使下载了来自可信来源的模型,也需要对其进行行为审计——测试正常和异常情况下的输出是否符合预期。供应链安全不是单个工具的堆叠,而是一套完整的防御体系。 你需要建立 AI-SBOM(软件物料清单)、实施签名验证、运行对抗性测试、并将安全检查集成到 CI/CD 流程中。默认零信任是 AI 供应链安全的基本立场——不要假设上游提供的模型和数据是可信的,永远自行验证。

图表加载中…

💡 一句话理解

从生成第一份 AI-SBOM 开始你的供应链安全之旅。记录所有外部依赖、模型和数据集的来源、版本和哈希值。

⚠️ 常见踩坑

2026 年 npm 314 包攻击事件证明,即使是使用最广泛的开源包,也可能成为攻击入口。永远不要假设依赖链是安全的

4大语言模型特有的安全风险

大语言模型LLM)带来了传统 AI 系统所不具备的全新安全风险类别。理解这些风险,是使用和部署 LLM 的前提条件。

提示注入(Prompt Injection)LLM 最突出的安全问题之一。攻击者通过精心构造的输入提示,绕过系统的安全限制,让模型执行不应该执行的操作。例如,在客服场景中,攻击者可能通过特定的提示词让模型泄露内部信息或生成有害内容。越狱攻击(Jailbreaking) 是提示注入的升级形式。攻击者通过角色扮演、逻辑绕过、多轮对话等策略,使模型突破其安全对齐的限制,生成原本被禁止的内容。研究表明,即使是最先进的对齐模型,也存在一定概率被越狱成功。训练数据泄露是另一个重大风险。LLM 在训练过程中可能记忆并复现训练数据中的敏感信息。已有研究证明,通过特定的提示策略,可以从 GPT 系列模型中提取出训练数据中包含的个人身份信息PII)、API 密钥等敏感内容。模型幻觉与事实捏造虽然不是传统意义上的「安全攻击」,但其危害同样严重。LLM 可能自信地生成完全错误的信息,这种「自信的谎言」在医疗、法律等高风险领域可能造成严重后果。防御策略包括:系统提示词加固、输出过滤、事实性验证层、输入长度限制、多模型交叉验证等。单一防御手段永远不够,需要多层防护叠加才能有效降低风险。

图表加载中…

💡 一句话理解

部署 LLM 时,务必在模型输出后加一层事实性验证——可以用另一个小型模型或规则引擎来检查输出的合理性。

⚠️ 常见踩坑

不要只依赖模型自身的安全对齐来保护你的应用。系统提示词是最薄弱的防线,攻击者有无数种方法绕过它。你需要在应用层面构建额外的安全层。

架构图示 1

图表加载中…

架构图示 2

图表加载中…

🎯 相关面试题

巩固本篇知识点,备战 AI 岗位面试。