人工智能安全(AI Security) ├─ 核心目标(CIA + 合规 + 可信) │ ├─ 机密性(Confidentiality) │ ├─ 完整性(Integrity) │ ├─ 可用性(Availability) │ ├─ 合规性(Compliance) │ └─ 可信赖性(Trustworthy Behavior) │ ├─ 在恶意攻击下可控 │ ├─ 在意外失效时稳定 │ └─ 在环境变化下保持预期行为 │ ├─ 概念边界与相关概念 │ ├─ 与可靠性 / 鲁棒性(Reliability / Robustness) │ │ ├─ 可靠性/鲁棒性:关注非恶意、随机扰动 │ │ │ ├─ 传感器噪声 │ │ │ └─ 数据分布漂移 │ │ └─ AI 安全:关注蓄意、恶意、精心设计的攻击 │ │ └─ 对抗性扰动(Adversarial Perturbation,FGSM 等) │ ├─ 与传统网络安全 / 安全工程(Cybersecurity / Security Engineering) │ │ ├─ 传统安全:保护基础设施、网络和数据 │ │ │ ├─ 防火墙 │ │ │ ├─ 入侵检测 │ │ │ ├─ 访问控制 │ │ │ └─ 密码学应用 │ │ └─ AI 安全:深入到模型行为与数据依赖 │ │ └─ 例如:后门攻击无法通过传统漏洞扫描发现 │ └─ 在可信人工智能(Trustworthy AI)中的位置 │ ├─ 可信 AI 的其他支柱 │ │ ├─ 公平性(Fairness) │ │ ├─ 可解释性 / 可解释性(Explainability / Interpretability) │ │ ├─ 透明度(Transparency) │ │ └─ 隐私保护(Privacy) │ └─ 安全性(Security)是可信 AI 的基石但不是全部 │ ├─ 四个层次的攻防图景 │ ├─ 1. 数据层安全 │ │ ├─ 目标:数据的机密性、完整性、来源可靠性 │ │ ├─ 典型攻击 │ │ │ ├─ 数据投毒(Data Poisoning) │ │ │ │ ├─ 训练阶段注入恶意样本 │ │ │ │ └─ 破坏整体性能或植入后门 │ │ │ └─ 隐私泄露 │ │ │ ├─ 成员推理(Membership Inference) │ │ │ └─ 模型反演(Model Inversion) │ │ └─ 典型防御 │ │ ├─ 差分隐私(Differential Privacy,Dwork 等) │ │ │ └─ 在计算中加入统计噪声,提供可证明隐私 │ │ └─ 联邦学习(Federated Learning,McMahan 等) │ │ └─ 训练在边缘设备上,数据不集中上传 │ │ │ ├─ 2. 模型层安全(核心战场) │ │ ├─ 机密性 │ │ │ ├─ 模型窃取 / 非法复制 │ │ │ └─ 防御:查询速率限制、降低返回置信度、输出水印等 │ │ ├─ 完整性 │ │ │ ├─ 对抗性攻击 │ │ │ │ ├─ FGSM │ │ │ │ └─ PGD(Projected Gradient Descent,Madry 等) │ │ │ ├─ 后门攻击(Backdoor Attacks) │ │ │ │ └─ 训练数据中植入触发器(trigger) │ │ │ └─ 防御:对抗性训练(Adversarial Training) │ │ │ └─ 基于 PGD 的对抗训练是当前重要防御范式 │ │ └─ 可用性 │ │ └─ 防止拒绝服务(DoS) │ │ └─ 恶意构造
```python import os import re import numpy as np import pand...