专利一种深度学习对抗样本安全性评价方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211012282.8 (22)申请日 2022.08.23 (71)申请人中国电子科技网络信息安全有限公司地址 610207 四川省成都市双流区西南航空港经济开发区工业集中区内 (72)发明人韩烨　孙治　毛得明　陈剑锋　王一凡　何秉钧　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 专利代理师管高峰 (51)Int.Cl. G06F 21/56(2013.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称一种深度学习对抗样本安全性评价方法 (57)摘要本发明公开了一种深度学习对抗样本安全性评价方法，包括以下步骤： S1.利用不同对抗样本生成策略生成不同的对抗样本集； S2.依次利用生成的各对抗样本集对待测深度学习模型进行攻击，分别计算攻击有效性评价指标； S3.为待测深度学习模型装备对抗样本防御方法，计算防御有效性评价指标，构建隶属度评价矩阵； S4.对隶属度评价矩阵中的元素进行标准化处理； S5. 计算第j个防御有效性评价指标下第i个对抗样本集的贡献度； S6.计算第j个防御有效性评价指标的信息熵和测试结果一致性程度； S7.计算第j 个防御有效性评价指标的权重： S8.计算对抗样本安全性综合评分。本发明能够对深处学习模型的对抗样本安全性进行全面客观的评价。权利要求书5页说明书12页附图3页 CN 115438337 A 2022.12.06 CN 115438337 A 1.一种深度学习对抗样本安全性评价方法，其特征在于，包括以下步骤： S1.利用不同对抗样本生成策略生成不同的对抗样本集； S2.依次利用生成的各对抗样本集对待测深度学习模型进行攻击，分别计算攻击有效性评价指标； S3.为待测深度学习模型装备对抗样本防御方法，计算防御有效性评价指标，生成n个对抗样本集对应于m个防御有效性评价指标的数值构成隶属度评价矩阵R＝(rij)n×m，其中 rij为第i个对抗样本集对应的第j个防御有效性评价指标的数值； S4.对隶属度评价矩阵R中的元素进行标准化处理，将矩阵中的每个元素除以其所在列的元素的最大值； S5.计算第j个防御有效性评价指标下第i个对抗样本集的贡献度Pij： S6.计算第j个防御有效性评价指标的信息熵Ej：并计算第j个防御有效性评价指标下各对抗样本集测试结果的一致性程度dj＝1‑Ej； S7.计算第j个防御有效性评价指标的权重wj： S8.根据步骤S7中计算得到的防御有效性评价指标权重以及步骤S3中计算得到的防御有效性评价指标数值，计算装备了防御方法的待测深度学习模型对抗样本安全性综合评分。 2.根据权利要求1所述的深度学习对抗样本安全性评价方法，其特征在于，所述攻击有效性评价指标包括模型性能下降程度指标与对抗样本自身易识别性指标，所述模型性能下降程度指标用于描述模型在对抗样本集上的性能指标较在原测试集上的下降程度，所述对抗样本自身易识别性指标用于描述对抗样本自身是否容易被识别。 3.根据权利要求2所述的深度学习对抗样本安全性评价方法，其特征在于，所述模型性能下降程度指标包括分类与回归两个子类别，分别针对分类与回归两类深度学习模型，针对分类模型的模型性能下降程度指标包括对抗类平均置信度、真实类平均置信度、错分率和平均对抗损失，针对回归模型的模型性能下降程度指标包括对抗预测平均绝对误差、对抗预测均方误差和平均对抗损失。 4.根据权利要求3所述的深度学习对抗样本安全性评价方法，其特征在于，对抗类平均置信度的计算式为：权　利　要　求　书 1/5 页 2 CN 115438337 A 2式中n表示成功欺骗深度学习模型的对抗样本数，表示对抗样本集中的第i个成功欺骗深度学习模型的对抗样本，表示模型对该样本类别的预测结果，表示模型对分类结果的置信度；真实类平均置信度的计算式为：式中n表示成功欺骗深度学习模型的对抗样本数，表示对抗样本集中的第i个成功欺骗深度学习模型的对抗样本， yi表示该样本的真实类别标签，表示模型对对抗样本类别标签为yi的置信度；错分率的计算式为：式中MRUA针对无目标对抗样本攻击，对抗样本只需使深度学习模型输出错误的预测结果， MRTA针对有目标对抗样本攻击，对抗样本使深度学习模型将其识别为特定类别； N表示对抗样本集中对抗样本的数量，表示对抗样本集中的第i个对抗样本， yi表示该样本的真实类别标签，表示有目标对抗样本攻击中对抗样本诱导深度学习模型输出的特定错误类别；对抗预测平均绝对误差的计算式为：式中N表示对抗样本集中对抗样本的数量，表示对抗样本集中的第i个对抗样本，表示模型对该样本输出的预测结果， yi表示该样本对应的真实输出；对抗预测均方误差的计算式为：式中N表示对抗样本集中对抗样本的数量，表示对抗样本集中的第i个对抗样本，表示模型对该样本输出的预测结果， yi表示该样本对应的真实输出；平均对抗损失的计算式为：权　利　要　求　书 2/5 页 3 CN 115438337 A 3

专利 一种深度学习对抗样本安全性评价方法

专利一种深度学习对抗样本安全性评价方法