专利安全事件分类的方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210812957.0 (22)申请日 2022.07.11 (71)申请人北京天融信网络安全技术有限公司地址 100085 北京市海淀区上地东路1号院 3号楼四层申请人北京天融信科技有限公司　北京天融信软件有限公司 (72)发明人张传粟　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师钟扬飞 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/279(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称安全事件分类的方法、装置、电子设备及存储介质 (57)摘要本申请属于数据处理技术领域，公开了安全事件分类的方法、装置、电子设备及存储介质，该方法包括，获取待分类的安全事件；基于安全事件以及预先训练好的安全事件分类模型，获得安全事件的分类结果；安全事件分类模型是基于 BERT构建的，安全事件分类模型是基于安全领域样本数据进行预训练以及基于安全事件样本数据进行模型训练后获得的，安全领域样本数据是采集的安全领域的数据，安全事件样本数据是采集的安全领域中的子领域的数据。这样，提高了训练好的安全事件分类模型的分类准确度，降低了耗费的成本。权利要求书3页说明书11页附图2页 CN 115374243 A 2022.11.22 CN 115374243 A 1.一种安全事件分类的方法，其特征在于，包括：获取待分类的安全事件；基于所述安全事件以及预先训练好的安全事件分类模型，获得所述安全事件的分类结果；其中，所述安全事件分类模型是基于语言表征模型BERT构建的，所述安全事件分类模型是基于安全领域样本数据进行预训练以及基于安全事件样本数据进行模型训练后获得的，所述安全领域样本数据是采集的安全领域的数据，所述安全事件样本数据是采集的所述安全领域中的子领域的数据。 2.如权利要求1所述的方法，其特征在于，所述安全事件分类模型是采用以下步骤训练获得的：对所述安全领域样本数据进行预处理，获得预处理数据；基于所述预处理数据，对初始的安全事件分类模型进行预训练，获得预训练后的安全事件分类模型；基于所述安全事件样本数据，对所述预训练后的安全事件分类模型进行模型训练，获得训练好的所述安全事件分类模型。 3.如权利要求2所述的方法，其特征在于，所述对所述安全领域样本数据进行预处理，获得预处理数据，包括：分别对所述安全领域样本数据中的每一安全领域样本文本进行随机遮罩处理和/或随机替换处理，获得处理后的各安全领域样本文本；将各安全领域样本文本进行分词，获得各安全领域样本文本的分词文本；将各安全领域样本文本的分词文本进行向量转换，获得各安全领域样本文本的文本向量；基于各安全领域样本文本的文本向量，获得所述预处理数据。 4.如权利要求2所述的方法，其特征在于，所述基于所述预处理数据，对初始的安全事件分类模型进行预训练，获得预训练后的安全事件分类模型，包括：将所述预处理数据输入所述初始的安全事件分类模型中的预训练模型，获得所述预训练模型的语义向量；所述预训练模型是基于所述BERT模型构建的；基于所述安全领域样本数据中的各安全领域样本文本，以及各语义向量，确定所述预训练模型的语义损失；根据所述语义损失，调整所述预训练模型的训练参数，直至获得符合预训练条件的预训练模型；基于所述符合预训练条件的预训练模型，获得所述预训练后的安全事件分类模型。 5.如权利要求2 ‑4任一项所述的方法，其特征在于，所述基于所述安全事件样本数据，对所述预训练后的安全事件分类模型进行模型训练，获得训练好的所述安全事件分类模型，包括：将所述安全事件样本数据中的安全事件样本输入所述预训练后的安全事件分类模型，获得各安全事件样本各自的分类结果；所述安全事件样本数据中还包含各安全事件样本对应的分类标签；基于各安全事件样本的分类标签以及分类结果，确定分类损失；权　利　要　求　书 1/3 页 2 CN 115374243 A 2根据所述分类损失，调整所述安全事件分类模型的模型参数，直至获得符合分类条件的安全事件分类模型。 6.一种安全事件分类的装置，其特征在于，包括：获取单元，用于获取待分类的安全事件；分类单元，用于基于所述安全事件以及预先训练好的安全事件分类模型，获得所述安全事件的分类结果；其中，所述安全事件分类模型是基于语言表征模型BERT构建的，所述安全事件分类模型是基于安全领域样本数据进行预训练以及基于安全事件样本数据进行模型训练后获得的，所述安全领域样本数据是采集的安全领域的数据，所述安全事件样本数据是采集的所述安全领域中的子领域的数据。 7.如权利要求6所述的装置，其特征在于，所述安全事件分类模型是采用以下步骤训练获得的：对所述安全领域样本数据进行预处理，获得预处理数据；基于所述预处理数据，对初始的安全事件分类模型进行预训练，获得预训练后的安全事件分类模型；基于所述安全事件样本数据，对所述预训练后的安全事件分类模型进行模型训练，获得训练好的所述安全事件分类模型。 8.如权利要求7 所述的装置，其特征在于，所述分类单元还用于：分别对所述安全领域样本数据中的每一安全领域样本文本进行随机遮罩处理和/或随机替换处理，获得处理后的各安全领域样本文本；将各安全领域样本文本进行分词，获得各安全领域样本文本的分词文本；将各安全领域样本文本的分词文本进行向量转换，获得各安全领域样本文本的文本向量；基于各安全领域样本文本的文本向量，获得所述预处理数据。 9.如权利要求7 所述的装置，其特征在于，所述分类单元还用于：将所述预处理数据输入所述初始的安全事件分类模型中的预训练模型，获得所述预训练模型的语义向量；所述预训练模型是基于所述BERT模型构建的；基于所述安全领域样本数据中的各安全领域样本文本，以及各语义向量，确定所述预训练模型的语义损失；根据所述语义损失，调整所述预训练模型的训练参数，直至获得符合预训练条件的预训练模型；基于所述符合预训练条件的预训练模型，获得所述预训练后的安全事件分类模型。 10.如权利要求7 ‑9任一项所述的装置，其特征在于，所述分类单元还用于：将所述安全事件样本数据中的安全事件样本输入所述预训练后的安全事件分类模型，获得各安全事件样本各自的分类结果；所述安全事件样本数据中还包含各安全事件样本对应的分类标签；基于各安全事件样本的分类标签以及分类结果，确定分类损失；根据所述分类损失，调整所述安全事件分类模型的模型参数，直至获得符合分类条件的安全事件分类模型。权　利　要　求　书 2/3 页 3 CN 115374243 A 3

专利 安全事件分类的方法、装置、电子设备及存储介质

专利安全事件分类的方法、装置、电子设备及存储介质