说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210812957.0 (22)申请日 2022.07.11 (71)申请人 北京天融信网络安全技 术有限公司 地址 100085 北京市海淀区上地 东路1号院 3号楼四层 申请人 北京天融信科技有限公司   北京天融信软件 有限公司 (72)发明人 张传粟  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 钟扬飞 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/279(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 安全事件分类的方法、 装置、 电子设备及存 储介质 (57)摘要 本申请属于数据处理技术领域, 公开了安全 事件分类的方法、 装置、 电子设备及存储介质, 该 方法包括, 获取待分类的安全事件; 基于安全事 件以及预先训练好的安全事件分类模 型, 获得安 全事件的分类结果; 安全事件分类模型是基于 BERT构建的, 安全事件分类模型是基于安全领域 样本数据进行预训练以及基于安全事件样本数 据进行模型训练后获得的, 安全 领域样本数据是 采集的安全 领域的数据, 安全事件样本数据是采 集的安全领域中的子领域的数据。 这样, 提高了 训练好的安全事件分类模型的分类准确度, 降低 了耗费的成本 。 权利要求书3页 说明书11页 附图2页 CN 115374243 A 2022.11.22 CN 115374243 A 1.一种安全 事件分类的方法, 其特 征在于, 包括: 获取待分类的安全 事件; 基于所述安全事件以及预先训练好的安全事件分类模型, 获得所述安全事件的分类结 果; 其中, 所述安全事件分类模型是基于语言表征模型BERT构建的, 所述安全事件分类模 型是基于安全领域样本数据进行预训练以及基于安全事件样本数据进行模型训练后 获得 的, 所述安全领域样本数据是采集的安全领域的数据, 所述安全事件样本数据是采集的所 述安全领域中的子领域的数据。 2.如权利要求1所述的方法, 其特征在于, 所述安全事件分类模型是采用以下步骤训练 获得的: 对所述安全领域样本数据进行 预处理, 获得预处理数据; 基于所述预处理数据, 对初始 的安全事件分类模型进行预训练, 获得预训练后的安全 事件分类模型; 基于所述安全事件样本数据, 对所述预训练后的安全事件分类模型进行模型训练, 获 得训练好的所述 安全事件分类模型。 3.如权利要求2所述的方法, 其特征在于, 所述对所述安全领域样本数据进行预处理, 获得预处理数据, 包括: 分别对所述安全领域样本数据中的每一安全领域样本文本进行随机遮罩处理和/或 随 机替换处 理, 获得处 理后的各安全领域样本文本; 将各安全领域样本文本进行分词, 获得 各安全领域样本文本的分词文本; 将各安全领域样本文本的分词文本进行向量转换, 获得各安全领域样本文本的文本向 量; 基于各安全领域样本文本的文本向量, 获得 所述预处 理数据。 4.如权利要求2所述的方法, 其特征在于, 所述基于所述预处理数据, 对初始 的安全事 件分类模型进行 预训练, 获得 预训练后的安全 事件分类模型, 包括: 将所述预处理数据输入所述初始的安全事件分类模型中的预训练模型, 获得所述预训 练模型的语义向量; 所述预训练模型 是基于所述BERT模型构建的; 基于所述安全领域样本数据中的各安全领域样本文本, 以及各语义向量, 确定所述预 训练模型的语义损失; 根据所述语义损 失, 调整所述预训练模型的训练参数, 直至获得符合预训练条件的预 训练模型; 基于所述符合预训练条件的预训练模型, 获得 所述预训练后的安全 事件分类模型。 5.如权利要求2 ‑4任一项所述的方法, 其特征在于, 所述基于所述安全事件样本数据, 对所述预训练后的安全事件分类模型进行模型训练, 获得训练好的所述安全事件分类模 型, 包括: 将所述安全事件样本数据中的安全事件样本输入所述预训练后的安全事件分类模型, 获得各安全事件样本各自的分类结果; 所述安全事件样本数据中还包含各安全事件样本对 应的分类标签; 基于各安全 事件样本的分类标签以及分类结果, 确定分类损失;权 利 要 求 书 1/3 页 2 CN 115374243 A 2根据所述分类损 失, 调整所述安全事件分类模型的模型参数, 直至获得符合分类条件 的安全事件分类模型。 6.一种安全 事件分类的装置, 其特 征在于, 包括: 获取单元, 用于获取待分类的安全 事件; 分类单元, 用于基于所述安全事件以及预先训练好的安全事件分类模型, 获得所述安 全事件的分类结果; 其中, 所述安全事件分类模型是基于语言表征模型BERT构建的, 所述安全事件分类模 型是基于安全领域样本数据进行预训练以及基于安全事件样本数据进行模型训练后 获得 的, 所述安全领域样本数据是采集的安全领域的数据, 所述安全事件样本数据是采集的所 述安全领域中的子领域的数据。 7.如权利要求6所述的装置, 其特征在于, 所述安全事件分类模型是采用以下步骤训练 获得的: 对所述安全领域样本数据进行 预处理, 获得预处理数据; 基于所述预处理数据, 对初始 的安全事件分类模型进行预训练, 获得预训练后的安全 事件分类模型; 基于所述安全事件样本数据, 对所述预训练后的安全事件分类模型进行模型训练, 获 得训练好的所述 安全事件分类模型。 8.如权利要求7 所述的装置, 其特 征在于, 所述分类单 元还用于: 分别对所述安全领域样本数据中的每一安全领域样本文本进行随机遮罩处理和/或 随 机替换处 理, 获得处 理后的各安全领域样本文本; 将各安全领域样本文本进行分词, 获得 各安全领域样本文本的分词文本; 将各安全领域样本文本的分词文本进行向量转换, 获得各安全领域样本文本的文本向 量; 基于各安全领域样本文本的文本向量, 获得 所述预处 理数据。 9.如权利要求7 所述的装置, 其特 征在于, 所述分类单 元还用于: 将所述预处理数据输入所述初始的安全事件分类模型中的预训练模型, 获得所述预训 练模型的语义向量; 所述预训练模型 是基于所述BERT模型构建的; 基于所述安全领域样本数据中的各安全领域样本文本, 以及各语义向量, 确定所述预 训练模型的语义损失; 根据所述语义损 失, 调整所述预训练模型的训练参数, 直至获得符合预训练条件的预 训练模型; 基于所述符合预训练条件的预训练模型, 获得 所述预训练后的安全 事件分类模型。 10.如权利要求7 ‑9任一项所述的装置, 其特 征在于, 所述分类单 元还用于: 将所述安全事件样本数据中的安全事件样本输入所述预训练后的安全事件分类模型, 获得各安全事件样本各自的分类结果; 所述安全事件样本数据中还包含各安全事件样本对 应的分类标签; 基于各安全 事件样本的分类标签以及分类结果, 确定分类损失; 根据所述分类损 失, 调整所述安全事件分类模型的模型参数, 直至获得符合分类条件 的安全事件分类模型。权 利 要 求 书 2/3 页 3 CN 115374243 A 3

.PDF文档 专利 安全事件分类的方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 安全事件分类的方法、装置、电子设备及存储介质 第 1 页 专利 安全事件分类的方法、装置、电子设备及存储介质 第 2 页 专利 安全事件分类的方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。