专利 一种基于多方参与的安全的跨域模型训练方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111300581.7 (22)申请日 2021.11.04 (71)申请人成都数融科技有限公司地址 610000 四川省成都市高新区天府四街199号1栋20层04 号 (72)发明人顾见军　 (74)专利代理机构成都熠邦鼎立专利代理有限公司 5126 3 代理人姚家龙 (51)Int.Cl. G06N 20/00(2019.01) H04L 9/00(2022.01) (54)发明名称一种基于多方参与的安全的跨域模型训练方法及系统 (57)摘要本发明涉及一种基于多方参与的安全的跨域模型训练方法及系统，首先对参与节点的原始数据进行数据预处理；然后对预处理的数据进行同态加密；将参与节点的密文数据传输至主控节点；主控节点利用密文数据与明文数据进行联合模型计算；针对计算结果，进行模型优化；随后向所有参与节点发送模型优化参数。本申请充分利用多方计算的特征和同态加密的同态性特征，通过多方计算将参与节点的原始数据加密成密文数据，与主控节点的明文数据进行联合模型计算，然后将模型优化参数广播给所有参与节点，这样不断实现主控节点的联合模型的不断优化和迭代。在整个联合模型的计算过程中，参与节点都是密文数据参与，确保了数据的安全性，同时也提高了模型的精度。权利要求书1页说明书4页附图4页 CN 114037088 A 2022.02.11 CN 114037088 A 1.一种基于多方参与的安全的跨域模型训练方法，其特征在于：包括以下步骤：各参与节点对原始数据进行数据预处理；对预处理后的数据进行同态加密；将参与节点的密文数据传输至主控节点；主控节点利用其明文数据与参与节点的密文数据进行联合模型训练；针对训练结果，进行模型优化；将模型优化参数发送至所有参与节点。 2.根据权利要求1所述的一种基于多方参与的安全的跨域模型训练方法，其特征在于：所述的数据预处理包括以下步骤：将参与节点的原始数据按照结构化数据、半结构化数据、非结构化数据三大类进行数据解析和分类；将解析的数据按照联合模型计算的要求进行数据转换。 3.根据权利要求1所述的一种基于多方参与的安全的跨域模型训练方法，其特征在于：进行联合模型训练前还需利用数据处理模块进行数据处理，数据处理模块在接受到参与节点的密文数据后，先按照协议格式对密文数据进行数据解析，然后按照联合模型计算的要求进行相应的数据转换。 4.根据权利要求1所述的一种基于多方参与的安全的跨域模型训练方法，其特征在于：利用消息服务器将模型优化参数发送至所有参与节点。 5.一种安全的跨域模型联合训练系统，其特征在于：包括：数据预处理模块，用于对参与节点的原始数据进行数据预处理；同态加密模块，用于对预处理后的数据进行同态加密；参与节点协同通信模块，用于将参与节点的密文数据传输至主控节点；主控节点协同通信模块，用于接收参与节点的密文数据；数据处理模块，用于处理接收的密文数据；联合模型训练模块，利用参与节点的密文数据与主控节点的明文数据进行联合模型训练；模型优化模块，用于对模型进行优化；消息服务器，用于将模型优化参数发送至所有参与节点。 6.根据权利要求5所述的一种安全的跨域模型联合训练系统，其特征在于：所述数据预处理模块包括数据解析器和数据转换器。 7.根据权利要求5所述的一种安全的跨域模型联合训练系统，其特征在于：所述数据处理模块均包括数据解析器和数据转换器。 8.根据权利要求5所述的一种安全的跨域模型联合训练系统，其特征在于：所述消息服务器负责对模型优化模块推送过来的消息进行消息处理，按照消息类型进行分类，然后按照消息要求，对参与节点发送消息。权　利　要　求　书 1/1 页 2 CN 114037088 A 2一种基于多方参与的安全的跨域模型训练方法及系统技术领域 [0001]本发明涉及机器学习技术领域，尤其涉及一种基于多方参与的安全的跨域模型训练方法及系统。背景技术 [0002]多方计算是一种 “针对无可信第三方情况下，安全地进行多方协同的计算的多方计算的方法。多方计算可以让多个数据拥有者在私有数据的基础上进行协同计算以提取数据的价值，而不会泄露每个数据拥有者的原始数据。伴随着云计算、人工智能等多种新兴技术的快速发展以及数据隐私安全保护的加强，多方计算在多个领域中的作用变得越来越重要。 [0003]同态加密提供了一种对加密数据进行处理的功能，除了能实现基本的加密操作之外，还能实现密文间的多种计算功能，即先计算后解密可等价于先解密后计算。也就是说，其他人可以对加密数据进行处理，但是处理过程不会泄露任何原始内容。同时，拥有密钥的用户对处理过的数据进行解密后，得到的正好是处理后的结果。 [0004]目前常见的多节点联合模型训练的方法有协作机器学习和联邦学习二种。 [0005]协作机器学习技术，就是将数据分别在不同的节点进行训练，从而构建联合模型，其主要流程是参与一方用户的首先下载当前的预测模型，然后利用本地的训练数据进行训练改善这个模型，然后把改善后的模型参数采用安全的加密传输方式上传到主控节点，主控节点自动合并最新的模型。这种协作模式的机器学习方法克服了在大量的集中的数据集上，这样高强度的迭代要求低延迟、高吞吐量的环境下进行训练的问题。但是在协作模模式的环境下有非常不一样的环境：数据是分布在成千上万的、不同规格的移动终端上，而且这些终端的具有网络延迟高、低网络吞吐量，甚至在线的时间都是间歇性的，不能保证持续在线。 [0006]另外一种是联邦学习技术，在已有联邦学习技术中，特征处理方式是分别在各个客户端进行特征处理，由于客户端之间不会进行原始数据交互，因此联邦模型的特征处理无法了解数据全貌以及利用完整的数据特性；对于模型评估部分，解决方案是各参与方使用本地训练数据训练模型，测试数据用于评估模型的泛化能力，但是此种方法下不同的数据集划分方式会得到不同的模型，也就是的说，存在模型性能对数据集划分方式敏感的问题；对于调参，现有技术是先固定好模型的超参数组合，训练得到联邦模型，然后手动更换一组超参数组合，继续训练得到模型，最后对比不同参数得到的模型效果，得到最优的参数组合。即需要多次手动运行联邦学习，因此还存在模型优化困难及效率较低的问题。 [0007]无论是协同机器学习技术还是联邦学习技术，都是在各个节点进行数据计算，没有集中数据的特点，因此无法了解数据的全貌。其次是以上这两种技术都是基于明文数据的模型训练，没有有效的安全机制，无法确保因为明文数据训练而造成的严重的数据泄露的问题；再次，由于以上这两种技术在模型训练时没有在全量数据上训练，而是基于局部数据进行模型训练，因此还会造成模型精度差的问题。说　明　书 1/4 页 3 CN 114037088 A 3

专利 一种基于多方参与的安全的跨域模型训练方法及系统

专利一种基于多方参与的安全的跨域模型训练方法及系统