(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111300581.7
(22)申请日 2021.11.04
(71)申请人 成都数融科技有限公司
地址 610000 四川省成 都市高新区天府四
街199号1栋20层04 号
(72)发明人 顾见军
(74)专利代理 机构 成都熠邦鼎立专利代理有限
公司 5126 3
代理人 姚家龙
(51)Int.Cl.
G06N 20/00(2019.01)
H04L 9/00(2022.01)
(54)发明名称
一种基于多方参与的安全的跨域模型训练
方法及系统
(57)摘要
本发明涉及一种基于多方参与的安全的跨
域模型训练方法及系统, 首先对参与节点的原始
数据进行数据预处理; 然后对预处理的数据进行
同态加密; 将参与节点的密文数据传输至主控节
点; 主控节 点利用密文数据与明文数据进行联合
模型计算; 针对计算结果, 进行模型优化; 随后向
所有参与节 点发送模型优化参数。 本申请充分利
用多方计算的特征和同态加密的同态 性特征, 通
过多方计算将参与节点的原始数据加密成密文
数据, 与主控节点的明文数据进行联合模型计
算, 然后将模型优化参数广播给所有参与节点,
这样不断实现主控节点的联合模型的不断优化
和迭代。 在整个联合模型的计算过程中, 参与节
点都是密文数据参与, 确保了数据的安全性, 同
时也提高了模型的精度。
权利要求书1页 说明书4页 附图4页
CN 114037088 A
2022.02.11
CN 114037088 A
1.一种基于多方参与的安全的跨 域模型训练方法, 其特 征在于: 包括以下步骤:
各参与节点对原 始数据进行 数据预处 理;
对预处理后的数据进行同态加密;
将参与节点的密文数据传输 至主控节点;
主控节点利用其明文数据与参与节点的密文数据进行 联合模型训练;
针对训练结果, 进行模型优化;
将模型优化 参数发送至所有参与节点。
2.根据权利要求1所述的一种基于多方参与的安全的跨域模型训练方法, 其特征在于:
所述的数据预处 理包括以下步骤:
将参与节点的原始数据按照结构化数据、 半结构化数据、 非结构化数据三大类进行数
据解析和分类;
将解析的数据按照联合模型计算的要求进行 数据转换。
3.根据权利要求1所述的一种基于多方参与的安全的跨域模型训练方法, 其特征在于:
进行联合模型训练前还需利用数据处理模块进 行数据处理, 数据处理模块在接受到参与 节
点的密文数据后, 先按照协议格式对密文数据进行数据解析, 然后按照联合模型计算的要
求进行相应的数据转换。
4.根据权利要求1所述的一种基于多方参与的安全的跨域模型训练方法, 其特征在于:
利用消息服 务器将模型优化 参数发送至所有参与节点。
5.一种安全的跨 域模型联合训练系统, 其特 征在于: 包括:
数据预处 理模块, 用于对参与节点的原 始数据进行 数据预处 理;
同态加密模块, 用于对预处 理后的数据进行同态加密;
参与节点协同通信模块, 用于将参与节点的密文数据传输 至主控节点;
主控节点协同通信模块, 用于 接收参与节点的密文数据;
数据处理模块, 用于处 理接收的密文数据;
联合模型训练模块, 利用参与节点的密文数据与主控节点的明文数据进行联合模型训
练;
模型优化模块, 用于对 模型进行优化;
消息服务器, 用于将模型优化 参数发送至所有参与节点。
6.根据权利要求5所述的一种安全的跨域模型联合训练系统, 其特征在于: 所述数据 预
处理模块包括数据解析器和数据转换器。
7.根据权利要求5所述的一种安全的跨域模型联合训练系统, 其特征在于: 所述数据处
理模块均包括数据解析器和数据转换器。
8.根据权利要求5所述的一种安全的跨域模型联合训练系统, 其特征在于: 所述消息服
务器负责对模型优化模块推送过来的消息进行消息处理, 按照消息类型进行分类, 然后按
照消息要求, 对参与节点发送消息 。权 利 要 求 书 1/1 页
2
CN 114037088 A
2一种基于多方参与的安全的跨域模型训练方 法及系统
技术领域
[0001]本发明涉及机器学习技术领域, 尤其涉及 一种基于多方参与的安全的跨域模型训
练方法及系统。
背景技术
[0002]多方计算是一种 “针对无可信第三方情况下, 安全地进行多方协同的计算的多方
计算的方法。 多方计算可以让多个数据拥有者在私有 数据的基础上进 行协同计算以提取数
据的价值, 而不会泄露每个数据拥有者的原始数据。 伴随着云计算、 人工智能等多种新兴技
术的快速发展以及数据隐私安全保护的加强, 多方计算在多个领域中的作用变得越来越重
要。
[0003]同态加密提供了一种对加 密数据进行处理的功能, 除了能实现基本的加密操作之
外, 还能实现密文间的多种计算功能, 即先计算后解密可等价于先解密后计算。 也就是说,
其他人可以对加密数据进 行处理, 但是 处理过程不会泄露任何原始内容。 同时, 拥有密钥的
用户对处 理过的数据进行解密后, 得到的正 好是处理后的结果。
[0004]目前常见的多节点联合模型训练的方法有协作机器学习和联邦学习二种。
[0005]协作机器学习技术, 就是将数据分别在不同的节点进行训练, 从而构建联合模型,
其主要流程是参与一方用户的首先下载当前的预测模型, 然后利用本地的训练数据进 行训
练改善这个模型, 然后把改善后的模型参数采用安全的加密传输方式上传到主控节点, 主
控节点自动合并最新的模型。 这种协作模式的机器学习方法克服了在大量的集中的数据集
上, 这样高强度的迭代要求低延迟、 高吞吐量的环境下进行训练的问题。 但是在协作模模式
的环境下有非常不一样的环境: 数据是分布在成千 上万的、 不同规格的移动终端 上, 而且这
些终端的具有网络延迟高、 低网络吞吐量, 甚至在线的时间都是间歇性的, 不能保证持续在
线。
[0006]另外一种是联邦学习技术, 在已有联邦学习技术中, 特征处理方式是分别在各个
客户端进行特征处理, 由于客户端之间不会进行原始数据 交互, 因此联邦模型 的特征处理
无法了解数据全貌以及利用完整的数据特性; 对于模型评估部分, 解决方案是各参与方使
用本地训练数据训练模型, 测试数据用于评估模型 的泛化能力, 但是此种 方法下不同的数
据集划分方式会得到不同的模型, 也就是 的说, 存在模型性能对数据集划分方式敏感的问
题; 对于调参, 现有技术是先固定好模型的超参数组合, 训练得到联邦模型, 然后手动更换
一组超参数组合, 继续训练得到模型, 最后对比不同参数得到的模型效果, 得到最优的参数
组合。 即需要 多次手动运行 联邦学习, 因此还 存在模型优化困难及效率较低的问题。
[0007]无论是协同机器学习技术还是联邦学习技术, 都是在各个节点进行数据计算, 没
有集中数据的特点, 因此无法了解数据的全貌。 其次是以上这两种技术都是基于明文数据
的模型训练, 没有有效的安全机制, 无法确保因为明文数据训练而造成的严重的数据泄露
的问题; 再次, 由于以上这两种技术在 模型训练 时没有在 全量数据上训练, 而 是基于局部数
据进行模型训练, 因此还 会造成模型精度差的问题。说 明 书 1/4 页
3
CN 114037088 A
3
专利 一种基于多方参与的安全的跨域模型训练方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 18:59:17上传分享