专利安全求交、联邦学习模型的训练方法及系统、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210940246.1 (22)申请日 2022.08.05 (71)申请人北京富算科技有限公司地址 100020 北京市朝阳区东三环中路9号 19层2201 (72)发明人尤志强　卞阳　陈立峰　 (74)专利代理机构上海弼兴律师事务所 31283 专利代理师罗朗　林嵩 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称安全求交、联邦学习模型的训练方法及系统、设备及介质 (57)摘要本发明公开了一种数据安全求交、联邦学习模型的训练方法及系统、设备及介质，其中，安全求交方法包括获取各参与方的原始数据矩阵，对各个参与方的原始数据矩阵进行碎片化处理后进行拼接，然后通过密态排序以及密态对齐，生成碎片态的求交样本，由于求交样本为碎片态，可以保证交集结果不泄露，从而安全求交的全流程中不暴露任何敏感信息，既保护交集以外的信息，同时输出的结果又可以保护交集信息，进而能够执行高标准的安全要求和实现保护敏感数据的目标。权利要求书4页说明书25页附图9页 CN 115392480 A 2022.11.25 CN 115392480 A 1.一种数据共享中的安全求交方法，其特征在于，应用于至少两个参与方之间数据共享场景中，所述安全求交方法包括：获取各所述参与方的原始数据矩阵；其中，所述原始数据矩阵包括至少一组样本数据，所述样本数据包括用于标识所述参与方中每个对象的唯一标识和与所述唯一标识相对应的属性数据；基于所述样本数据对各所述参与方的原始数据矩阵进行碎片化处理得到各自对应的原始碎片矩阵，并基于所述原始碎片矩阵生成对应的随机数碎片矩阵，将每个参与方的所述随机数碎片矩阵发送给其他参与方；将各所述参与方的原始碎片矩阵与从其他参与方获得的所述随机数碎片矩阵进行拼接处理，以得到各自对应的拼接矩阵；分别基于各所述参与方的拼接矩阵确定目标求交样本。 2.如权利要求1所述的数据共享中的安全求交方法，其特征在于，所述基于各所述参与方的拼接矩阵确定目标求交样本包括：分别基于各所述参与方的所述拼接矩阵进行排序，以得到与所述拼接矩阵对应的排序矩阵；分别基于各所述参与方的所述排序矩阵进行样本特征对齐计算，以确定所述目标求交样本。 3.如权利要求2所述的数据共享中的安全求交方法，其特征在于，在得到各自对应的原始碎片矩阵之后，所述安全求交方法还包括：基于预设密态打乱算法对所述原始碎片矩阵中若干列进行密态打乱，以得到样本顺序变换后的新的原始碎片矩阵；其中，不同所述参与者对应的所述原始碎片矩阵采用相同的所述预设密态打乱算法进行密态打乱处理。 4.如权利要求2所述的数据共享中的安全求交方法，其特征在于，所述原始碎片矩阵包括样本数据碎片，所述样本数据碎片包括唯一标识碎片和与所述唯一标识碎片对应的属性数据碎片；所述分别基于各所述参与方的所述拼接矩阵进行排序，以得到各自对应的排序矩阵包括：分别基于预设排序算子提取各所述参与方的所述拼接矩阵中的所述唯一标识碎片相同的样本数据碎片并进行排序，以得到各自对应的所述排序矩阵。 5.如权利要求2所述的数据共享中的安全求交方法，其特征在于，所述分别基于各所述参与方的所述排序矩阵进行样本特征对齐计算，以确定所述目标求交样本包括：分别基于各所述参与方的所述排序矩阵依次比较相邻的所述样本数据碎片对应的所述唯一标识碎片是否相同，以根据比较结果进行样本特征对齐计算，得到所述目标求交样本。 6.如权利要求5所述的数据共享中的安全求交方法，其特征在于，所述以根据比较结果进行样本特征对齐计算包括：根据预设转换算子将碎片化的所述比较结果转化为对应的第一比较值或第二比较值；将相邻的所述样本数据碎片中的对应属性数据碎片进行密态求和，并将各个求和值依权　利　要　求　书 1/4 页 2 CN 115392480 A 2次与所述第一比较值或所述第二比较值相乘，得到所述目标求交样本。 7.如权利要求6所述的数据共享中的安全求交方法，其特征在于，所述根据预设转换算子将碎片化的所述比较结果转化为对应的第一比较值或第二比较值包括：在所述比较结果相同时，基于B2A算子将碎片化的所述比较结果转化为算术类型的第一比较值；在所述比较结果不相同时，基于所述B2A算子将碎片化的所述比较结果转化为算术类型的第二比较值。 8.如权利要求6所述的数据共享中的安全求交方法，其特征在于，所述根据比较结果进行样本特征对齐计算还包括：在所述比较结果相同时，并将相邻的所述样本数据碎片中对应的所述属性数据碎片进行密态求和；在所述比较结果不相同时，丢弃排序位置靠前的样本数据，以得到新的目标求交样本。 9.如权利要求6所述的数据共享中的安全求交方法，其特征在于，在所述根据比较结果进行样本特征对齐计算之后，所述安全求交方法还包括：将碎片化的所述比较结果进行恢复处理。 10.如权利要求1所述的数据共享中的安全求交方法，其特征在于，在所述获取各所述参与方的原始数据矩阵之后，所述安全求交方法还包括：判断各个所述参与方的原始数据矩阵中属性数据对应的列数是否相同，若不相同，则根据预设补齐规则生成虚拟属性数据列进行补齐，以得到补齐后的所述原始数据矩阵；其中，各所述参与方所对应补齐后的所述原始数据矩阵的列数相等。 11.如权利要求1所述的数据共享中的安全求交方法，其特征在于，所述基于所述样本数据对各所述参与方的原始数据矩阵进行碎片化处理得到各自对应的原始碎片矩阵，并基于所述原始碎片矩阵生成对应的随机数碎片矩阵包括：基于所述样本数据对各所述参与方的原始数据矩阵中的每一个原始数据都减去一个随机数，以得到差值碎片和随机数碎片，将所有的差值碎片作为原始碎片矩阵，将所有的随机数碎片作为随机数碎片矩阵。 12.如权利要求4所述的安全求交方法，其特征在于，所述预设排序算子基于快速排序算法或排序网络算法中实现；和/或，所述排序网络算法基于双调排序算法实现。 13.如权利要求1 ‑11中任一项所述的数据共享中的安全求交方法，其特征在于，所述安全求交方法还包括：判断所述原始数据矩阵中的唯一标识的类型；若所述唯一标识为字符串型，则将所述字符串的唯一标识进行数值化处理以得到数值化的唯一标识；若所述唯一标识为数值型，则不进行操作。 14.一种联邦学习模型的训练方法，其特征在于，所述训练方法包括：获取各参与方利用如权利要求1 ‑13中任一项所述安全求交方法得到的碎片化的目标求交样本；权　利　要　求　书 2/4 页 3 CN 115392480 A 3

专利 安全求交、联邦学习模型的训练方法及系统、设备及介质

专利安全求交、联邦学习模型的训练方法及系统、设备及介质