(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211353583.7
(22)申请日 2022.11.01
(71)申请人 南京嘉安网络技 术有限公司
地址 211800 江苏省南京市浦口区江浦街
道浦滨路320号科创总部大厦B座2 407
室
(72)发明人 毛红军
(74)专利代理 机构 南京聚匠知识产权代理有限
公司 323 39
专利代理师 卢美玲
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/9536(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于知识图谱的互联网行为分析方法
与系统
(57)摘要
本发明公开了基于知识图谱的互联网行为
分析方法与系统, 通过 获取各个用户的ID和在互
联网上的历史行为数据集, 构建行为二部图; 选
择n个用户作为比较基础用户; 挖掘行为二部图
中的相似性特征; 将相似性特征作为知识图谱分
析模型的输入, 将触网标签作为知识图谱分析模
型的输出, 对知识图谱分析模型进行训练; 获取
新用户指定时间段的行为数据集, 构建有关新用
户的二部图; 根据触网型知识图谱分析模型对新
用户的二部图进行触网风险识别, 得到触网风险
标签; 设置风控系数, 判定新用户指定时间段的
行为是否存在异常。 本申请通过构建的行为二部
图和训练的知识图谱分析模型的结合, 挖掘出互
联网行为的共性和隐形特征, 以此判定用户是否
有触网风险。
权利要求书2页 说明书5页 附图3页
CN 115391670 A
2022.11.25
CN 115391670 A
1.一种基于知识图谱的互联网行为分析 方法, 其特 征在于, 包括:
获取各个用户的ID和在互联网上的历史行为数据集, 依据用户ID和对应的历史行为数
据集进行整合, 构建行为 二部图;
选择n个用户作为比较基础用户, 具体地, 为每个用户建立行为向量, 计算N个用户的用
户行为向量的多特征联合距离; 其中, 所述多特征联合距离反映N个用户之 间多个互联网行
为数据特征的整体相似度; 根据多特征联合距离, 对所述N个用户进行分组, 从每一组中分
别选取一定数量的用户构成n个用户作为比较 基础用户;
利用相似性计算方法挖掘所述行为二部 图中的相似性特征; 具体地, 采用杰卡德距离
来计算所述行为二部图中的相似性特征, 得到每个用户与n个比较基础用户之间行为特征
的相似度;
将所述相似性特征作为知识图谱分析模型的输入, 将触网标签作为所述知识图谱分析
模型的输出, 对知识图谱分析模型进行训练以得到触网型知识图谱分析模型;
获取新用户指定时间段的行为数据集, 并构建有关新用户的二部图;
根据所述触网型知识图谱分析模型对新用户的二部图进行触网风险识别, 得到触网风
险标签; 具体地, 采用杰卡德距离计算新用户的二部图与上述行为二部图的相似性特征, 得
到新用户与n个比较基础用户之 间行为特征的相似度, 将所述新用户与n个比较基础用户之
间行为特 征的相似度输入训练后的所述触网型知识图谱分析模型, 得到触网风险的概 率;
设置风控系数, 判定新用户指定时间段的行为是否存在异常。
2.根据权利要求1所述的方法, 其特征在于, 设置风控系数, 判定新用户指定时间段的
行为是否存在异常, 具体包括: 将所述触网风险的概率与阈值进行比较来判定新用户指定
时间段的行为是否存在异常。
3.根据权利要求1所述的方法, 其特征在于, 行为数据集具体是每个用户在互联网上留
下的行为 痕迹, 包括但不限定为: 年龄、 性别、 所 处的生活环 境、 生活方式、 兴趣爱好、 内容阅
读浏览偏好、 支付消费偏好、 出 行情况、 社交群 体。
4.根据权利要求1所述的方法, 其特征在于, 根据 所述触网型知识图谱分析模型对新用
户的二部图进 行触网风险识别, 得到触网风险标签, 还包括: 触网风险标签取值为0或<1,小
于1时保留小 数点后4位; 0表 示无风险, 小于1的具体值表 示风险大小, 越接近1, 表 示风险越
大。
5.一种基于知识图谱的互联网行为分析系统, 其特 征在于, 包括:
获取模块1, 用于获取各个用户的ID和在互联网上的历史行为数据集, 依据用户ID和对
应的历史行为数据集进行整合, 构建行为 二部图;
选择模块, 用于选择n个用户作为比较基础用户, 具体地, 为每个用户建立行为向量, 计
算N个用户的用户行为向量的多特征联合距离; 其中, 所述多特征联合距离反映N个用户之
间多个互联网行为数据特征的整体相似度; 根据多特征联合距离, 对所述N个用户进行分
组, 从每一组中分别选取一定数量的用户构成n个用户作为比较 基础用户;
相似度计算模块, 用于利用相似性计算方法挖掘所述行为二部 图中的相似性特征; 具
体地, 采用杰卡德距离来计算所述行为二部图中的相似性特征, 得到每个用户与n个比较基
础用户之间行为特 征的相似度;
训练模块, 基于大数据机器学习训练方法, 用于将所述相似性特征数据作为知识图谱权 利 要 求 书 1/2 页
2
CN 115391670 A
2分析模型 的输入, 将触网标签作为所述知识图谱分析模型 的输出, 对知识图谱分析模型进
行训练以得到触网型知识图谱分析模型, 实现对海量用户的检测, 提供不同用户在不同风
险环境下的风险系数;
获取模块2, 用于获取新用户指定时间段的行为数据集, 并构建有关新用户的二部图;
识别模块, 用于根据 所述触网型知识图谱分析模型对新用户的二部图进行触网风险识
别, 得到触网风险标签; 具体地, 采用杰卡德距离计算新用户的二部图与上述行为二部图的
相似性特征, 得到新用户与n个比较基础用户之间行为特征 的相似度, 将所述新用户与n个
比较基础用户之间行为特征的相似度输入训练后的所述触网型知识图谱分析模型, 得到触
网风险的概 率;
判定模块, 用于设置风控系数, 判定新用户指定时间段的行为是否存在异常;
另需从各个方面评估, 模型准确率、 误差, 时间、 空间复杂度, 稳定性、 迁移性, 减少误报
风险。
6.根据权利要求5所述的系统, 其特征在于, 设置风控系数, 判定新用户指定时间段的
行为是否存在异常, 具体包括: 将所述触网风险的概率与阈值进行比较来判定新用户指定
时间段的行为是否存在异常, 用户在指定时间段内接触互联网的行为与n个比较基础用户
的行为特 征相似度对比, 生成概 率和阈值。
7.根据权利要求5所述的系统, 其特征在于, 通过多个维度的标签在不同场景下对用户
进行精准的人物画像, 产出图谱式行为数据集, 行为数据集具体是每个用户在互联网上留
下的行为 痕迹, 包括但不限定为: 年龄、 性别、 所 处的生活环 境、 生活方式、 兴趣爱好、 内容阅
读浏览偏好、 支付消费偏好、 出行情况、 社 交群体、 APP安装及 使用行为、 网址访问行为、 网络
账户交易行为。
8.根据权利要求5所述的系统, 其特征在于, 根据 所述触网型知识图谱分析模型对新用
户的二部图进 行触网风险识别, 得到触网风险标签, 还包括: 触网风险标签取值为0或<1,小
于1时保留小 数点后4位; 0表 示无风险, 小于1的具体值表 示风险大小, 越接近1, 表 示风险越
大。权 利 要 求 书 2/2 页
3
CN 115391670 A
3
专利 一种基于知识图谱的互联网行为分析方法与系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:10:22上传分享