(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211201173.0
(22)申请日 2022.09.29
(71)申请人 招商局金融科技有限公司
地址 518000 广东省深圳市福田区华 富街
道皇岗路5001号深业上城(南区)二期
35层、 36层
(72)发明人 陈先丽 王阳 刘屹 李楠
王皖麟 孙猛
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 于志光
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/2453(2019.01)
G06F 16/248(2019.01)G06F 16/215(2019.01)
(54)发明名称
表搜索方法、 装置、 设备及存 储介质
(57)摘要
本发明涉及数据处理技术, 揭露了一种表搜
索方法、 装置、 电子设备以及存储介质, 所述方法
包括: 对获取的用户输入进行类型识别, 对类型
识别结果为文本输入的进行数据清洗, 对清洗数
据抽取实体得到的输入实体进行向量计算得到
第一表示向量, 对预设的表数据库中的表进行向
量计算得到第二表示向量, 根据第一及第二表示
向量相似度计算的结果从表数据库中选取匹配
表; 若类型识别结果为表输入, 分别根据对用户
输入及表数据库中的每个表进行表列名识别及
内容识别的结果计算每个表的表列名相关度及
内容相关度; 根据表列名相关度及内容相关度进
行综合打分得到的综合相关度从表数据库中选
取匹配表。 本发 明可以提高用户输入的表搜索效
率及准确率。
权利要求书3页 说明书11页 附图3页
CN 115438048 A
2022.12.06
CN 115438048 A
1.一种表搜索方法, 其特 征在于, 所述方法包括:
获取用户输入, 对所述用户输入进行类型识别, 根据类型识别的结果判断所述用户输
入为文本 输入还是表输入;
当所述用户输入为文本输入时, 对所述用户输入进行数据清洗, 得到清洗数据, 从所述
清洗数据中抽取实体, 得到 输入实体;
对所述输入实体及预设的表数据库中的表进行向量计算, 得到所述输入实体的第 一表
示向量以及所述表数据库中表的第二表示向量;
对所述第一表示向量以及所述第 二表示向量进行相似度计算, 根据相似度计算的结果
从所述表数据库中选取匹配表;
当所述用户输入为表输入时, 分别对所述用户输入以及所述表数据库中的每个表进行
表列名识别和内容识别, 并根据 表列名识别的结果及内容识别的结果计算每个表的表列名
相关度及内容相关度;
根据所述表列名相关度及所述内容相关度进行综合打分, 得到综合相关度, 通过所述
综合相关度从所述表数据库中选取匹配表。
2.如权利要求1所述的表搜索方法, 其特征在于, 所述对所述用户输入进行类型识别,
根据类型识别的结果判断所述用户输入为文本 输入还是表输入, 包括:
提取所述用户输入的数据格式, 得到目标 数据格式;
利用所述目标数据格式在预设的文本数据格式集合及预设的表数据格式集合中进行
同类检索, 得到匹配 类型;
若所述匹配 类型属于所述文本数据格式集 合, 则判定所述用户输入为文本 输入;
若所述匹配 类型属于所述表数据格式集 合, 则判定所述用户输入为表输入。
3.如权利要求1所述的表搜索方法, 其特征在于, 所述对所述用户输入进行数据清洗,
得到清洗数据, 包括:
根据预设的文本规则对所述用户输入进行句法分析, 得到 干扰数据;
对所述干扰数据进行 过滤及数据纠正, 得到清洗数据。
4.如权利要求1所述的表搜索方法, 其特征在于, 所述从所述清洗数据中抽取实体, 得
到输入实体, 包括:
对所述清洗数据进行词性分析及分词处 理, 得到输入分词以及对应的词性;
获取预设的停用词性标签, 根据所述词性标签所述输入分词的词性对所述输入分词进
行筛选, 得到标准分词;
利用所述标准分词在预设的实体数据库中进行检索, 并将检索到的标准分词作为输入
实体。
5.如权利要求1所述的表搜索方法, 其特征在于, 所述对所述输入实体及预设的表数据
库中的表进行向量计算, 得到所述输入实体的第一表示向量以及所述表数据库中表的第二
表示向量, 包括:
对所述输入实体进行词向量 转换, 得到所述输入实体对应的词向量;
对所述词向量进行加权平均, 得到所述输入实体的第一表示向量;
获取所述表数据库中的表所对应的表字段, 对所述表字段进行向量转换, 得到所述表
字段对应的表字段向量;权 利 要 求 书 1/3 页
2
CN 115438048 A
2根据所述表字段的词频及表频率生成所述表字段对应的权重系数, 并根据所述表字段
向量及所述权 重系数进行向量综合计算, 得到所述表数据库中表的第二表示向量。
6.如权利要求5所述的表搜索方法, 其特征在于, 所述根据 所述表字段向量及所述权重
系数进行向量综合计算, 得到所述表数据库中表的第二表示向量, 包括:
利用下式根据所述表字段向量及所述权 重系数进行向量综合计算:
其中,
为所述表数据库中的表所对应的第j 个表字段, j=1,2,3, …,N(N为自然 数); w
(tj)为第j个表字段的权 重系数;
为所述表数据库中表的第二表示向量。
7.如权利要求1至6中任一项所述的表搜索方法, 其特征在于, 所述根据表列名识别的
结果及内容识别的结果计算每 个表的表列名相关度及内容相关度, 包括:
利用下式根据表列名识别的结果计算每 个表的表列名相关度:
其中, H为表列名识别的标识;
为所述表列名识别的结果中用户输入的表列名数
据;
为所述表列名识别的结果中表数据库的第i个表的表列名数据;
为表数据库中第i个表的表列名相关度。
利用下式根据内容识别的结果计算每 个表的内容相关度:
其中, C为内容识别的标识;
为所述内容识别的结果中用户输入的内容数据;
为所述内容识别的结果中表数据库第i个表的内容数据;
为表数据库中第i个表的内容相关度。
8.一种表搜索装置, 其特 征在于, 所述装置包括:
类型识别模块, 用于获取用户输入, 对所述用户输入进行类型识别, 根据类型识别的结
果判断所述用户输入为文本 输入还是表输入;
输入实体生成模块, 用于当所述用户输入为文本输入时, 对所述用户输入进行数据清
洗, 得到清洗数据, 从所述清洗数据中抽取实体, 得到 输入实体;
向量计算模块, 用于对所述输入实体及预设的表数据库中的表进行向量计算, 得到所
述输入实体的第一表示向量以及所述表数据库中表的第二表示向量;
相似度计算模块, 用于对所述第一表示向量以及所述第二表示向量进行相似度计算,
根据相似度计算的结果从所述表数据库中选取匹配表;权 利 要 求 书 2/3 页
3
CN 115438048 A
3
专利 表搜索方法、装置、设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:36:36上传分享