(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211118991.4
(22)申请日 2022.09.15
(65)同一申请的已公布的文献号
申请公布号 CN 115203309 A
(43)申请公布日 2022.10.18
(73)专利权人 北京信立方科技发展股份有限公
司
地址 100088 北京市西城区新 街口外大街
28号B座416室(德胜园区)
(72)发明人 刘成书 王涛 杨瑞龙 韩博
刘真 武自伟 林沙平 张丽娟
唐海霞
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 耿琦
(51)Int.Cl.
G06F 16/25(2019.01)G06F 16/22(2019.01)
G06F 40/151(2020.01)
(56)对比文件
CN 110502516 A,2019.1 1.26
CN 114117309 A,202 2.03.01
CN 114942971 A,202 2.08.26
CN 108427 721 A,2018.08.21
CN 114444465 A,2022.05.06
CN 109408 825 A,2019.0 3.01
US 2019102375 A1,2019.04.04
马冬雪等.领域本 体驱动的招投标网页解析
方法. 《计算机 应用》 .2020,第40卷(第0 6期),第
二节.
马冬雪等.领域本 体驱动的招投标网页解析
方法. 《计算机 应用》 .2020,第40卷(第0 6期),第
二节.
审查员 王欣玥
(54)发明名称
网页中标数据结构化方法及装置
(57)摘要
本发明提供一种网页中标数据结构化方法
及装置, 方法包括: 获取网页中标数据; 循环读取
网页中标数据, 并基于预先建立的解析预测模型
和结构化映射模板, 确定选择表格解析模型或键
值解析模型, 以对网页中标数据进行解析, 并将
解析结果存储至关系型数据库中。 本发明通过解
析预测模型判断采用表格解析模型或键值解析
模型对获取的网页中标数据中进行解析, 以提高
解析效率; 另外, 结合结构化映射模板, 进行解
析, 以基于较高的准确率和召回率将网页非结构
化形式的中标数据转化为结构化数据, 从而将最
小单元结构化数据存储至关系型数据库中, 实现
非结构化网页的结构化, 提高数据的可读性, 节
省人工整理成本, 便于后期快速对 数据进行分析
和统计。
权利要求书4页 说明书16页 附图6页
CN 115203309 B
2022.11.29
CN 115203309 B
1.一种网页中标 数据结构化方法, 其特 征在于, 包括:
获取网页中标 数据;
循环读取所述网页中标数据, 并基于预先建立的解析预测模型和结构化映射模板, 确
定选择表格解析模型或键值解析模型, 以对所述网页中标数据进行解析, 并将解析结果存
储至关系型 数据库中;
基于预先建立的解析预测模型和结构化映射模板, 确定选择表格解析模型或键值解析
模型, 包括:
循环读取所述网页中标数据中的文本信 息和所述文本信 息对应的节点位置, 并基于所
述文本信息和所述文本信息对应的节点 位置构建第一数组;
循环每个所述文本信 息, 并利用所述文本信 息在预先建立的结构化映射模板中进行查
询, 并根据查询结果更新所述第一数组;
基于预设列名, 将所述第一数组分别转化为具有二维表格型数据结构的第二数组, 所
述预设列名包括字段名称列、 预设值列和路径文本列;
读取所述第 二数组中字段名称为非0的行, 组成第 三数组, 并根据文本所在节点位置至
最近父节点的路径文本和所述文本最近的行与所述行在其父表格内的行号, 对所述第三数
组进行分组;
根据分组结果, 基于字段名称列包含至少两个维度的字段名称和预设值列为第 一预设
值, 对各分组进行筛选, 若得到筛选结果, 则基于与对应分组的路径文本列相同且大于所述
对应分组父表行号列内行号, 对各分组进行筛 选, 得到二次筛 选结果;
若所述二次筛选结果预设列值为第二预设值, 得到数组集合, 则选择表格解析模型对
相应网页中标 数据进行解析, 否则, 选择键值 解析模型对相应网页中标 数据进行解析。
2.根据权利要求1所述的网页中标数据 结构化方法, 其特征在于, 所述根据查询结果更
新所述第一数组, 包括:
基于得到查询结果, 选择所述文本信 息中等级类型最高的字段名称添加至所述第 一数
组; 否则, 对所述第一数组中的文本信息添加 第一预设值, 并分别利用每行文本信息在预先
建立的标的物特 征表中进行相似度查询;
基于得到相似度查询结果, 对所述第一数组中的文本信息的预设列添加第二预设值,
否则, 对所述第一数组中的文本信息的预设列添加所述第一预设值。
3.根据权利要求1所述的网页中标数据 结构化方法, 其特征在于, 确定选择所述表格解
析模型对相应网页中标数据进行解析, 以对所述网页中标数据进行解析, 并将解析结果存
储至关系型 数据库中, 包括:
基于XML路径语言, 提取 所述网页中标 数据中的表格数据;
循环每个表格数据, 并根据 XML路径语言轴解析出表格提示文本信息, 所述表格提示文
本信息对应非表格标签的文本信息, 且所述表格提示文本信息与对应表格数据距离最近且
同级;
将所述表格提示文本信息与预先基于关系型数据库获取的标的物提示语进行相似度
匹配;
基于相似度匹配成功, 选择对应表格数据, 并结合所述结构化映射模板, 对所述表格数
据进行解析。权 利 要 求 书 1/4 页
2
CN 115203309 B
24.根据权利要求3所述的网页中标数据 结构化方法, 其特征在于, 所述基于相似度匹配
成功, 选择对应表格数据, 并结合所述结构化映射模板, 对所述表格数据进行解析, 包括:
Sa, 基于相似度匹配成功, 选择对应表格数据, 并基于XML路径语言, 对所述表格数据进
行解析, 得到对应行 数据;
Sb, 循环每个行数据, 并基于解析提取源代码数据工具, 解析得到对应各所述行数据每
个单元格的文本信息;
Sc, 根据所述行数据和对应各所述行数据每个单元格的文本信息, 并基于Numpy, 构建
第一序列化矩阵;
Sd, 将所述第一序列化矩阵各行的每个元素分别与所述结构化映射模板进行比较, 并
基于存在元素符合所述结构化映射模板, 将对应元素所在行数据作为表头, 并根据所述表
头对相应所选表格数据进行划分, 得到 子表格数据;
Se, 基于所述 Numpy, 将所述子表格数据进行序列化, 得到第二序列化矩阵;
Sf, 循环所述第二序列化矩阵, 基于各所述第二序列化矩阵首行的各个元素以及预设
查询规则, 对所述结构化映射模板的字段名称进 行查询, 以基于查询结果, 更新预设数组和
第一字符串;
Sg, 查询更新后的预设数组中元素值符合第三预设值的索引, 并删除所述索引对应的
第二序列化矩阵中的列, 判断能否得到第三序列化矩阵;
Sh, 基于得到所述第三序列化矩阵, 循环所述第 三序列化矩阵, 将更新后的第一字符串
作为insert字段的字段名, 以及基于预设分 隔符将非首行的每行数据的所有 元素串联成第
二字符串, 并将所述字段名和所述第二字符串一一对应, 得到解析结果, 并将解析结果存储
至关系型 数据库中。
5.根据权利要求4所述的网页中标数据 结构化方法, 其特征在于, 所述根据所述行数据
和对应各 所述行数据每个单元格的文本信息, 并基于Numpy, 构建第一序列化矩阵, 包括:
根据所述行 数据和对应各 所述行数据每个单元格的文本信息, 构建二维数组;
根据所述 二维数组, 并基于Numpy, 得到第一序列化矩阵;
在构建所述 二维数组之后, 还 包括:
判断所述单元格的行属性是否大于第 一预设阈值, 以及判断所述单元格的列属性是否
大于第二预设阈值;
基于所述行属性大于所述第一预设阈值, 或所述列属性大于所述第二预设阈值, 选择
对应单元格按第四预设值进行补充, 以更新所述 二维数组;
在构建所述 二维数组之后, 还 包括:
从所有所述行数据中选择除最大长度以外的其他行数据, 将所述其他行数据用空值元
素补充, 得到 长度与所述 最大长度相同的其 他填充行数据;
基于所述 其他填充行数据和所述 最大长度对应的行 数据, 更新所述 二维数组。
6.根据权利要求4所述的网页中标数据 结构化方法, 其特征在于, 在查询更新后的数组
中元素值符合第三预设值的索引, 并删除所述索引对应的第二序列化矩阵中的列之后, 若
无法得到所述第三序列化矩 阵, 则将所述第二序列化矩 阵进行转置, 并重新执行Sf、 Sg和
Sh;
在得到所述 解析结果之后, 还 包括:权 利 要 求 书 2/4 页
3
CN 115203309 B
3
专利 网页中标数据结构化方法及装置
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:36:26上传分享