专利 网页中标数据结构化方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211118991.4 (22)申请日 2022.09.15 (65)同一申请的已公布的文献号申请公布号 CN 115203309 A (43)申请公布日 2022.10.18 (73)专利权人北京信立方科技发展股份有限公司地址 100088 北京市西城区新街口外大街 28号B座416室(德胜园区) (72)发明人刘成书　王涛　杨瑞龙　韩博　刘真　武自伟　林沙平　张丽娟　唐海霞　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师耿琦 (51)Int.Cl. G06F 16/25(2019.01)G06F 16/22(2019.01) G06F 40/151(2020.01) (56)对比文件 CN 110502516 A,2019.1 1.26 CN 114117309 A,202 2.03.01 CN 114942971 A,202 2.08.26 CN 108427 721 A,2018.08.21 CN 114444465 A,2022.05.06 CN 109408 825 A,2019.0 3.01 US 2019102375 A1,2019.04.04 马冬雪等.领域本体驱动的招投标网页解析方法. 《计算机应用》 .2020,第40卷(第0 6期),第二节. 马冬雪等.领域本体驱动的招投标网页解析方法. 《计算机应用》 .2020,第40卷(第0 6期),第二节. 审查员王欣玥 (54)发明名称网页中标数据结构化方法及装置 (57)摘要本发明提供一种网页中标数据结构化方法及装置，方法包括：获取网页中标数据；循环读取网页中标数据，并基于预先建立的解析预测模型和结构化映射模板，确定选择表格解析模型或键值解析模型，以对网页中标数据进行解析，并将解析结果存储至关系型数据库中。本发明通过解析预测模型判断采用表格解析模型或键值解析模型对获取的网页中标数据中进行解析，以提高解析效率；另外，结合结构化映射模板，进行解析，以基于较高的准确率和召回率将网页非结构化形式的中标数据转化为结构化数据，从而将最小单元结构化数据存储至关系型数据库中，实现非结构化网页的结构化，提高数据的可读性，节省人工整理成本，便于后期快速对数据进行分析和统计。权利要求书4页说明书16页附图6页 CN 115203309 B 2022.11.29 CN 115203309 B 1.一种网页中标数据结构化方法，其特征在于，包括：获取网页中标数据；循环读取所述网页中标数据，并基于预先建立的解析预测模型和结构化映射模板，确定选择表格解析模型或键值解析模型，以对所述网页中标数据进行解析，并将解析结果存储至关系型数据库中；基于预先建立的解析预测模型和结构化映射模板，确定选择表格解析模型或键值解析模型，包括：循环读取所述网页中标数据中的文本信息和所述文本信息对应的节点位置，并基于所述文本信息和所述文本信息对应的节点位置构建第一数组；循环每个所述文本信息，并利用所述文本信息在预先建立的结构化映射模板中进行查询，并根据查询结果更新所述第一数组；基于预设列名，将所述第一数组分别转化为具有二维表格型数据结构的第二数组，所述预设列名包括字段名称列、预设值列和路径文本列；读取所述第二数组中字段名称为非0的行，组成第三数组，并根据文本所在节点位置至最近父节点的路径文本和所述文本最近的行与所述行在其父表格内的行号，对所述第三数组进行分组；根据分组结果，基于字段名称列包含至少两个维度的字段名称和预设值列为第一预设值，对各分组进行筛选，若得到筛选结果，则基于与对应分组的路径文本列相同且大于所述对应分组父表行号列内行号，对各分组进行筛选，得到二次筛选结果；若所述二次筛选结果预设列值为第二预设值，得到数组集合，则选择表格解析模型对相应网页中标数据进行解析，否则，选择键值解析模型对相应网页中标数据进行解析。 2.根据权利要求1所述的网页中标数据结构化方法，其特征在于，所述根据查询结果更新所述第一数组，包括：基于得到查询结果，选择所述文本信息中等级类型最高的字段名称添加至所述第一数组；否则，对所述第一数组中的文本信息添加第一预设值，并分别利用每行文本信息在预先建立的标的物特征表中进行相似度查询；基于得到相似度查询结果，对所述第一数组中的文本信息的预设列添加第二预设值，否则，对所述第一数组中的文本信息的预设列添加所述第一预设值。 3.根据权利要求1所述的网页中标数据结构化方法，其特征在于，确定选择所述表格解析模型对相应网页中标数据进行解析，以对所述网页中标数据进行解析，并将解析结果存储至关系型数据库中，包括：基于XML路径语言，提取所述网页中标数据中的表格数据；循环每个表格数据，并根据 XML路径语言轴解析出表格提示文本信息，所述表格提示文本信息对应非表格标签的文本信息，且所述表格提示文本信息与对应表格数据距离最近且同级；将所述表格提示文本信息与预先基于关系型数据库获取的标的物提示语进行相似度匹配；基于相似度匹配成功，选择对应表格数据，并结合所述结构化映射模板，对所述表格数据进行解析。权　利　要　求　书 1/4 页 2 CN 115203309 B 24.根据权利要求3所述的网页中标数据结构化方法，其特征在于，所述基于相似度匹配成功，选择对应表格数据，并结合所述结构化映射模板，对所述表格数据进行解析，包括： Sa，基于相似度匹配成功，选择对应表格数据，并基于XML路径语言，对所述表格数据进行解析，得到对应行数据； Sb，循环每个行数据，并基于解析提取源代码数据工具，解析得到对应各所述行数据每个单元格的文本信息； Sc，根据所述行数据和对应各所述行数据每个单元格的文本信息，并基于Numpy，构建第一序列化矩阵； Sd，将所述第一序列化矩阵各行的每个元素分别与所述结构化映射模板进行比较，并基于存在元素符合所述结构化映射模板，将对应元素所在行数据作为表头，并根据所述表头对相应所选表格数据进行划分，得到子表格数据； Se，基于所述 Numpy，将所述子表格数据进行序列化，得到第二序列化矩阵； Sf，循环所述第二序列化矩阵，基于各所述第二序列化矩阵首行的各个元素以及预设查询规则，对所述结构化映射模板的字段名称进行查询，以基于查询结果，更新预设数组和第一字符串； Sg，查询更新后的预设数组中元素值符合第三预设值的索引，并删除所述索引对应的第二序列化矩阵中的列，判断能否得到第三序列化矩阵； Sh，基于得到所述第三序列化矩阵，循环所述第三序列化矩阵，将更新后的第一字符串作为insert字段的字段名，以及基于预设分隔符将非首行的每行数据的所有元素串联成第二字符串，并将所述字段名和所述第二字符串一一对应，得到解析结果，并将解析结果存储至关系型数据库中。 5.根据权利要求4所述的网页中标数据结构化方法，其特征在于，所述根据所述行数据和对应各所述行数据每个单元格的文本信息，并基于Numpy，构建第一序列化矩阵，包括：根据所述行数据和对应各所述行数据每个单元格的文本信息，构建二维数组；根据所述二维数组，并基于Numpy，得到第一序列化矩阵；在构建所述二维数组之后，还包括：判断所述单元格的行属性是否大于第一预设阈值，以及判断所述单元格的列属性是否大于第二预设阈值；基于所述行属性大于所述第一预设阈值，或所述列属性大于所述第二预设阈值，选择对应单元格按第四预设值进行补充，以更新所述二维数组；在构建所述二维数组之后，还包括：从所有所述行数据中选择除最大长度以外的其他行数据，将所述其他行数据用空值元素补充，得到长度与所述最大长度相同的其他填充行数据；基于所述其他填充行数据和所述最大长度对应的行数据，更新所述二维数组。 6.根据权利要求4所述的网页中标数据结构化方法，其特征在于，在查询更新后的数组中元素值符合第三预设值的索引，并删除所述索引对应的第二序列化矩阵中的列之后，若无法得到所述第三序列化矩阵，则将所述第二序列化矩阵进行转置，并重新执行Sf、 Sg和 Sh；在得到所述解析结果之后，还包括：权　利　要　求　书 2/4 页 3 CN 115203309 B 3

专利 网页中标数据结构化方法及装置

专利网页中标数据结构化方法及装置