专利 面向AI实训的多模态数据集标注方法、装置及电子设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210629969.X (22)申请日 2022.06.06 (65)同一申请的已公布的文献号申请公布号 CN 114708472 A (43)申请公布日 2022.07.05 (73)专利权人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人吴超　陈桂锟　肖俊　王朝　张志猛　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师傅朝栋　张法高 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/778(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01) G06F 40/279(2020.01)G06F 40/242(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (56)对比文件 CN 112464016 A,2021.0 3.09 US 2012219221 A1,2012.08.3 0 CN 110399799 A,2019.1 1.01 CN 111931928 A,2020.1 1.13 CN 112784092 A,2021.0 5.11 CN 112989927 A,2021.0 6.18 CN 113554129 A,2021.10.26 CN 113689514 A,2021.1 1.23 CN 114332519 A,202 2.04.12 CN 114359768 A,202 2.04.15 KR 102254768 B1,2021.0 5.24 CN 112734881 A,2021.04.3 0 段静雯.基于深度学习的场景图生成方法研究. 《中国优秀硕士论文全文库信息科技》 .2022, (续) 审查员秦鲲 (54)发明名称面向AI实训的多模态数据集标注方法、装置及电子设备 (57)摘要本发明公开了一种面向AI实训的多模态数据集标注方法、装置及电子设备，属于计算机视觉领域。本发明通过基于深度学习技术和图对齐融合的场景图生成算法，利用图像描述的弱监督信息产生第一类场景图，进一步与基于图像生成的第二类场景图进行对齐和融合，最终产生候选的初始场景图作为人工标注的参考，避免了错误标注和漏标注。本发明可为多模态数据集的人工标注提供智能标注提示，使得人工标注时仅需优化侯选的场景图即可，大大降低了标注规模和标注难度，可有效提高多模态数据的标注效率。 [转续页] 权利要求书3页说明书11页附图3页 CN 114708472 B 2022.09.09 CN 114708472 B (56)对比文件吴超.融合颜色数据与深度数据的背景建模算法研究. 《中国优秀硕士论文全文库信息科技》 .2019, 陈烨.多模态知识图谱构建与应用研究综述. 《计算机应用研究》 .2021, Xia, Jinbiao.Lightweight Self- Attention Residual Netw ork for Hyperspectral Clas sificati on. 《IEEE GEOSCIENC E AND RE MOTE SENSI NG LETTERS》 .2022,2/2 页 2[接上页] CN 114708472 B1.一种面向AI实训的多模态数据集标注方法，其特征在于，包括： S1、获取待标注样本，所述待标注样本包括原始图像和对应的图像描述； S2、针对所述原始图像，通过目标检测得到多个带有类别和边框信息的目标，将得到的所有目标配对采样形成由目标对组成的目标对集合，所述目标对包括一个作为主语的目标和一个作为宾语的目标；抽取每个目标对中两个目标自身以及周围的语义信息形成目标对的上下文特征，将每个目标对中两个目标各自的视觉特征和类别标签以及目标对的上下文特征作为经过训练的深度自注意力网络的输入，预测目标对中两个目标的关系，得到由存在于所述原始图像中的关系三元组组成的第一关系三元组集合，将第一关系三元组集合中的关系三元组转换为图结构，从而得到基于图像的场景图； S3、针对所述图像描述，通过实体提取规则从图像描述文本中识别得到第一实体集合，然后利用词典对第一实体集合中的实体进行筛选，保留的实体形成第二实体集合；利用关系抽取规则从图像描述文本中识别得到所述第二实体集合中实体之间存在的关系，得到由存在于所述图像描述中的关系三元组组成的第二关系三元组集合；根据实体之间的关系过滤规则，对第二关系三元组集合中的关系三元组进行过滤，保留的关系三元组形成第三关系三元组集合；将第三关系三元组集合中的关系三元组转换为图结构，从而得到基于图像描述的场景图； S4、按照第一融合方式或者第二融合方式，将基于图像的场景图和基于图像描述的场景图通过图层次的对齐和融合得到融合场景图；所述第一融合方式中，得到所述第二关系三元组集合后，先针对所述目标对集合中的每一个目标对，按照先验知识和该目标对的上下文信息及约束，判断是否存在按规则提取过程中被忽略的关系三元组，若存在则将其补入所述第二关系三元组集合中，再按所述关系过滤规则执行过滤；将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组是否存在于所述第三关系三元组集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图；所述第二融合方式中，将基于图像的场景图和基于图像描述的场景图进行图层次的对齐和融合时，遍历基于图像的场景图每一个关系三元组，判断该关系三元组中作为主语和宾语的两个实体是否存在于所述第二实体集合中，若存在则将其加入融合场景图中，若不存在则不加入融合场景图中，遍历完毕后得到最终的融合场景图； S5、将所述融合场景图作为初始标注信息发送至人工校对端，并根据人工校对端返回的校对结果生成最终标注结果，并与所述待标注样本关联后加入多模态数据集中。 2.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，所述目标检测的方法为：将原始图像输入区域推荐网络，得到图像中目标的候选框和图像特征图，通过非极大值抑制对候选框进行筛选，根据保留的候选框从所述图像特征图中提取每个候选框对应区域的池化特征并作为对应候选框的特征向量；把每个候选框的特征向量分别输入分类网络和位置回归网络，得到每个候选框的类别和位置，从而得到多个带有类别和边框信息的目标。 3.如权利要求1所述的面向AI实训的多模态数据集标注方法，其特征在于，所述深度自注意力网络由多个叠加的块和分类网络组成；其中每个块由多头注意力模块、多层感知机权　利　要　求　书 1/3 页 2 CN 114708472 B 3

专利 面向AI实训的多模态数据集标注方法、装置及电子设备

专利面向AI实训的多模态数据集标注方法、装置及电子设备