(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210629969.X
(22)申请日 2022.06.06
(65)同一申请的已公布的文献号
申请公布号 CN 114708472 A
(43)申请公布日 2022.07.05
(73)专利权人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 吴超 陈桂锟 肖俊 王朝
张志猛
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 傅朝栋 张法高
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/778(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06V 10/766(2022.01)
G06V 10/82(2022.01)
G06V 20/70(2022.01)
G06F 40/279(2020.01)G06F 40/242(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(56)对比文件
CN 112464016 A,2021.0 3.09
US 2012219221 A1,2012.08.3 0
CN 110399799 A,2019.1 1.01
CN 111931928 A,2020.1 1.13
CN 112784092 A,2021.0 5.11
CN 112989927 A,2021.0 6.18
CN 113554129 A,2021.10.26
CN 113689514 A,2021.1 1.23
CN 114332519 A,202 2.04.12
CN 114359768 A,202 2.04.15
KR 102254768 B1,2021.0 5.24
CN 112734881 A,2021.04.3 0
段静雯.基 于深度学习的场景图生成方法研
究. 《中国优秀硕士论文 全文库 信息科技》
.2022, (续)
审查员 秦鲲
(54)发明名称
面向AI实训的多模态数据集标注方法、 装置
及电子设备
(57)摘要
本发明公开了一种面向AI实训的多模态数
据集标注方法、 装置及电子设备, 属于计算机视
觉领域。 本发 明通过基于深度学习技术和图对齐
融合的场景图生成算法, 利用图像描述的弱监督
信息产生第一类场景图, 进一步与基于图像生成
的第二类场景图进行对齐和融合, 最终产生候选
的初始场景图作为人工标注的参考, 避免了错误
标注和漏标注。 本发明可为多模态数据集的人工
标注提供智能标注提示, 使 得人工标注时仅需优
化侯选的场景图即可, 大大降低了标注规模和标注难度, 可有效提高多 模态数据的标注效率。
[转续页]
权利要求书3页 说明书11页 附图3页
CN 114708472 B
2022.09.09
CN 114708472 B
(56)对比文件
吴超.融合颜色数据与深度数据的背景建模
算法研究. 《中国优秀硕士论文 全文库 信息科
技》 .2019,
陈烨.多模态知识图谱构建与应用研究综述. 《计算机 应用研究》 .2021,
Xia, Jinbiao.Lightweight Self-
Attention Residual Netw ork for
Hyperspectral Clas sificati on. 《IEEE
GEOSCIENC E AND RE MOTE SENSI NG LETTERS》
.2022,2/2 页
2[接上页]
CN 114708472 B1.一种面向AI实训的多模态数据集标注方法, 其特 征在于, 包括:
S1、 获取待标注样本, 所述待标注样本包括原 始图像和对应的图像描述;
S2、 针对所述原始图像, 通过目标检测得到多个带有类别和边框信息的目标, 将得到的
所有目标配对采样形成由目标对组成的目标对集合, 所述目标对包括一个作为主语的目标
和一个作为宾语的目标; 抽取每个目标对中两个目标自身以及周围的语义信息形成目标对
的上下文 特征, 将每个目标对中两个目标各自的视觉特征和类别标签以及目标对的上下文
特征作为经过训练的深度自注意力网络的输入, 预测目标对中两个目标的关系, 得到由存
在于所述原始图像中的关系三元组组成的第一关系三元组集合, 将第一关系三元组集合中
的关系三元组转换为图结构, 从而得到基于图像的场景图;
S3、 针对所述图像描述, 通过实体提取规则从图像描述文本中识别得到第一实体集合,
然后利用 词典对第一实体集合中的实体进行筛选, 保留的实体形成第二实体集合; 利用关
系抽取规则从图像描述文本中识别得到所述第二 实体集合中实体之 间存在的关系, 得到由
存在于所述图像描述中的关系三元组组成的第二关系三元组集合; 根据实体之 间的关系过
滤规则, 对第二关系三元组集合中的关系三元组进行过滤, 保留的关系三元组形成第三关
系三元组集合; 将第三关系三元组集合中的关系三元组转换为图结构, 从而得到基于图像
描述的场景图;
S4、 按照第一融合方式或者第二融合方式, 将基于图像的场景图和基于图像描述的场
景图通过图层次的对齐和融合得到融合场景图;
所述第一融合方式中, 得到所述第二关系三元组集合后, 先针对所述目标对集合中的
每一个目标对, 按照先验知识和该目标对的上下文信息及约束, 判断是否存在按规则提取
过程中被忽略的关系三元组, 若存在则将其补入所述第二关系三元组集合中, 再按所述关
系过滤规则执行过滤; 将 基于图像的场景图和基于图像描述的场景图进 行图层次的对齐和
融合时, 遍历基于图像的场景图每一个关系三元组, 判断该关系三元组是否存在于所述第
三关系三元组集合中, 若存在则将其加入融合场景图中, 若不存在则不加入融合场景图中,
遍历完毕后得到最终的融合场景图;
所述第二融合方式中, 将基于图像的场景图和基于图像描述的场景图进行图层次的对
齐和融合时, 遍历基于图像的场景图每一个关系三元组, 判断该关系三元组中作为主语和
宾语的两个实体是否存在于所述第二实体集合中, 若存在则将其加入融合场景图中, 若不
存在则不加入融合场景图中, 遍历完毕后得到最终的融合场景图;
S5、 将所述融合场景图作为初始标注信息发送至人工校对端, 并根据人工校对端返回
的校对结果 生成最终标注结果, 并与所述待标注样本关联后加入多模态数据集中。
2.如权利要求1所述的面向AI实训的多模态数据集标注方法, 其特征在于, 所述目标检
测的方法为: 将原始图像输入区域推荐网络, 得到图像中目标的候选框和图像特征图, 通过
非极大值抑制对候选框进 行筛选, 根据保留的候选框从所述图像特征图中提取每个候选框
对应区域的池化特征并作为对应候选框的特征向量; 把每个候选框的特征向量分别输入分
类网络和 位置回归网络, 得到每个候选框的类别和位置, 从而得到多个带有类别和 边框信
息的目标。
3.如权利要求1所述的面向AI实训的多模态数据集标注方法, 其特征在于, 所述深度自
注意力网络由多个叠加的块和分类网络组成; 其中每个块由多头注意力模块、 多层感知机权 利 要 求 书 1/3 页
2
CN 114708472 B
3
专利 面向AI实训的多模态数据集标注方法、装置及电子设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:51:20上传分享