说明:收录全文最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210583620.7 (22)申请日 2022.05.25 (71)申请人 云从科技 集团股份有限公司 地址 511457 广东省广州市南沙区南沙街 金隆路37号5 01房 (72)发明人 孙新 高伽林 王萱 刘琼 周曦 (74)专利代理 机构 北京瀚仁知识产权代理事务 所(普通合伙) 11482 专利代理师 屠晓旭 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01) G06F 16/78(2019.01) G06V 10/80(2022.01) (54)发明名称 视频片段定位方法、 系统、 控制装置及可读 存储介质 (57)摘要 本发明涉及跨模态感知技术领域, 具体提供 一种视频片段定位方法、 系统、 控制装置及可读 存储介质, 旨在解决如何 高效、 快速、 准确地进行 视频片段的定位的问题。 为此目的, 本发明将视 频片段定位任务类比为人类的阅读理解任务, 借 鉴阅读理解任务先粗读后细读的阅读策略来处 理视频定位任务, 使 得视频定位过程中能够融合 多模态特征, 深度挖掘出语言模态和视觉模态内 部和之间的语义信息, 能够更加符合人类进行阅 读理解任务的策略, 获得更好的定位效果。 同时, 由于构建了有效候选视频片段, 能够帮助进一步 区分视觉 上相似的视频片段, 在确保视频片段定 位的准确性的同时, 也能够提升视频片段定位的 效率。 权利要求书4页 说明书16页 附图4页 CN 114896451 A 2022.08.12 CN 114896451 A 1.一种视频片段定位方法, 其特 征在于, 所述方法包括: 根据待查询视频和查询语句, 获取查询感知的视频表征和视频感知的语言表征; 根据所述待查询视频构建所述待查询视频的多个有 效候选视频片段; 并根据 所述查询 感知的视频表征获取每 个有效候选 视频片段的内容特 征和边界特 征; 分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码, 获取细粒度视频 编码特征和细粒度语言编 码特征; 并将所述细粒度视频编 码特征和所述细粒度语言编 码特 征进行深度融合, 获取细粒度融合特 征; 根据所述细粒度融合特征、 所述内容特征和所述边界特征, 获取每个有效候选视频片 段的关系感知特 征; 根据所述关系感知特 征, 获取最终的视频片段的定位结果。 2.根据权利要求1所述的视频片段定位方法, 其特征在于, “根据所述待查询视频构建 所述待查询视频的多个有效候选 视频片段 ”的步骤包括: 构建T×T个网格的二维时间网络图; 其中, T为所述查询感知的视频表征的特征长度, 所述二维时间网络图的纵坐标表示所述待查询视频中的候选视频片段的开始时间, 横坐标 表示所述待查询视频中的候选视频片段的结束时间, 所述二 维时间网络图中开始时间小于 结束时间的网络为有效 网格; 根据每个有效网格中对应的候选视频片段与其他有效网格对应的候选视频片段之间 的时间间隔, 对有效网格进 行稀疏采样, 以获得多个采样后的有效网格, 将采样后的有效网 格对应的候选 视频片段, 作为有效候选 视频片段。 3.根据权利要求2所述的视频片段定位方法, 其特征在于, “根据所述查询感知的视频 表征获取每 个有效候选 视频片段的内容特 征和边界特 征”的步骤包括: 根据以下公式获取第n个有效候选 视频片段的内容特 征 和边界特 征 其中, 为第n个有效候选视频片段的开始时间的查询感知的视频表征, 为第n个有 效候选视频片段的结束时间的查询感知的视频表征, MaxPooling为最大池化操作, Addition相加运算。 4.根据权利要求1所述的视频片段定位方法, 其特征在于, “分别对查询感知的视频表 征和视频感知的语言表征进行细粒度编 码, 获取细粒度视频编 码特征和细粒度语言编 码特 征”的步骤包括: 根据以下公式获取细粒度视频编码特 征: 其中, 为所述细粒度视频编码特征, 为所述查询感知的视频表征, Linear为线性全连 接层操作, ReLU为线性整流 函数。 应用一维卷积网络, 对视频感知的语言表征进行编码, 分别获得一元语言特征、 二元语 言特征和三元语言特 征; 根据所述一元语言特征、 二元语言特征和三元语言特征, 应用以下公式, 获得所述细粒权 利 要 求 书 1/4 页 2 CN 114896451 A 2度语言编码特 征: 其中, 为所述细粒度语言编码特征, 分别为所述一元语言特征、 二元语言特 征和三元语言特 征, Concat为特 征融合操作。 5.根据权利要求4所述的视频片段定位方法, 其特征在于, “将所述细粒度视频编码特 征和所述细粒度语言编码特 征进行深度融合, 获取细粒度融合特 征”的步骤包括: 根据以下公式获取 所述细粒度融合特 征: 其中, 为所述细粒度融合特征, 为查询感知的视 频片段特征, 为视频感知的视 频 片段特征; 根据以下公式获取 所述查询感知的视频片段 特征: Ac为有效候选视频片段的内容特征的集合, GQ为门控语言特征, 通过以下公式获取所述 门控语言特 征: σ 为门函数, AB为有效候选视频片段的边界特征的集合, 为转移语言特征, 通过以下公 式获取所述转移语言特 征: Linear为线性全连接层操作, MaxPo oling为最大池化层操作; 根据以下公式所述视频感知的视频片段 特征: Avgpooling为平均池化层操作。 6.根据权利要求5所述的视频片段定位方法, 其特征在于, “根据所述细粒度融合特征、 所述内容特 征和所述 边界特征, 获取每 个有效候选 视频片段的关系感知特 征”的步骤包括: 将所述细粒度融合特征、 所述内容特征和所述边界特征进行特征融合, 并根据以下公 式获取增强的融合特 征 将所述增强的融合特征输入至堆叠多层 分组卷积网络 中, 并根据以下公式获取每个有 效候选视频片段的关系感知特 征: 为有效候选 视频片段的关系感知特 征的集合。 7.根据权利要求6所述的视频片段定位方法, 其特征在于, “根据所述关系感知特征, 获 取最终的视频片段的定位结果 ”的步骤包括: 根据每个有效候选视频片段的关系感知特征, 对每个有效候选视频片段进行打分, 以 获取每个有效候选 视频片段的分数; 根据所述有效候选 视频片段的分数确定最终的视频片段的定位结果。权 利 要 求 书 2/4 页 3 CN 114896451 A 3
专利 视频片段定位方法、系统、控制装置及可读存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 12:51:00
上传分享
举报
下载
原文档
(1.5 MB)
分享
友情链接
等保三级-安全管理-安全管理制度.doc
GB-T 19055-2003 汽车发动机可靠性试验方法.pdf
T-SZCC 001—2023 深圳市生物医药产业“工业上楼” 设计指引.pdf
信通院 数据安全治理实践指南-1.0.pdf
DL-T 884-2019 火电厂金相检验与评定技术导则.pdf
GB-T 30659-2014 假肢和矫形器 要求和试验方法.pdf
GB-T 20321.1-2006 离网型风能、太阳能发电系统用逆变器 第1部分:技术条件.pdf
T-HJAITISA 02—2020 重熔用精铝锭.pdf
GB-T 19670-2023 机械安全 防止意外启动.pdf
GB-T 39608-2020 基础地理信息数字成果元数据.pdf
GB-T 33746.2-2017 近场通信(NFC)安全技术要求 第2部分:安全机制要求.pdf
DB42-T 1951-2023 桥梁结构健康信息化监测技术规范 湖北省.pdf
DB2201-T 31-2023 政务云服务与接入安全管理规范 长春市.pdf
DB37-T 4440.3—2021 城市轨道交通互联互通体系规范 信号系统 第3部分:工程设计 山东省.pdf
T-CXZCX 001—2023 餐饮外卖一次性密封规范.pdf
GB-T 16296.1-2018 声学 测听方法 第1部分:纯音气导和骨导测听法.pdf
GB 25972-2010 气体灭火系统及部件.pdf
GB-T 31439.2-2015 波形梁钢护栏 第2部分:三波形梁钢护栏.pdf
T-GRM 010—2020 金属非金属矿山粉尘治理技术标准.pdf
T-CFA 02010120.1—2017 耐低温耐大气腐蚀铸钢件.pdf
1
/
3
25
评价文档
赞助1.5元 点击下载(1.5 MB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。