说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210583620.7 (22)申请日 2022.05.25 (71)申请人 云从科技 集团股份有限公司 地址 511457 广东省广州市南沙区南沙街 金隆路37号5 01房 (72)发明人 孙新 高伽林 王萱 刘琼 周曦  (74)专利代理 机构 北京瀚仁知识产权代理事务 所(普通合伙) 11482 专利代理师 屠晓旭 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01) G06F 16/78(2019.01) G06V 10/80(2022.01) (54)发明名称 视频片段定位方法、 系统、 控制装置及可读 存储介质 (57)摘要 本发明涉及跨模态感知技术领域, 具体提供 一种视频片段定位方法、 系统、 控制装置及可读 存储介质, 旨在解决如何 高效、 快速、 准确地进行 视频片段的定位的问题。 为此目的, 本发明将视 频片段定位任务类比为人类的阅读理解任务, 借 鉴阅读理解任务先粗读后细读的阅读策略来处 理视频定位任务, 使 得视频定位过程中能够融合 多模态特征, 深度挖掘出语言模态和视觉模态内 部和之间的语义信息, 能够更加符合人类进行阅 读理解任务的策略, 获得更好的定位效果。 同时, 由于构建了有效候选视频片段, 能够帮助进一步 区分视觉 上相似的视频片段, 在确保视频片段定 位的准确性的同时, 也能够提升视频片段定位的 效率。 权利要求书4页 说明书16页 附图4页 CN 114896451 A 2022.08.12 CN 114896451 A 1.一种视频片段定位方法, 其特 征在于, 所述方法包括: 根据待查询视频和查询语句, 获取查询感知的视频表征和视频感知的语言表征; 根据所述待查询视频构建所述待查询视频的多个有 效候选视频片段; 并根据 所述查询 感知的视频表征获取每 个有效候选 视频片段的内容特 征和边界特 征; 分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码, 获取细粒度视频 编码特征和细粒度语言编 码特征; 并将所述细粒度视频编 码特征和所述细粒度语言编 码特 征进行深度融合, 获取细粒度融合特 征; 根据所述细粒度融合特征、 所述内容特征和所述边界特征, 获取每个有效候选视频片 段的关系感知特 征; 根据所述关系感知特 征, 获取最终的视频片段的定位结果。 2.根据权利要求1所述的视频片段定位方法, 其特征在于, “根据所述待查询视频构建 所述待查询视频的多个有效候选 视频片段 ”的步骤包括: 构建T×T个网格的二维时间网络图; 其中, T为所述查询感知的视频表征的特征长度, 所述二维时间网络图的纵坐标表示所述待查询视频中的候选视频片段的开始时间, 横坐标 表示所述待查询视频中的候选视频片段的结束时间, 所述二 维时间网络图中开始时间小于 结束时间的网络为有效 网格; 根据每个有效网格中对应的候选视频片段与其他有效网格对应的候选视频片段之间 的时间间隔, 对有效网格进 行稀疏采样, 以获得多个采样后的有效网格, 将采样后的有效网 格对应的候选 视频片段, 作为有效候选 视频片段。 3.根据权利要求2所述的视频片段定位方法, 其特征在于, “根据所述查询感知的视频 表征获取每 个有效候选 视频片段的内容特 征和边界特 征”的步骤包括: 根据以下公式获取第n个有效候选 视频片段的内容特 征 和边界特 征 其中, 为第n个有效候选视频片段的开始时间的查询感知的视频表征, 为第n个有 效候选视频片段的结束时间的查询感知的视频表征, MaxPooling为最大池化操作, Addition相加运算。 4.根据权利要求1所述的视频片段定位方法, 其特征在于, “分别对查询感知的视频表 征和视频感知的语言表征进行细粒度编 码, 获取细粒度视频编 码特征和细粒度语言编 码特 征”的步骤包括: 根据以下公式获取细粒度视频编码特 征: 其中, 为所述细粒度视频编码特征, 为所述查询感知的视频表征, Linear为线性全连 接层操作, ReLU为线性整流 函数。 应用一维卷积网络, 对视频感知的语言表征进行编码, 分别获得一元语言特征、 二元语 言特征和三元语言特 征; 根据所述一元语言特征、 二元语言特征和三元语言特征, 应用以下公式, 获得所述细粒权 利 要 求 书 1/4 页 2 CN 114896451 A 2度语言编码特 征: 其中, 为所述细粒度语言编码特征, 分别为所述一元语言特征、 二元语言特 征和三元语言特 征, Concat为特 征融合操作。 5.根据权利要求4所述的视频片段定位方法, 其特征在于, “将所述细粒度视频编码特 征和所述细粒度语言编码特 征进行深度融合, 获取细粒度融合特 征”的步骤包括: 根据以下公式获取 所述细粒度融合特 征: 其中, 为所述细粒度融合特征, 为查询感知的视 频片段特征, 为视频感知的视 频 片段特征; 根据以下公式获取 所述查询感知的视频片段 特征: Ac为有效候选视频片段的内容特征的集合, GQ为门控语言特征, 通过以下公式获取所述 门控语言特 征: σ 为门函数, AB为有效候选视频片段的边界特征的集合, 为转移语言特征, 通过以下公 式获取所述转移语言特 征: Linear为线性全连接层操作, MaxPo oling为最大池化层操作; 根据以下公式所述视频感知的视频片段 特征: Avgpooling为平均池化层操作。 6.根据权利要求5所述的视频片段定位方法, 其特征在于, “根据所述细粒度融合特征、 所述内容特 征和所述 边界特征, 获取每 个有效候选 视频片段的关系感知特 征”的步骤包括: 将所述细粒度融合特征、 所述内容特征和所述边界特征进行特征融合, 并根据以下公 式获取增强的融合特 征 将所述增强的融合特征输入至堆叠多层 分组卷积网络 中, 并根据以下公式获取每个有 效候选视频片段的关系感知特 征: 为有效候选 视频片段的关系感知特 征的集合。 7.根据权利要求6所述的视频片段定位方法, 其特征在于, “根据所述关系感知特征, 获 取最终的视频片段的定位结果 ”的步骤包括: 根据每个有效候选视频片段的关系感知特征, 对每个有效候选视频片段进行打分, 以 获取每个有效候选 视频片段的分数; 根据所述有效候选 视频片段的分数确定最终的视频片段的定位结果。权 利 要 求 书 2/4 页 3 CN 114896451 A 3

.PDF文档 专利 视频片段定位方法、系统、控制装置及可读存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频片段定位方法、系统、控制装置及可读存储介质 第 1 页 专利 视频片段定位方法、系统、控制装置及可读存储介质 第 2 页 专利 视频片段定位方法、系统、控制装置及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:51:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。