专利 视频片段定位方法、系统、控制装置及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210583620.7 (22)申请日 2022.05.25 (71)申请人云从科技集团股份有限公司地址 511457 广东省广州市南沙区南沙街金隆路37号5 01房 (72)发明人孙新　高伽林　王萱　刘琼　周曦　 (74)专利代理机构北京瀚仁知识产权代理事务所(普通合伙) 11482 专利代理师屠晓旭 (51)Int.Cl. G06F 16/732(2019.01) G06F 16/783(2019.01) G06F 16/78(2019.01) G06V 10/80(2022.01) (54)发明名称视频片段定位方法、系统、控制装置及可读存储介质 (57)摘要本发明涉及跨模态感知技术领域，具体提供一种视频片段定位方法、系统、控制装置及可读存储介质，旨在解决如何高效、快速、准确地进行视频片段的定位的问题。为此目的，本发明将视频片段定位任务类比为人类的阅读理解任务，借鉴阅读理解任务先粗读后细读的阅读策略来处理视频定位任务，使得视频定位过程中能够融合多模态特征，深度挖掘出语言模态和视觉模态内部和之间的语义信息，能够更加符合人类进行阅读理解任务的策略，获得更好的定位效果。同时，由于构建了有效候选视频片段，能够帮助进一步区分视觉上相似的视频片段，在确保视频片段定位的准确性的同时，也能够提升视频片段定位的效率。权利要求书4页说明书16页附图4页 CN 114896451 A 2022.08.12 CN 114896451 A 1.一种视频片段定位方法，其特征在于，所述方法包括：根据待查询视频和查询语句，获取查询感知的视频表征和视频感知的语言表征；根据所述待查询视频构建所述待查询视频的多个有效候选视频片段；并根据所述查询感知的视频表征获取每个有效候选视频片段的内容特征和边界特征；分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码，获取细粒度视频编码特征和细粒度语言编码特征；并将所述细粒度视频编码特征和所述细粒度语言编码特征进行深度融合，获取细粒度融合特征；根据所述细粒度融合特征、所述内容特征和所述边界特征，获取每个有效候选视频片段的关系感知特征；根据所述关系感知特征，获取最终的视频片段的定位结果。 2.根据权利要求1所述的视频片段定位方法，其特征在于， “根据所述待查询视频构建所述待查询视频的多个有效候选视频片段 ”的步骤包括：构建T×T个网格的二维时间网络图；其中， T为所述查询感知的视频表征的特征长度，所述二维时间网络图的纵坐标表示所述待查询视频中的候选视频片段的开始时间，横坐标表示所述待查询视频中的候选视频片段的结束时间，所述二维时间网络图中开始时间小于结束时间的网络为有效网格；根据每个有效网格中对应的候选视频片段与其他有效网格对应的候选视频片段之间的时间间隔，对有效网格进行稀疏采样，以获得多个采样后的有效网格，将采样后的有效网格对应的候选视频片段，作为有效候选视频片段。 3.根据权利要求2所述的视频片段定位方法，其特征在于， “根据所述查询感知的视频表征获取每个有效候选视频片段的内容特征和边界特征”的步骤包括：根据以下公式获取第n个有效候选视频片段的内容特征和边界特征其中，为第n个有效候选视频片段的开始时间的查询感知的视频表征，为第n个有效候选视频片段的结束时间的查询感知的视频表征， MaxPooling为最大池化操作， Addition相加运算。 4.根据权利要求1所述的视频片段定位方法，其特征在于， “分别对查询感知的视频表征和视频感知的语言表征进行细粒度编码，获取细粒度视频编码特征和细粒度语言编码特征”的步骤包括：根据以下公式获取细粒度视频编码特征：其中，为所述细粒度视频编码特征，为所述查询感知的视频表征， Linear为线性全连接层操作， ReLU为线性整流函数。应用一维卷积网络，对视频感知的语言表征进行编码，分别获得一元语言特征、二元语言特征和三元语言特征；根据所述一元语言特征、二元语言特征和三元语言特征，应用以下公式，获得所述细粒权　利　要　求　书 1/4 页 2 CN 114896451 A 2度语言编码特征：其中，为所述细粒度语言编码特征，分别为所述一元语言特征、二元语言特征和三元语言特征， Concat为特征融合操作。 5.根据权利要求4所述的视频片段定位方法，其特征在于， “将所述细粒度视频编码特征和所述细粒度语言编码特征进行深度融合，获取细粒度融合特征”的步骤包括：根据以下公式获取所述细粒度融合特征：其中，为所述细粒度融合特征，为查询感知的视频片段特征，为视频感知的视频片段特征；根据以下公式获取所述查询感知的视频片段特征： Ac为有效候选视频片段的内容特征的集合， GQ为门控语言特征，通过以下公式获取所述门控语言特征： σ 为门函数， AB为有效候选视频片段的边界特征的集合，为转移语言特征，通过以下公式获取所述转移语言特征： Linear为线性全连接层操作， MaxPo oling为最大池化层操作；根据以下公式所述视频感知的视频片段特征： Avgpooling为平均池化层操作。 6.根据权利要求5所述的视频片段定位方法，其特征在于， “根据所述细粒度融合特征、所述内容特征和所述边界特征，获取每个有效候选视频片段的关系感知特征”的步骤包括：将所述细粒度融合特征、所述内容特征和所述边界特征进行特征融合，并根据以下公式获取增强的融合特征将所述增强的融合特征输入至堆叠多层分组卷积网络中，并根据以下公式获取每个有效候选视频片段的关系感知特征：为有效候选视频片段的关系感知特征的集合。 7.根据权利要求6所述的视频片段定位方法，其特征在于， “根据所述关系感知特征，获取最终的视频片段的定位结果 ”的步骤包括：根据每个有效候选视频片段的关系感知特征，对每个有效候选视频片段进行打分，以获取每个有效候选视频片段的分数；根据所述有效候选视频片段的分数确定最终的视频片段的定位结果。权　利　要　求　书 2/4 页 3 CN 114896451 A 3

专利 视频片段定位方法、系统、控制装置及可读存储介质

专利视频片段定位方法、系统、控制装置及可读存储介质