专利 视频处理方法、装置、存储介质及计算机设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210653764.5 (22)申请日 2022.06.09 (71)申请人腾讯科技（深圳）有限公司地址 518064 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人权融威　张浩鑫　芦清林　刘威　 (74)专利代理机构深圳市智圈知识产权代理事务所(普通合伙) 44351 专利代理师林炮勤 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称视频处理方法、装置、存储介质及计算机设备 (57)摘要本申请公开了一种视频处理方法，包括：获取视频数据及视频数据关联的文本数据进行模态融合得到多模态特征；基于时序网络生成多模态特征对应的高时序分辨率特征；根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率；对高时序分辨率特征进行池化操作得到低时序分辨率特征；根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数；结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数生成视频数据对应的多个目标幕。本申请应用人工智能技术对幕分割点进行精确定位，并结合提名区域的幕完整性评估来抑制过分割，有效提升幕分割的精确度及效率。权利要求书3页说明书20页附图8页 CN 115115975 A 2022.09.27 CN 115115975 A 1.一种视频处理方法，其特征在于，所述方法包括：获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征；基于时序网络生成所述多模态特征对应的高时序分辨率特征；根据幕分割点预测网络对所述高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率；对所述高时序分辨率特征进行池化操作，得到低时序分辨率特征；根据幕完整性评估网络对所述低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数；结合所述每个时序位置为幕分割点的概率与所述每个提名区间的幕完整性评估分数，生成所述视频数据对应的多个目标幕。 2.根据权利要求1所述的方法，其特征在于，所述结合所述每个时序位置为幕分割点的概率与所述每个提名区间的幕完整性评估分数，生成所述视频数据对应的多个目标幕，包括：获取所述每个提名区间对应的衰减系数；基于每个时序位置为幕分割点的概率，确定每个提名区间的区间端点位置为幕分割点的概率；基于所述衰减系数、所述区间端点位置为幕分割点的概率以及所述幕完整性评估分数，确定所述每个提名区间的预测分数；根据所述每个提名区间的预测分数，确定多个预选幕；对所述多个预选幕进行微调操作，得到所述多个预选幕对应的多个目标幕。 3.根据权利要求2所述的方法，其特征在于，所述对所述多个预选幕进行微调操作，得到所述多个预选幕对应的多个目标幕，包括：获取每个时序位置的边界修正偏移量；根据所述边界修正偏移量对所述多个预选幕进行微调操作，得到所述多个预选幕对应的多个目标幕。 4.根据权利要求1～3任一项所述的方法，其特征在于，所述模态融合由交叉注意力网络执行，所述交叉注意力网络，所述时序网络，所述幕分割点预测网络以及所述幕完整性评估网络通过如下步骤训练得到：获取训练数据集合，所述训练数据集合包括视频训练特征、文本训练特征、分割点检测标签、边界修正偏移量标签以及幕完整性评估标签；获取预设注意力网络、预设时序网络、预设分割网络以及预设评估网络；通过所述训练数据集合对所述预设注意力网络、所述预设时序网络、所述预设分割网络以及所述预设评估网络进行端到端的网络联合训练，直至所述预设注意力网络、所述预设时序网络、所述预设分割网络以及所述预设评估网络构成的整个网络满足预设条件，得到训练后的交叉注意力网络、时序网络、幕分割点预测网络以及幕完整性评估网络。 5.根据权利要求1所述的方法，其特征在于，所述幕分割点预测网络包括至少四个卷积块，所述根据幕分割点预测网络对所述高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率，包括：基于所述至少四个卷积块生成所述高时序分辨率特征对应的目标预测特征图，其中，权　利　要　求　书 1/3 页 2 CN 115115975 A 2每个所述卷积块包括卷积层、批归一化层和非线性层，每个所述卷积块中的卷积核相同和卷积步长相同；基于所述目标预测特征图，利用第一激活函数计算出每个时序位置为幕分割点的概率和每个时序位置的边界修正偏移量。 6.根据权利要求5所述的方法，其特征在于，所述基于所述至少四个卷积块生成所述高时序分辨率特征对应的目标预测特征图，包括：将所述高时序分辨率特征输入至第一卷积块进行第一卷积处理，得到第一预测特征图；将所述第一预测特征图输入至第二卷积块，得到第二预测特征图；将所述第二预测特征图输入至第三卷积块，得到第三预测特征图；将所述第三预测特征图输入至第四卷积块，得到目标预测特征图。 7.根据权利要求1所述的方法，其特征在于，所述根据幕完整性评估网络对所述低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数，包括：基于所述低时序分辨率特征以及采样权重矩阵，确定提名特征图；对所述提名特征图进行特征融合，得到中间评估特征图；对所述中间评估特征图进行上采样，得到目标评估特征图；基于所述目标评估特征图，利用第二激活函数计算出每个提名区间的幕完整性评估分数。 8.根据权利要求7所述的方法，其特征在于，所述基于所述低时序分辨率特征以及采样权重矩阵，确定提名特征图，包括：获取多个提名区间；基于所述提名区间生成采样权重矩阵；基于所述低时序分辨率特征和所述采样权重矩阵的点积，确定所述多个提名区间对应的提名特征图。 9.根据权利要求8所述的方法，其特征在于，所述基于所述提名区间生成采样权重矩阵，包括：对每个提名区间进行区间扩展，得到扩展后的扩展提名区间；在所述扩展提名区间中进行采样操作，得到多个采样点对应的采样权重掩码；基于所述多个采样权重掩码确定采样权重矩阵。 10.根据权利要求1所述的方法，其特征在于，所述获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征，包括：获取的视频数据及视频数据关联的文本数据；基于视频特征提取器，提取所述视频数据对应的视频特征；基于文本特征提取器，提取所述文本数据对应的文本特征；基于所述视频特征和所述文本特征进行模态融合，得到多模态特征。 11.根据权利要求9所述的方法，其特征在于，所述基于所述视频特征和所述文本特征进行模态融合，得到多模态特征，包括：获取位置编码；基于位置编码分别计算出所述视频特征的视频中间特征和所述文本特征的文本中间权　利　要　求　书 2/3 页 3 CN 115115975 A 3

专利 视频处理方法、装置、存储介质及计算机设备

专利视频处理方法、装置、存储介质及计算机设备