专利 视频处理方法、装置、计算机设备及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210583664.X (22)申请日 2022.05.25 (71)申请人上海商汤智能科技有限公司地址 200233 上海市徐汇区桂平路391号3 号楼1605A室 (72)发明人钟怡然　周金星　王建元　张佳一　孙伟轩　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 专利代理师袁忠林 (51)Int.Cl. G10L 25/18(2013.01) G10L 25/30(2013.01) H04N 19/182(2014.01) G06V 10/40(2022.01)G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称视频处理方法、装置、计算机设备及可读存储介质 (57)摘要本公开提供了一种视频处理方法、装置、计算机设备及可读存储介质，其中，该方法包括：确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号；对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据；对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据；基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。本公开实施例可以提高对待处理视频中发声对象的定位精准度。权利要求书4页说明书23页附图5页 CN 115019824 A 2022.09.06 CN 115019824 A 1.一种视频处理方法，其特征在于，包括：确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号；对所述目标视频帧图像进行第一编码处理，得到图像特征数据；以及对所述目标音频信号进行第二编码处理，得到音频特征数据；对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据；基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。 2.根据权利要求1所述的方法，其特征在于，所述确定待处理视频中的目标视频帧图像、以及与所述目标视频帧图像对应的目标音频信号，包括：获取所述待处理视频、以及与所述待处理视频对应的待处理音频信号，并将所述待处理视频划分为多个待处理子视频；按照与所述待处理子视频对应的划分方式，将所述待处理音频信号划分为与多个所述待处理子视频分别对应的目标音频信号，以及对多个所述待处理子视频分别进行抽帧处理，得到多个所述待处理子视频分别对应的目标视频帧图像。 3.根据权利要求1所述的方法，其特征在于，所述对所述目标视频帧图像进行第一编码处理，得到图像特征数据，包括：对所述目标视频帧图像进行多级特征提取处理，得到多级特征提取处理的分别对应的中间图像特征数据；针对多级特征提取中的每级特征提取，对每级特征提取处理对应的中间图像特征数据进行多个采样率的空洞卷积并行采样，得到所述目标视频帧图像对应的图像特征数据。 4.根据权利要求1 ‑3任一项所述的方法，其特征在于，对所述目标音频信号进行第二编码处理，得到音频特征数据，包括：将所述目标音频信号转换为频谱数据；对所述频谱数据进行特征提取处理，得到所述音频特征数据。 5.根据权利要求1 ‑4任一项所述的方法，其特征在于，所述对所述图像特征数据以及所述音频特征数据进行特征融合处理，得到融合特征数据，包括：对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据；确定所述转换音频特征数据、以及所述图像特征数据之间的相似度；基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据。 6.根据权利要求5所述的方法，其特征在于，所述对所述音频特征数据进行尺寸转化处理，得到尺寸与所述图像特征数据匹配的转化音频特征数据，包括：基于所述图像特征数据的数据通道数，对所述音频特征数据进行线性变换处理，得到数据通道数与所述图像特征数据一致的中间音频特征数据；基于所述图像特征数据的高度、以及宽度，对所述中间音频特征数据进行空间上的重复处理，得到所述转化音频特征数据。 7.根据权利要求5或6所述的方法，其特征在于，所述确定所述转换音频特征数据、以及所述图像特征数据之间的相似度，包括：权　利　要　求　书 1/4 页 2 CN 115019824 A 2利用第一卷积核对所述图像特征数据进行卷积处理，得到第一卷积图像特征数据；以及，利用第二卷积核对所述转换音频特征数据进行卷积处理，得到第一卷积转换音频特征数据；分别对所述第一卷积图像特征数据和所述第一卷积转换音频特征数据进行降维处理，得到第二卷积图像特征数据以及第二卷积转换音频特征数据；对所述第二卷积图像特征数据以及所述第二卷积转换音频特征数据进行点乘处理，得到所述相似度。 8.根据权利要求5 ‑7任一项所述的方法，其特征在于，所述基于所述相似度，对所述图像特征数据进行调整处理，得到所述融合特征数据，包括：利用第三卷积核对所述图像特征数据进行卷积处理，得到第三卷积图像特征数据，并对所述第三卷积图像特征数据进行降维处理，得到第四卷积图像特征数据；将所述第四卷积图像特征数据和所述相似度进行点乘处理后，得到与所述图像特征数据对应的调整特征数据；将所述调整特征数据和所述图像特征数据进行融合，得到所述融合特征数据。 9.根据权利要求8所述的方法，其特征在于，所述将所述调整特征数据和所述图像特征数据进行融合，得到所述融合特征数据，包括：对所述调整特征数据进行升维处理，得到升维后的调整特征数据；其中，所述升维后的调整特征数据的数据维度、与所述图像特征数据的数据维度相同；利用第四卷积核对所述升维后的调整特征数据进行卷积处理，得到目标调整特征数据；将所述目标调整特征数据和所述图像特征数据进行叠加，得到所述融合特征数据。 10.根据权利要求3 ‑9任一项所述的方法，其特征在于，多级特征提取处理包括：末级特征提取处理、以及非末级特征提取处理；所述融合特征数据包括：与所述末级特征提取处理对应的第一融合特征数据、以及与所述非末级特征提取处理对应的第二融合特征数据；所述基于所述融合特征数据进行解码处理，得到所述目标视频帧图像中与所述音频信号对应的发声对象在所述目标视频帧图像中的第一位置信息，包括：对所述末级特征提取处理对应的第一融合特征数据进行上采样，得到对所述末级特征提取处理对应的解码特征数据；以及对所述非末级特征提取处理对应的第二融合特征数据、以及与所述非末级特征提取对应的下一级特征去处理对应的解码特征数据进行融合，得到所述非末级特征提取处理对应的融合特征数据，并所述非末级特征提取处理对应的融合特征数据进行上采样，得到所述非末级特征提取处理对应的解码特征数据；基于所述非末级特征提取处理中的第一级特征提取处理对应的解码特征数据，得到所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息。 11.根据权利要求1 ‑10任一项所述的方法，其特征在于，还包括：基于所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视频帧图像中的第一位置信息，生成包括所述发声对象对应掩码的掩码视频帧图像。 12.根据权利要求1 ‑11任一项所述的方法，其特征在于，所述视频处理方法应用于预先权　利　要　求　书 2/4 页 3 CN 115019824 A 3

专利 视频处理方法、装置、计算机设备及可读存储介质

专利视频处理方法、装置、计算机设备及可读存储介质