(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210583664.X
(22)申请日 2022.05.25
(71)申请人 上海商汤智能科技有限公司
地址 200233 上海市徐汇区桂平路391号3
号楼1605A室
(72)发明人 钟怡然 周金星 王建元 张佳一
孙伟轩
(74)专利代理 机构 北京中知恒瑞知识产权代理
事务所(普通 合伙) 11889
专利代理师 袁忠林
(51)Int.Cl.
G10L 25/18(2013.01)
G10L 25/30(2013.01)
H04N 19/182(2014.01)
G06V 10/40(2022.01)G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
视频处理方法、 装置、 计算机设备及可读存
储介质
(57)摘要
本公开提供了一种视频处理方法、 装置、 计
算机设备及可读存储介质, 其中, 该方法包括: 确
定待处理视频中的目标视频帧图像、 以及与所述
目标视频帧图像对应的目标音频信号; 对所述目
标视频帧图像进行第一编码处理, 得到图像特征
数据; 以及对 所述目标音 频信号进行第二编码处
理, 得到音频特征数据; 对所述图像特征数据以
及所述音频特征数据进行特征融合处理, 得到融
合特征数据; 基于所述融合特征数据进行解码处
理, 得到所述目标视频帧图像中与所述音频信号
对应的发声对象的像素点在所述目标视频帧图
像中的第一位置信息。 本公开实施例可以提高对
待处理视频中发声 对象的定位精准度。
权利要求书4页 说明书23页 附图5页
CN 115019824 A
2022.09.06
CN 115019824 A
1.一种视频处 理方法, 其特 征在于, 包括:
确定待处理视频中的目标视频帧图像、 以及与 所述目标视频帧图像对应的目标音频信
号;
对所述目标视频帧图像进行第一编码处理, 得到 图像特征数据; 以及对所述目标音频
信号进行第二编码处 理, 得到音频 特征数据;
对所述图像特 征数据以及所述音频 特征数据进行 特征融合处 理, 得到融合特 征数据;
基于所述融合特征数据进行解码处理, 得到所述目标视频帧图像中与 所述音频信号对
应的发声对象的像素点在所述目标视频帧图像中的第一 位置信息 。
2.根据权利要求1所述的方法, 其特征在于, 所述确定待处理视频中的目标视频帧图
像、 以及与所述目标视频帧图像对应的目标音频信号, 包括:
获取所述待处理视频、 以及与所述待处理视频对应的待处理音频信号, 并将所述待处
理视频划分为多个待处 理子视频;
按照与所述待处理子视频对应的划分方式, 将所述待处理音频信号划分为与多个所述
待处理子视频分别对应的目标音频信号, 以及对多个所述待处理子视频分别进行抽帧处
理, 得到多个所述待处 理子视频分别对应的目标视频帧图像。
3.根据权利要求1所述的方法, 其特征在于, 所述对所述目标视频帧图像进行第 一编码
处理, 得到图像特 征数据, 包括:
对所述目标视频帧图像进行多级特征提取处理, 得到多级特征提取处理 的分别对应的
中间图像特 征数据;
针对多级特征提取中的每级特征提取, 对每级特征提取处理对应的中间图像特征数据
进行多个采样率的空洞卷积并行采样, 得到所述目标视频帧图像对应的图像特 征数据。
4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 对所述目标音频信号进行第二编
码处理, 得到音频 特征数据, 包括:
将所述目标音频信号 转换为频谱数据;
对所述频谱数据进行 特征提取处 理, 得到所述音频 特征数据。
5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述对所述图像特征数据以及所
述音频特征数据进行 特征融合处 理, 得到融合特 征数据, 包括:
对所述音频特征数据进行尺寸转化处理, 得到尺寸与 所述图像特征数据匹配的转化音
频特征数据;
确定所述 转换音频 特征数据、 以及所述图像特 征数据之间的相似度;
基于所述相似度, 对所述图像特 征数据进行调整处 理, 得到所述融合特 征数据。
6.根据权利要求5所述的方法, 其特征在于, 所述对所述音频特征数据进行尺寸转化处
理, 得到尺寸与所述图像特 征数据匹配的转 化音频特征数据, 包括:
基于所述图像特征数据的数据通道数, 对所述音频特征数据进行线性变换处理, 得到
数据通道数与所述图像特 征数据一致的中间音频 特征数据;
基于所述图像特征数据的高度、 以及宽度, 对所述中间音频特征数据进行空间上的重
复处理, 得到所述 转化音频特征数据。
7.根据权利要求5或6所述的方法, 其特征在于, 所述确定所述转换音频特征数据、 以及
所述图像特 征数据之间的相似度, 包括:权 利 要 求 书 1/4 页
2
CN 115019824 A
2利用第一卷积核对所述图像特 征数据进行 卷积处理, 得到第一卷积图像特 征数据;
以及, 利用第二卷积核对所述转换音频特征数据进行卷积处理, 得到第一卷积转换音
频特征数据;
分别对所述第 一卷积图像特征数据和所述第 一卷积转换音频特征数据进行降维处理,
得到第二卷积图像特 征数据以及第二卷积转换音频 特征数据;
对所述第二卷积图像特征数据以及所述第 二卷积转换音频特征数据进行点乘 处理, 得
到所述相似度。
8.根据权利要求5 ‑7任一项所述的方法, 其特征在于, 所述基于所述相似度, 对所述图
像特征数据进行调整处 理, 得到所述融合特 征数据, 包括:
利用第三卷积核对所述图像特征数据进行卷积处理, 得到第三卷积图像特征数据, 并
对所述第三卷积图像特 征数据进行降维处 理, 得到第四卷积图像特 征数据;
将所述第四卷积图像特征数据和所述相似度进行点乘 处理后, 得到与 所述图像特征数
据对应的调整特 征数据;
将所述调整特 征数据和所述图像特 征数据进行融合, 得到所述融合特 征数据。
9.根据权利要求8所述的方法, 其特征在于, 所述将所述调整特征数据和所述图像特征
数据进行融合, 得到所述融合特 征数据, 包括:
对所述调整特征数据进行升维处理, 得到升维后的调整特征数据; 其中, 所述升维后的
调整特征数据的数据维度、 与所述图像特 征数据的数据维度相同;
利用第四卷积核对所述升维后的调整特征数据进行卷积处理, 得到目标调整特征数
据;
将所述目标调整特 征数据和所述图像特 征数据进行叠加, 得到所述融合特 征数据。
10.根据权利要求3 ‑9任一项所述的方法, 其特征在于, 多级特征提取处理包括: 末级特
征提取处理、 以及非末级 特征提取处理; 所述融合特征数据包括: 与所述末级 特征提取 处理
对应的第一融合特 征数据、 以及与所述非末级特 征提取处 理对应的第二融合特 征数据;
所述基于所述融合特征数据进行解码处理, 得到所述目标视频帧图像中与 所述音频信
号对应的发声对象在所述目标视频帧图像中的第一 位置信息, 包括:
对所述末级特征提取处理对应的第 一融合特征数据进行上采样, 得到对所述末级特征
提取处理对应的解码特 征数据; 以及
对所述非末级特征提取处理对应的第 二融合特征数据、 以及与 所述非末级特征提取对
应的下一级特征去处理对应的解码特征数据进 行融合, 得到所述 非末级特征提取 处理对应
的融合特征数据, 并所述非末级特征提取处理对应的融合特征数据进行上采样, 得到所述
非末级特 征提取处 理对应的解码特 征数据;
基于所述非末级特征提取处理中的第 一级特征提取处理对应的解码特征数据, 得到所
述目标视频帧图像中与所述音频信号对应的发声对 象的像素点在所述目标视频帧图像中
的第一位置信息 。
11.根据权利要求1 ‑10任一项所述的方法, 其特 征在于, 还 包括:
基于所述目标视频帧图像中与所述音频信号对应的发声对象的像素点在所述目标视
频帧图像中的第一 位置信息, 生成包括所述发声对象对应掩码的掩码视频帧图像。
12.根据权利要求1 ‑11任一项所述的方法, 其特征在于, 所述视频处理方法应用于预先权 利 要 求 书 2/4 页
3
CN 115019824 A
3
专利 视频处理方法、装置、计算机设备及可读存储介质
文档预览
中文文档
33 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:50:57上传分享