(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210653764.5
(22)申请日 2022.06.09
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518064 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 权融威 张浩鑫 芦清林 刘威
(74)专利代理 机构 深圳市智圈知识产权代理事
务所(普通 合伙) 44351
专利代理师 林炮勤
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
视频处理方法、 装置、 存储介质及计算机设
备
(57)摘要
本申请公开了一种视频处理方法, 包括: 获
取视频数据及视频数据关联的文本数据进行模
态融合得到多模态特征; 基于时序网络生成多模
态特征对应的高时序分辨率特征; 根据幕分割点
预测网络对高时序分辨率特征进行幕分割点预
测, 得到每个时序位置为幕分割点的概率; 对高
时序分辨率特征进行池化操作得到低时序分辨
率特征; 根据幕完整性评估网络对低时序分辨率
特征进行幕完整性评估, 得到每个提名区间的幕
完整性评估分数; 结合每个时序位置为幕分割点
的概率与每个提名区间的幕完整性评估分数生
成视频数据对应的多个目标幕。 本申请应用人工
智能技术对幕分割点进行精确定位, 并结合提名
区域的幕完整性评估来抑制过分割, 有效提升幕
分割的精确度及效率。
权利要求书3页 说明书20页 附图8页
CN 115115975 A
2022.09.27
CN 115115975 A
1.一种视频处 理方法, 其特 征在于, 所述方法包括:
获取视频 数据及视频 数据关联的文本数据进行模态融合, 得到多模态特 征;
基于时序网络生成所述多模态特 征对应的高时序分辨 率特征;
根据幕分割点预测网络对所述高时序分辨率特征进行幕分割点预测, 得到每个时序位
置为幕分割点的概 率;
对所述高时序分辨 率特征进行池化操作, 得到低时序分辨 率特征;
根据幕完整性评估 网络对所述低时序分辨率特征进行幕完整性评估, 得到每个提名区
间的幕完整性评估分数;
结合所述每个时序位置为幕分割点的概率与所述每个提名区间的幕完整性评估分数,
生成所述视频 数据对应的多个目标幕。
2.根据权利要求1所述的方法, 其特征在于, 所述结合所述每个时序位置为幕分割点的
概率与所述每个提名区间的幕完整性评估分数, 生成所述视频数据对应的多个目标幕, 包
括:
获取所述每个提名区间对应的衰减系数;
基于每个时序位置为幕分割点的概率, 确定每个提名区间的区间端点位置为幕分割点
的概率;
基于所述衰减系数、 所述区间端点位置为幕分割点的概率以及所述幕完整性评估分
数, 确定所述每 个提名区间的预测分数;
根据所述每 个提名区间的预测分数, 确定多个预选幕;
对所述多个预选幕进行微调操作, 得到所述多个预选幕 对应的多个目标幕。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述多个预选幕进行微调操作, 得
到所述多个预选幕 对应的多个目标幕, 包括:
获取每个时序位置的边界修 正偏移量;
根据所述边界修正偏移量对所述多个预选幕进行微调操作, 得到所述多个预选幕对应
的多个目标幕。
4.根据权利要求1~3任一项所述的方法, 其特征在于, 所述模态融合由交叉注意力网
络执行, 所述交叉注意力网络, 所述时序网络, 所述幕分割点预测网络以及所述幕完整性评
估网络通过如下步骤训练得到:
获取训练数据集合, 所述训练数据集合包括视频训练特征、 文本训练特征、 分割点检测
标签、 边界修 正偏移量标签以及幕完整性评估标签;
获取预设注意力网络、 预设时序网络、 预设 分割网络以及预设评估网络;
通过所述训练数据集合对所述预设注意力网络、 所述预设时序网络、 所述预设分割 网
络以及所述预设评估网络进行端到端的网络联合训练, 直至所述预设注意力网络、 所述预
设时序网络、 所述预设分割网络以及所述预设评估网络构成的整个网络满足预设条件, 得
到训练后的交叉注意力网络、 时序网络、 幕分割点预测网络以及幕完整性评估网络 。
5.根据权利要求1所述的方法, 其特征在于, 所述幕分割点预测网络包括至少四个卷积
块, 所述根据幕分割点预测网络对所述高时序分辨率特征进行幕分割点预测, 得到每个时
序位置为幕分割点的概 率, 包括:
基于所述至少四个卷积块生成所述高时序分辨率特征对应的目标预测特征图, 其中,权 利 要 求 书 1/3 页
2
CN 115115975 A
2每个所述卷积块包括卷积层、 批归一化层和非线性层, 每个所述卷积块中的卷积核相同和
卷积步长相同;
基于所述目标预测特征图, 利用第 一激活函数计算出每个时序位置为幕分割点的概率
和每个时序位置的边界修 正偏移量。
6.根据权利要求5所述的方法, 其特征在于, 所述基于所述至少四个卷积块生成所述高
时序分辨 率特征对应的目标 预测特征图, 包括:
将所述高时序分辨率特征输入至第一卷积块进行第一卷积处理, 得到第一预测特征
图;
将所述第一预测特 征图输入至第二卷积块, 得到第二预测特 征图;
将所述第二预测特 征图输入至第三卷积块, 得到第三预测特 征图;
将所述第三预测特 征图输入至第四卷积块, 得到目标 预测特征图。
7.根据权利要求1所述的方法, 其特征在于, 所述根据幕完整性评估 网络对所述低时序
分辨率特征进行幕完整性评估, 得到每 个提名区间的幕完整性评估分数, 包括:
基于所述低时序分辨 率特征以及采样权 重矩阵, 确定提名特 征图;
对所述提名特征图进行 特征融合, 得到中间评估特 征图;
对所述中间评估特 征图进行 上采样, 得到目标评估特 征图;
基于所述目标评估特征图, 利用第 二激活函数计算出每个提名区间的幕完整性评估分
数。
8.根据权利要求7所述的方法, 其特征在于, 所述基于所述低时序分辨率特征以及采样
权重矩阵, 确定提名特 征图, 包括:
获取多个提名区间;
基于所述 提名区间生成采样权 重矩阵;
基于所述低时序分辨率特征和所述采样权重矩阵的点积, 确定所述多个提名区间对应
的提名特 征图。
9.根据权利要求8所述的方法, 其特征在于, 所述基于所述提名区间生成采样权重矩
阵, 包括:
对每个提名区间进行区间扩展, 得到扩展后的扩展提名区间;
在所述扩展提名区间中进行采样 操作, 得到多个采样点对应的采样权 重掩码;
基于所述多个采样权 重掩码确定采样权 重矩阵。
10.根据权利要求1所述的方法, 其特征在于, 所述获取视频数据及视频数据关联的文
本数据进行模态融合, 得到多模态特 征, 包括:
获取的视频 数据及视频 数据关联的文本数据;
基于视频特征提取器, 提取 所述视频 数据对应的视频 特征;
基于文本特 征提取器, 提取 所述文本数据对应的文本特 征;
基于所述视频 特征和所述文本特 征进行模态融合, 得到多模态特 征。
11.根据权利要求9所述的方法, 其特征在于, 所述基于所述视频特征和所述文本特征
进行模态融合, 得到多模态特 征, 包括:
获取位置编码;
基于位置编码分别计算出所述视频特征的视频中间特征和所述文本特征的文本中间权 利 要 求 书 2/3 页
3
CN 115115975 A
3
专利 视频处理方法、装置、存储介质及计算机设备
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:50:56上传分享