(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210578522.4
(22)申请日 2022.05.25
(71)申请人 北京明略昭辉科技有限公司
地址 100098 北京市海淀区北三环西路25
号27号楼二层2020室
(72)发明人 朱彦浩 胡郡郡 唐大闰
(74)专利代理 机构 北京华夏泰和知识产权代理
有限公司 1 1662
专利代理师 石鸣宇
(51)Int.Cl.
G06F 16/65(2019.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/40(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G10L 25/57(2013.01)
G10L 25/27(2013.01)
(54)发明名称
视频分类方法、 装置、 设备及 介质
(57)摘要
本申请涉及一种视频分类方法、 装置、 设备
及介质, 该方法包括: 构建多层特征融合网络; 提
取目标视频中的图像特征集和音频特征集; 利用
瓶颈单元向量交替在多层特征融合网络中进行
图像特征和音频特征的联合学习, 得到最后一层
特征融合网络的图像特征融合单元输出的目标
整体图像特征和最后一层特征融合网络的音频
特征融合单元输出的目标整体音频特征; 将目标
整体图像特征和目标整体音 频特征输入分类器,
以确定目标视频的类别。 本申请通过设置瓶颈单
元向量在视频的图像特征和音频特征的融合过
程中获得用于分类的重要特征信息, 进行数据交
互, 解决了特征融合过程速度较慢且容易过拟合
的问题。
权利要求书2页 说明书11页 附图3页
CN 114896449 A
2022.08.12
CN 114896449 A
1.一种视频分类方法, 其特 征在于, 包括:
构建多层特征融合网络, 其中, 每一层所述特征融合网络包括一个图像特征融合单元
和一个音频 特征融合单 元;
提取目标视频中的图像特征集和音频特征集, 其中, 所述图像特征集用于作为第一层
所述特征融合网络中的所述图像特征融合单元的输入, 所述音频特征集用于作为第一层所
述特征融合网络中的所述音频 特征融合单 元的输入;
利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合
学习, 得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征
和最后一层所述特 征融合网络的所述音频 特征融合单 元输出的目标整体音频 特征;
将所述目标整体图像特征和所述目标整体音频特征输入分类器, 以确定所述目标视频
的类别。
2.根据权利要求1所述的方法, 其特征在于, 所述利用瓶颈单元向量交替在多层所述特
征融合网络中进行图像特征和音频特征的联合学习包括按照如下方式对第一层的所述特
征融合网络进行图像特 征和音频 特征的联合学习:
随机生成所述 瓶颈单元向量和图像特 征表征向量;
将所述图像特征表征向量、 所述图像特征集以及所述瓶颈单元向量进行拼接后输入第
一层所述特 征融合网络的所述图像特 征融合单 元;
获取第一层所述特征融合网络的所述图像特征融合单元输出的新的所述瓶颈单元向
量, 并随机生成音频 特征表征向量;
将所述音频特征表征向量、 所述音频特征集以及所述瓶颈单元向量进行拼接后输入第
一层所述特征融合网络的所述音频特征融合单元, 以利用所述瓶颈单元向量完成第一层所
述特征融合网络的图像特 征和音频 特征的联合学习。
3.根据权利要求2所述的方法, 其特征在于, 所述利用瓶颈单元向量交替在多层所述特
征融合网络中进行图像特 征和音频 特征的联合学习还 包括:
获取上一层所述特征融合网络的所述图像特征融合单元输出的新的所述图像特征表
征向量、 新的所述图像特 征集以及所述音频 特征融合单 元输出的新的所述 瓶颈单元向量;
将所述图像特征表征向量、 所述图像特征集以及所述音频特征融合单元进行拼接后输
入当前层所述特 征融合网络的所述图像特 征融合单 元;
获取当前层所述图像特征融合单元输出的新的所述瓶颈单元向量、 上一层所述音频特
征融合单 元输出的新的所述音频 特征集以及新的所述音频 特征表征向量;
将所述音频特征表征向量、 所述音频特征集以及所述瓶颈单元向量进行拼接后输入当
前层所述音频特征融合单元, 以完成当前层所述特征融合网络的图像特征和音频特征的联
合学习。
4.根据权利要求2所述的方法, 其特征在于, 所述利用瓶颈单元向量交替在多层所述特
征融合网络中进 行图像特征和音频特征的联合学习之后, 所述方法还包括按照如下方式得
到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和 最后
一层所述特 征融合网络的所述音频 特征融合单 元输出的目标整体音频 特征:
逐一完成每一层所述特征融合网络的联合学习, 直至最后 一层所述图像特征融合单元
输出新的所述图像特征表征向量和 最后一层所述音频特征融合单元输出新的所述音频特权 利 要 求 书 1/2 页
2
CN 114896449 A
2征表征向量时, 将所述图像特征表征向量确定为所述 目标整体图像特征, 将所述音频特征
表征向量确定为所述目标整体音频 特征。
5.根据权利要求1所述的方法, 其特征在于, 所述提取目标视频中的图像特征集和音频
特征集包括:
提取所述目标视频的音频 数据和图像数据;
确定所述图像数据中的多个视频帧, 并生成与多个所述视频帧对应的多个图像特征向
量, 其中, 所述图像特 征集包括多个所述图像特 征向量;
对所述音频数据进行特征提取, 生成与多个所述视频帧对应的多个音频特征向量, 其
中, 所述音频 特征集包括多个所述音频 特征向量。
6.根据权利要求5所述的方法, 其特征在于, 所述利用瓶颈单元向量交替在多层所述特
征融合网络中进行图像特 征和音频 特征的联合学习还 包括:
在每一层的所述特征融合网络中的所述音频特征融合单元或所述图像特征融合单元
进行融合学习之后, 将获得的目标融合特 征存储至所述 瓶颈单元向量。
7.根据权利要求2所述的方法, 其特征在于, 在随机生成所述瓶颈单元向量之前, 所述
方法包括按照以下 方式确定所述 瓶颈单元向量的数量:
获取所述图像特 征集和/或所述音频 特征集中的特 征向量的数量 值;
确定多层所述特征融合网络当前所在网络环境的状态信 息, 并利用所述状态信 息和所
述数量值确定所述 瓶颈单元向量的数量。
8.一种视频分类装置, 其特 征在于, 包括:
构建模块, 用于构建多层特征融合网络, 其中, 每一层所述特征融合网络包括一个图像
特征融合单 元和一个音频 特征融合单 元;
提取模块, 用于提取目标视频中的图像特征集和音频特征集, 其中, 所述图像特征集用
于作为第一层所述特征融合网络中的所述图像特征融合单元的输入, 所述音频特征集用于
作为第一层所述特 征融合网络中的所述音频 特征融合单 元的输入;
学习模块, 用于利用瓶颈单元向量交替在多层所述特征融合网络 中进行图像特征和音
频特征的联合学习, 得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标
整体图像特征和 最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音
频特征;
确定模块, 用于将所述目标整体图像特征和所述目标整体音频特征输入分类器, 以确
定所述目标视频的类别。
9.一种电子设备, 包括存储器、 处理器、 通信接口及通信总线, 所述存储器中存储有可
在所述处理器上运行 的计算机程序, 所述存储器、 所述处理器通过所述通信总线和所述通
信接口进行通信, 其特征在于, 所述处理器执行所述计算机程序时实现上述权利要求1至7
任一项所述方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质, 其特征在于, 所述
程序代码使所述处 理器执行所述权利要求1至7任一所述方法。权 利 要 求 书 2/2 页
3
CN 114896449 A
3
专利 视频分类方法、装置、设备及介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:50:54上传分享