专利 视频分类方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210578522.4 (22)申请日 2022.05.25 (71)申请人北京明略昭辉科技有限公司地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人朱彦浩　胡郡郡　唐大闰　 (74)专利代理机构北京华夏泰和知识产权代理有限公司 1 1662 专利代理师石鸣宇 (51)Int.Cl. G06F 16/65(2019.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/40(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 25/57(2013.01) G10L 25/27(2013.01) (54)发明名称视频分类方法、装置、设备及介质 (57)摘要本申请涉及一种视频分类方法、装置、设备及介质，该方法包括：构建多层特征融合网络；提取目标视频中的图像特征集和音频特征集；利用瓶颈单元向量交替在多层特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层特征融合网络的图像特征融合单元输出的目标整体图像特征和最后一层特征融合网络的音频特征融合单元输出的目标整体音频特征；将目标整体图像特征和目标整体音频特征输入分类器，以确定目标视频的类别。本申请通过设置瓶颈单元向量在视频的图像特征和音频特征的融合过程中获得用于分类的重要特征信息，进行数据交互，解决了特征融合过程速度较慢且容易过拟合的问题。权利要求书2页说明书11页附图3页 CN 114896449 A 2022.08.12 CN 114896449 A 1.一种视频分类方法，其特征在于，包括：构建多层特征融合网络，其中，每一层所述特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取目标视频中的图像特征集和音频特征集，其中，所述图像特征集用于作为第一层所述特征融合网络中的所述图像特征融合单元的输入，所述音频特征集用于作为第一层所述特征融合网络中的所述音频特征融合单元的输入；利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音频特征；将所述目标整体图像特征和所述目标整体音频特征输入分类器，以确定所述目标视频的类别。 2.根据权利要求1所述的方法，其特征在于，所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习包括按照如下方式对第一层的所述特征融合网络进行图像特征和音频特征的联合学习：随机生成所述瓶颈单元向量和图像特征表征向量；将所述图像特征表征向量、所述图像特征集以及所述瓶颈单元向量进行拼接后输入第一层所述特征融合网络的所述图像特征融合单元；获取第一层所述特征融合网络的所述图像特征融合单元输出的新的所述瓶颈单元向量，并随机生成音频特征表征向量；将所述音频特征表征向量、所述音频特征集以及所述瓶颈单元向量进行拼接后输入第一层所述特征融合网络的所述音频特征融合单元，以利用所述瓶颈单元向量完成第一层所述特征融合网络的图像特征和音频特征的联合学习。 3.根据权利要求2所述的方法，其特征在于，所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习还包括：获取上一层所述特征融合网络的所述图像特征融合单元输出的新的所述图像特征表征向量、新的所述图像特征集以及所述音频特征融合单元输出的新的所述瓶颈单元向量；将所述图像特征表征向量、所述图像特征集以及所述音频特征融合单元进行拼接后输入当前层所述特征融合网络的所述图像特征融合单元；获取当前层所述图像特征融合单元输出的新的所述瓶颈单元向量、上一层所述音频特征融合单元输出的新的所述音频特征集以及新的所述音频特征表征向量；将所述音频特征表征向量、所述音频特征集以及所述瓶颈单元向量进行拼接后输入当前层所述音频特征融合单元，以完成当前层所述特征融合网络的图像特征和音频特征的联合学习。 4.根据权利要求2所述的方法，其特征在于，所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习之后，所述方法还包括按照如下方式得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音频特征：逐一完成每一层所述特征融合网络的联合学习，直至最后一层所述图像特征融合单元输出新的所述图像特征表征向量和最后一层所述音频特征融合单元输出新的所述音频特权　利　要　求　书 1/2 页 2 CN 114896449 A 2征表征向量时，将所述图像特征表征向量确定为所述目标整体图像特征，将所述音频特征表征向量确定为所述目标整体音频特征。 5.根据权利要求1所述的方法，其特征在于，所述提取目标视频中的图像特征集和音频特征集包括：提取所述目标视频的音频数据和图像数据；确定所述图像数据中的多个视频帧，并生成与多个所述视频帧对应的多个图像特征向量，其中，所述图像特征集包括多个所述图像特征向量；对所述音频数据进行特征提取，生成与多个所述视频帧对应的多个音频特征向量，其中，所述音频特征集包括多个所述音频特征向量。 6.根据权利要求5所述的方法，其特征在于，所述利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习还包括：在每一层的所述特征融合网络中的所述音频特征融合单元或所述图像特征融合单元进行融合学习之后，将获得的目标融合特征存储至所述瓶颈单元向量。 7.根据权利要求2所述的方法，其特征在于，在随机生成所述瓶颈单元向量之前，所述方法包括按照以下方式确定所述瓶颈单元向量的数量：获取所述图像特征集和/或所述音频特征集中的特征向量的数量值；确定多层所述特征融合网络当前所在网络环境的状态信息，并利用所述状态信息和所述数量值确定所述瓶颈单元向量的数量。 8.一种视频分类装置，其特征在于，包括：构建模块，用于构建多层特征融合网络，其中，每一层所述特征融合网络包括一个图像特征融合单元和一个音频特征融合单元；提取模块，用于提取目标视频中的图像特征集和音频特征集，其中，所述图像特征集用于作为第一层所述特征融合网络中的所述图像特征融合单元的输入，所述音频特征集用于作为第一层所述特征融合网络中的所述音频特征融合单元的输入；学习模块，用于利用瓶颈单元向量交替在多层所述特征融合网络中进行图像特征和音频特征的联合学习，得到最后一层所述特征融合网络的所述图像特征融合单元输出的目标整体图像特征和最后一层所述特征融合网络的所述音频特征融合单元输出的目标整体音频特征；确定模块，用于将所述目标整体图像特征和所述目标整体音频特征输入分类器，以确定所述目标视频的类别。 9.一种电子设备，包括存储器、处理器、通信接口及通信总线，所述存储器中存储有可在所述处理器上运行的计算机程序，所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7 任一项所述方法的步骤。 10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。权　利　要　求　书 2/2 页 3 CN 114896449 A 3

专利 视频分类方法、装置、设备及介质

专利视频分类方法、装置、设备及介质