专利 视频识别方法及其装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210655418.0 (22)申请日 2022.06.10 (71)申请人京东科技控股股份有限公司地址 100176 北京市北京经济技术开发区科创十一街18号C座2层2 21室 (72)发明人邱钊凡　姚霆　梅涛　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称视频识别方法及其装置 (57)摘要本申请提出了一种视频识别方法及其装置，涉及图像处理领域，通过获取待识别视频中的视频帧的初始特征图；从初始特征图开始依次进行 N次特征融合处理，第i次特征融合处理所处理的特征图i为第i ‑1次特征融合处理所输出的目标特征图i‑1， i和N均为正整数， 1＜ i≤N；特征融合处理包括：在每个特征提取通道上对特征图i进行在特征维度上的特征元素混合以得到混合特征元素，并对混合特征元素进行全特征维度的融合，对融合后特征图i进行跨通道感知得到目标特征图i；基于第N次特征融合处理输出的目标特征图N获取待识别视频的目标类别。本申请在三个独立特征维度分别进行特征元素混合，降低计算复杂度与参数数量，且使准确度与计算效率达到平衡。权利要求书3页说明书11页附图4页 CN 114973096 A 2022.08.30 CN 114973096 A 1.一种视频识别方法，其特征在于，包括：获取待识别视频中的视频帧的初始特征图；从所述初始特征图开始，依次进行N 次特征融合处理，其中，第 i次特征融合处理所处理的特征图i为第i ‑1次特征融合处理所输出的目标特征图i ‑1，所述i和N均为正整数， 1＜i≤ N；所述特征融合处理包括：在每个特征提取通道上对所述特征图i进行在特征维度上的特征元素混合，以得到混合特征元素，并对所述混合特征元素进行全特征维度的融合，得到融合后特征图i，对所述融合后特征图i进行跨通道感知，得到目标特征图i；基于第N次特征融合处理输出的目标特征图N，对所述待识别视频进行类别识别，以获取所述待识别视频的目标类别。 2.根据权利要求1所述的方法，其特征在于，所述对所述特征图i进行在特征维度上的特征元素混合，以得到混合特征元素，包括：对所述特征图i中的高度特征元素在高度维度上进行元素混合，以得到混合高度特征元素；对所述特征图i中的宽度特征元素在宽度维度上进行元素混合，以得到混合宽度特征元素；对所述特征图i中的时间特征元素在时间维度上进行元素混合，以得到混合时间特征元素。 3.根据权利要求2所述的方法，其特征在于，所述对所述特征图i中的时间特征元素在时间维度上进行元素混合，以得到混合时间特征元素，包括：获取所述特征图i在时间维度上的时间特征元素，并对所述时间特征元素进行分组；对每个所述分组内部的时间特征元素进行混合，以获得混合时间特征元素。 4.根据权利要求3所述的方法，其特征在于，所述对所述时间特征元素进行分组，包括：对所述时间特征元素进行均匀分组，以获取所述时间特征元素的第一分组。 5.根据权利要求3所述的方法，其特征在于，所述对所述时间特征元素进行分组，包括：对所述时间特征元素进行离散采样，以获取所述时间特征元素的第二分组。 6.根据权利要求3所述的方法，其特征在于，所述对所述时间特征元素进行分组，包括：在所述时间特征元素进行均匀分组的基础上，对所述时间特征元素进行窗口平移，以获取所述时间特征元素的第三分组。 7.根据权利要求3所述的方法，其特征在于，所述对所述时间特征元素进行分组，包括：从第一个时间特征元素开始，将每个所述时间特征元素与该时间特征元素之后连续的预设个数的时间特征元素确定为一组，以获取所述时间特征元素的第四分组。 8.根据权利要求1 ‑7中任一项所述的方法，其特征在于，所述获取待识别视频中的视频帧的初始特征图，包括：将待识别视频中的视频帧向特征空间投影，以获取所述初始特征图。 9.根据权利要求1所述的方法，其特征在于，所述方法包括：将所述待识别视频中的视频帧输入分类识别模型中，由所述分类识别模型中的三维投影层对所述视频帧进行投影，得到所述初始特征图；由所述分类识别模型中的N个三维多层感知机网络，从所述初始特征图开始依次进行N权　利　要　求　书 1/3 页 2 CN 114973096 A 2次所述特征融合处理，以输出所述目标特征图N；其中，所述N个三维多层感知机网络串行连接，所述第一个三维多层感知机网络的输入为初始特征图，第i个三维多层感知机网络输入的特征图i为第i ‑1个三维多层感知机网络所输出的目标特征图i‑1，所述i和N均为正整数， 1＜i≤N；将所述目标特征图N输入所述分类识别模型中的平均池化层以对目标特征图N进行平均池化操作，并将进行平均池化操作后获取的均值特征图输入所述分类识别模型中的全连接层，以获取由所述全连接层输出的所述待识别视频的目标类别。 10.根据权利要求9所述的方法，其特征在于，所述三维多层感知机网络包括特征元素混合单元和跨通道感知单元，其中：由所述特征元素混合单元对所述特征图i进行在特征维度上的特征元素混合，以得到混合特征元素，并对所述混合特征元素进行全特征维度的融合，得到融合后特征图i；由所述跨通道感知单元对所述融合后特征图i进行跨通道感知，输出目标特征图i。 11.根据权利要求10所述的方法，其特征在于，所述特征元素混合单元，包括：高度特征元素混合子单元、宽度特征元素混合子单元和时间特征元素混合子单元；所述方法还包括：由所述高度特征元素混合子单元对所述特征图i中的高度特征元素在高度维度上进行元素混合，以得到混合高度特征元素；由所述宽度特征元素混合子单元对所述特征图i中的宽度特征元素在宽度维度上进行元素混合，以得到混合宽度特征元素；由所述时间特征元素混合子单元对所述特征图i中的时间特征元素在时间维度上进行元素混合，以得到混合时间特征元素。 12.根据权利要求9 ‑11中任一项所述的方法，其特征在于，每相邻两个所述三维多层感知机网络之间包括一个过渡层，将所述目标特征图i输入所述过渡层中，由所述过渡层对所述目标特征图i增加特征提取通道的数量，并降低所述目标特征图i的分辨率。 13.一种视频识别装置，其特征在于，包括：获取模块，用于获取待识别视频中的视频帧的初始特征图；处理模块，用于从所述初始特征图开始，依次进行N次特征融合处理，其中，第i次特征融合处理所处理的特征图i为第i ‑1次特征融合处理所输出的目标特征图i ‑1，所述i和N均为正整数， 1＜i≤N；所述特征融合处理包括：在每个特征提取通道上对所述特征图i进行在特征维度上的特征元素混合，以得到混合特征元素，并对所述混合特征元素进行全特征维度的融合，得到融合后特征图i，对所述融合后特征图i进行跨通道感知，得到目标特征图i；识别模块，用于基于第N次特征融合处理输出的目标特征图N，对所述待识别视频进行类别识别，以获取所述待识别视频的目标类别。 14.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑12中任一项所述的方法。 15.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于权　利　要　求　书 2/3 页 3 CN 114973096 A 3

专利 视频识别方法及其装置

专利视频识别方法及其装置