说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210655418.0 (22)申请日 2022.06.10 (71)申请人 京东科技控股 股份有限公司 地址 100176 北京市北京经济技 术开发区 科创十一 街18号C座2层2 21室 (72)发明人 邱钊凡 姚霆 梅涛  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 视频识别方法及其装置 (57)摘要 本申请提出了一种视频识别方法及其装置, 涉及图像处理领域, 通过 获取待识别视频中的视 频帧的初始特征图; 从初始特征图开始依次进行 N次特征融合处理, 第i次特征融合处理所处理的 特征图i为第i ‑1次特征融合处理所输出的目标 特征图i‑1, i和N均为正整数, 1< i≤N; 特征融合 处理包括: 在每个特征提取通道上对特征图i进 行在特征维度上的特征元素混合 以得到混合特 征元素, 并对混合特征元素进行全 特征维度的融 合, 对融合后特征图i进行跨通道感知得到目标 特征图i; 基于第N次特征融合处理输出的目标特 征图N获取待识别视频的目标类别。 本申请在三 个独立特征维度分别进行特征元素混合, 降低计 算复杂度与参数数量, 且使准确度与计算效率达 到平衡。 权利要求书3页 说明书11页 附图4页 CN 114973096 A 2022.08.30 CN 114973096 A 1.一种视频识别方法, 其特 征在于, 包括: 获取待识别视频中的视频帧的初始特 征图; 从所述初始特征图开始, 依次进行N 次特征融合处理, 其中, 第 i次特征融合处理所处理 的特征图i为第i ‑1次特征融合处理所输出的目标特征图i ‑1, 所述i和N均为正整数, 1<i≤ N; 所述特征融合处理包括: 在每个特征提取通道上对所述特征图i进行在特征维度上的 特征元素混合, 以得到 混合特征元素, 并对所述混合特征元素进 行全特征维度的融合, 得到 融合后特 征图i, 对所述融合后特 征图i进行跨 通道感知, 得到目标 特征图i; 基于第N次特征融合处理输出的目标特征图N, 对所述待识别视频进行类别识别, 以获 取所述待识别视频的目标类别。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述特征图i进行在特征维度上的 特征元素混合, 以得到混合特 征元素, 包括: 对所述特征图i中的高度特征元素在高度维度上进行元素混合, 以得到混合高度特征 元素; 对所述特征图i中的宽度特征元素在宽度维度上进行元素混合, 以得到混合宽度特征 元素; 对所述特征图i中的时间特征元素在时间维度上进行元素混合, 以得到混合时间特征 元素。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述特征图i中的时间特征元素在 时间维度上进行 元素混合, 以得到混合时间特 征元素, 包括: 获取所述特征图i在时间维度上的时间特 征元素, 并对所述时间特 征元素进行分组; 对每个所述分组内部的时间特 征元素进行混合, 以获得混合时间特 征元素。 4.根据权利要求3所述的方法, 其特 征在于, 所述对所述时间特 征元素进行分组, 包括: 对所述时间特 征元素进行均匀分组, 以获取 所述时间特 征元素的第一分组。 5.根据权利要求3所述的方法, 其特 征在于, 所述对所述时间特 征元素进行分组, 包括: 对所述时间特 征元素进行离 散采样, 以获取 所述时间特 征元素的第二分组。 6.根据权利要求3所述的方法, 其特 征在于, 所述对所述时间特 征元素进行分组, 包括: 在所述时间特征元素进行均匀分组的基础上, 对所述时间特征元素进行窗口平移, 以 获取所述时间特 征元素的第三分组。 7.根据权利要求3所述的方法, 其特 征在于, 所述对所述时间特 征元素进行分组, 包括: 从第一个时间特征元素开始, 将每个所述 时间特征元素与该时间特征元素之后连续的 预设个数的时间特 征元素确定为 一组, 以获取 所述时间特 征元素的第四分组。 8.根据权利要求1 ‑7中任一项所述的方法, 其特征在于, 所述获取待识别视频中的视频 帧的初始特 征图, 包括: 将待识别视频中的视频帧 向特征空间投影, 以获取 所述初始特 征图。 9.根据权利要求1所述的方法, 其特 征在于, 所述方法包括: 将所述待识别 视频中的视频帧输入分类识别模型中, 由所述分类识别模型中的三维投 影层对所述视频帧进行投影, 得到所述初始特 征图; 由所述分类识别模型中的N个三维多层感知机网络, 从所述初始特征图开始依次进行N权 利 要 求 书 1/3 页 2 CN 114973096 A 2次所述特 征融合处 理, 以输出 所述目标 特征图N; 其中, 所述N个三维多层感知机网络串行连接, 所述第 一个三维多层感知机网络的输入 为初始特征图, 第i个三维多层感知机网络输入的特征图i为第i ‑1个三维多层感知机网络 所输出的目标 特征图i‑1, 所述i和N均为 正整数, 1<i≤N; 将所述目标特征图N输入所述分类识别模型中的平均池化层以对目标特征图N进行平 均池化操作, 并将进 行平均池化操作后获取的均值特征图输入所述分类识别模型中的全连 接层, 以获取由所述全连接层输出的所述待识别视频的目标类别。 10.根据权利要求9所述的方法, 其特征在于, 所述三维多层感知机网络包括特征元素 混合单元和跨通道感知单 元, 其中: 由所述特征元素混合单元对所述特征图i进行在特征维度上的特征元素混合, 以得到 混合特征元素, 并对所述混合特 征元素进行全特 征维度的融合, 得到融合后特 征图i; 由所述跨通道感知单 元对所述融合后特 征图i进行跨 通道感知, 输出目标 特征图i。 11.根据权利要求10所述的方法, 其特征在于, 所述特征元素混合单元, 包括: 高度 特征 元素混合子单 元、 宽度特 征元素混合子单 元和时间特 征元素混合子单 元; 所述方法还 包括: 由所述高度特征元素混合子单元对所述特征图i中的高度 特征元素在高度维度 上进行 元素混合, 以得到混合高度特 征元素; 由所述宽度特征元素混合子单元对所述特征图i中的宽度 特征元素在宽度维度 上进行 元素混合, 以得到混合宽度特 征元素; 由所述时间特征元素混合子单元对所述特征图i中的时间特征元素在时间维度 上进行 元素混合, 以得到混合时间特 征元素。 12.根据权利要求9 ‑11中任一项所述的方法, 其特征在于, 每相邻 两个所述三维多层感 知机网络之间包括一个过渡层, 将所述目标特征图i输入所述过渡层中, 由所述过渡层 对所 述目标特征图i增加特征提取通道的数量, 并降低所述目标 特征图i的分辨 率。 13.一种视频识别装置, 其特 征在于, 包括: 获取模块, 用于获取待识别视频中的视频帧的初始特 征图; 处理模块, 用于从所述初始特征图开始, 依次进行N次特征融合处理, 其中, 第i次特征 融合处理所处理的特征图i为第i ‑1次特征融合处理所输出的目标特征图i ‑1, 所述i和N均 为正整数, 1<i≤N; 所述特征融合处理包括: 在每个特征提取通道上对所述特征图i进行在特征维度上的 特征元素混合, 以得到 混合特征元素, 并对所述混合特征元素进 行全特征维度的融合, 得到 融合后特 征图i, 对所述融合后特 征图i进行跨 通道感知, 得到目标 特征图i; 识别模块, 用于基于第N次特征融合处理输出的目标特征图N, 对所述待识别视频进行 类别识别, 以获取 所述待识别视频的目标类别。 14.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑12中任一项所述的方法。 15.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于权 利 要 求 书 2/3 页 3 CN 114973096 A 3

.PDF文档 专利 视频识别方法及其装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频识别方法及其装置 第 1 页 专利 视频识别方法及其装置 第 2 页 专利 视频识别方法及其装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:51:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。