(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210630186.3
(22)申请日 2022.06.06
(71)申请人 京东科技信息技 术有限公司
地址 100176 北京市大兴区北京经济技 术
开发区科创十一街18号院2号楼6层
601
(72)发明人 杨一博 徐洋洋
(74)专利代理 机构 中国贸促会专利商标事务所
有限公司 1 1038
专利代理师 方亮
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06V 10/84(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
视频动作识别模型的训练、 识别方法、 装置
以及介质
(57)摘要
本公开提供了一种视频动作识别模型的训
练方法、 视频动作识别方法、 装置以及存储介质,
涉及计算机技术领域, 其中的训练方法包括: 使
用残差注 意力网络模型并基于样 本帧特征信息,
获得样本帧空间特征信息; 根据 样本帧特征信息
和样本帧空间特征信息生成样本帧融合特征信
息, 并使用隐马尔可夫网络模型获得样本帧时序
特征信息; 利用融合模型进行融合以及识别处
理, 获得动作类别; 根据总体损失函数对残差注
意力网络模型、 隐马尔可夫网络模型进行调整。
本公开的方法、 装置以及存储介质, 提供包括残
差注意力网络模型和隐马尔可夫网络模型的双
流耦合网络模 型, 可以实现视频动作的时空特征
融合, 能够提升视频动作识别中对于时空信息提
取和有效表征。
权利要求书4页 说明书12页 附图6页
CN 114863570 A
2022.08.05
CN 114863570 A
1.一种视频动作识别模型的训练方法, 其中, 视频动作识别模型包括: 残差注意力网络
模型、 隐马尔可 夫网络模型和融合模型; 所述方法包括:
使用所述残差注意力网络模型并基于与视频样本相对应的样本帧特征信 息, 获得与 所
述视频样本相对应的样本帧空间特 征信息;
根据所述样本帧特征信 息和所述样本帧空间特征信 息生成样本帧融合特征信 息, 使用
所述隐马尔可夫网络模型并基于所述样本帧融合特征信息, 获得与所述视频样本相对应的
样本帧时序特 征信息;
利用所述融合模型对所述样本帧空间特征信息和所述样本帧时序特征信息进行融合
以及识别处 理, 获得与所述视频样本相对应的动作类别;
根据与所述视频动作识别模型相对应的总体损 失函数, 对所述残差注意力网络模型、
所述隐马尔可 夫网络模型进行调整。
2.如权利要求1所述的方法, 还 包括:
构建与所述残差注意力网络模型相对应的第一损失函数;
构建与所述隐马尔可 夫网络模型相对应的第二损失函数;
基于所述第一损 失函数、 所述第二损 失函数以及对应的平衡系数, 生成所述总体损 失
函数。
3.如权利要求2所述的方法, 所述构建与所述隐马尔可夫网络模型相对应的第二损失
函数包括:
确定所述隐马尔可夫网络模型对于所述样本帧融合特征信息进行处理的后验概率信
息;
基于所述后验概 率信息生成目标函数;
根据所述目标函数构建所述第二损失函数;
其中, 所述第 二损失函数用于表征所述隐马尔可夫网络模型的参数值使所述目标函数
为最小值时的参数值。
4.如权利要求1所述的方法, 其中, 所述残差注意力网络模型包括: 不变分支子模型和
变体分支子模型; 所述使用所述残差注意力网络模型并基于与视频样本相对应的样本帧特
征信息, 获得与所述视频样本相对应的样本帧空间特 征信息包括:
使用所述不变分支子模型并基于所述样本帧特征信 息, 获得与 所述视频样本相对应的
不变分支特 征信息;
使用所述变体分支子模型并基于所述样本帧特征信 息, 获得与 所述视频样本相对应的
变体分支特 征信息;
使用第一激活函数并基于所述不变分支特征信 息和所述变体分支特征信 息, 生成所述
样本帧空间特 征信息。
5.如权利 要求4所述的方法, 其中, 所述不变分支子模型包括: DW卷积层和 PW卷积层; 使
用所述不变分支子模型并基于所述样本帧特征信息, 获得与所述视频样本相对应的不变分
支特征信息包括:
使用所述DW卷积层并基于所述样本帧特 征信息, 获得第一特 征信息;
将所述第一特 征信息输入所述PW卷积层, 输出 所述不变分支特 征信息。
6.如权利要求4所述的方法, 其中, 所述变体分支子模型包括: 下采样层、 上采样层、 变权 利 要 求 书 1/4 页
2
CN 114863570 A
2体分支卷积层; 使用所述变体分支子模型并基于所述样本帧特征信息, 获得与所述视频样
本相对应的变 体分支特 征信息包括:
使用所述下采样层并基于所述样本帧特 征信息, 获得 下采样特 征信息;
使用所述上采样层并基于所述下采样特征信息和与所述样本帧特征信息相对应的残
差信息, 获得 上采样特 征信息;
使用所述变 体分支卷积层并基于所述上采样特 征信息, 获得 卷积特征信息;
使用第二激活函数并基于所述卷积特 征信息, 生成所述变 体分支特 征信息。
7.如权利要求1所述的方法, 所述使用所述隐马尔可夫网络模型并基于所述样本帧融
合特征信息, 获得与所述视频样本相对应的样本帧时序特 征信息包括:
使用所述隐马尔可夫网络模型对所述样本帧融合特征信 息进行时序特征分析, 生成与
所述视频样本相对应的样本帧特 征随机向量序列;
使用所述隐马尔可夫网络模型并基于所述样本帧特征随机向量序列, 获得所述样本帧
时序特征信息。
8.如权利要求1所述的方法, 其中, 所述融合模型包括平均池化层和全连接层; 所述利
用所述融合模型对所述样本 帧空间特征信息和所述样本 帧时序特征信息进行融合以及识
别处理, 获得与所述视频样本相对应的动作类别包括:
使用所述平均池化层对所述样本帧空间特征信息和所述样本帧时序特征信息进行融
合处理, 生成融合特 征信息;
使用所述全连接层并基于所述融合特 征信息, 获得 所述动作类别 信息。
9.如权利要求1至8任一项所述的方法, 其中, 所述视频动作识别模型包括: 特征提取模
型; 所述方法还 包括:
使用所述特征提取模型对所述视频样本的各视频帧进行特征提取处理, 获得所述样本
帧特征信息; 其中, 所述特 征提取模型包括: 卷积神经网络模型。
10.一种视频动作识别方法, 包括:
获取训练好的视频动作识别模型; 其中, 所述视频动作识别模型是通过权利要求1至9
中任一项 所述的训练方法训练得到, 视频动作 识别模型包括: 残差注意力网络模 型、 隐马尔
可夫网络模型和融合模型;
使用所述残差注意力网络模型并基于与待识别视频相对应的帧特征信 息, 获得与 所述
待识别视频相对应的帧空间特 征信息;
根据所述帧特征信 息和所述帧空间特征信 息生成帧融合特征信 息, 并使用所述隐马尔
可夫网络模型并基于所述帧融合特征信息, 获得与所述待识别视频相对应的帧时序特征信
息;
利用所述融合模型对所述帧空间特征信息和所述帧时序特征信息进行融合以及识别
处理, 获得与所述待识别视频相对应的动作类别。
11.如权利要求10所述的方法, 其中, 所述残差注意力网络模型包括: 不变分支子模型
和变体分支子模型; 所述使用所述残差注意力网络模型并基于与待识别视频相对应的帧特
征信息, 获得与所述待识别视频相对应的帧空间特 征信息包括:
使用所述不变分支子模型并基于所述帧特征信 息, 获得与所述待识别 视频相对应的不
变分支特 征信息;权 利 要 求 书 2/4 页
3
CN 114863570 A
3
专利 视频动作识别模型的训练、识别方法、装置以及介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:50:55上传分享