专利 视频动作识别模型的训练、识别方法、装置以及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210630186.3 (22)申请日 2022.06.06 (71)申请人京东科技信息技术有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号院2号楼6层 601 (72)发明人杨一博　徐洋洋　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师方亮 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/84(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称视频动作识别模型的训练、识别方法、装置以及介质 (57)摘要本公开提供了一种视频动作识别模型的训练方法、视频动作识别方法、装置以及存储介质，涉及计算机技术领域，其中的训练方法包括：使用残差注意力网络模型并基于样本帧特征信息，获得样本帧空间特征信息；根据样本帧特征信息和样本帧空间特征信息生成样本帧融合特征信息，并使用隐马尔可夫网络模型获得样本帧时序特征信息；利用融合模型进行融合以及识别处理，获得动作类别；根据总体损失函数对残差注意力网络模型、隐马尔可夫网络模型进行调整。本公开的方法、装置以及存储介质，提供包括残差注意力网络模型和隐马尔可夫网络模型的双流耦合网络模型，可以实现视频动作的时空特征融合，能够提升视频动作识别中对于时空信息提取和有效表征。权利要求书4页说明书12页附图6页 CN 114863570 A 2022.08.05 CN 114863570 A 1.一种视频动作识别模型的训练方法，其中，视频动作识别模型包括：残差注意力网络模型、隐马尔可夫网络模型和融合模型；所述方法包括：使用所述残差注意力网络模型并基于与视频样本相对应的样本帧特征信息，获得与所述视频样本相对应的样本帧空间特征信息；根据所述样本帧特征信息和所述样本帧空间特征信息生成样本帧融合特征信息，使用所述隐马尔可夫网络模型并基于所述样本帧融合特征信息，获得与所述视频样本相对应的样本帧时序特征信息；利用所述融合模型对所述样本帧空间特征信息和所述样本帧时序特征信息进行融合以及识别处理，获得与所述视频样本相对应的动作类别；根据与所述视频动作识别模型相对应的总体损失函数，对所述残差注意力网络模型、所述隐马尔可夫网络模型进行调整。 2.如权利要求1所述的方法，还包括：构建与所述残差注意力网络模型相对应的第一损失函数；构建与所述隐马尔可夫网络模型相对应的第二损失函数；基于所述第一损失函数、所述第二损失函数以及对应的平衡系数，生成所述总体损失函数。 3.如权利要求2所述的方法，所述构建与所述隐马尔可夫网络模型相对应的第二损失函数包括：确定所述隐马尔可夫网络模型对于所述样本帧融合特征信息进行处理的后验概率信息；基于所述后验概率信息生成目标函数；根据所述目标函数构建所述第二损失函数；其中，所述第二损失函数用于表征所述隐马尔可夫网络模型的参数值使所述目标函数为最小值时的参数值。 4.如权利要求1所述的方法，其中，所述残差注意力网络模型包括：不变分支子模型和变体分支子模型；所述使用所述残差注意力网络模型并基于与视频样本相对应的样本帧特征信息，获得与所述视频样本相对应的样本帧空间特征信息包括：使用所述不变分支子模型并基于所述样本帧特征信息，获得与所述视频样本相对应的不变分支特征信息；使用所述变体分支子模型并基于所述样本帧特征信息，获得与所述视频样本相对应的变体分支特征信息；使用第一激活函数并基于所述不变分支特征信息和所述变体分支特征信息，生成所述样本帧空间特征信息。 5.如权利要求4所述的方法，其中，所述不变分支子模型包括： DW卷积层和 PW卷积层；使用所述不变分支子模型并基于所述样本帧特征信息，获得与所述视频样本相对应的不变分支特征信息包括：使用所述DW卷积层并基于所述样本帧特征信息，获得第一特征信息；将所述第一特征信息输入所述PW卷积层，输出所述不变分支特征信息。 6.如权利要求4所述的方法，其中，所述变体分支子模型包括：下采样层、上采样层、变权　利　要　求　书 1/4 页 2 CN 114863570 A 2体分支卷积层；使用所述变体分支子模型并基于所述样本帧特征信息，获得与所述视频样本相对应的变体分支特征信息包括：使用所述下采样层并基于所述样本帧特征信息，获得下采样特征信息；使用所述上采样层并基于所述下采样特征信息和与所述样本帧特征信息相对应的残差信息，获得上采样特征信息；使用所述变体分支卷积层并基于所述上采样特征信息，获得卷积特征信息；使用第二激活函数并基于所述卷积特征信息，生成所述变体分支特征信息。 7.如权利要求1所述的方法，所述使用所述隐马尔可夫网络模型并基于所述样本帧融合特征信息，获得与所述视频样本相对应的样本帧时序特征信息包括：使用所述隐马尔可夫网络模型对所述样本帧融合特征信息进行时序特征分析，生成与所述视频样本相对应的样本帧特征随机向量序列；使用所述隐马尔可夫网络模型并基于所述样本帧特征随机向量序列，获得所述样本帧时序特征信息。 8.如权利要求1所述的方法，其中，所述融合模型包括平均池化层和全连接层；所述利用所述融合模型对所述样本帧空间特征信息和所述样本帧时序特征信息进行融合以及识别处理，获得与所述视频样本相对应的动作类别包括：使用所述平均池化层对所述样本帧空间特征信息和所述样本帧时序特征信息进行融合处理，生成融合特征信息；使用所述全连接层并基于所述融合特征信息，获得所述动作类别信息。 9.如权利要求1至8任一项所述的方法，其中，所述视频动作识别模型包括：特征提取模型；所述方法还包括：使用所述特征提取模型对所述视频样本的各视频帧进行特征提取处理，获得所述样本帧特征信息；其中，所述特征提取模型包括：卷积神经网络模型。 10.一种视频动作识别方法，包括：获取训练好的视频动作识别模型；其中，所述视频动作识别模型是通过权利要求1至9 中任一项所述的训练方法训练得到，视频动作识别模型包括：残差注意力网络模型、隐马尔可夫网络模型和融合模型；使用所述残差注意力网络模型并基于与待识别视频相对应的帧特征信息，获得与所述待识别视频相对应的帧空间特征信息；根据所述帧特征信息和所述帧空间特征信息生成帧融合特征信息，并使用所述隐马尔可夫网络模型并基于所述帧融合特征信息，获得与所述待识别视频相对应的帧时序特征信息；利用所述融合模型对所述帧空间特征信息和所述帧时序特征信息进行融合以及识别处理，获得与所述待识别视频相对应的动作类别。 11.如权利要求10所述的方法，其中，所述残差注意力网络模型包括：不变分支子模型和变体分支子模型；所述使用所述残差注意力网络模型并基于与待识别视频相对应的帧特征信息，获得与所述待识别视频相对应的帧空间特征信息包括：使用所述不变分支子模型并基于所述帧特征信息，获得与所述待识别视频相对应的不变分支特征信息；权　利　要　求　书 2/4 页 3 CN 114863570 A 3

专利 视频动作识别模型的训练、识别方法、装置以及介质

专利视频动作识别模型的训练、识别方法、装置以及介质