专利 一种基于改进HigherHRNet的人体姿态估计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211278177.9 (22)申请日 2022.10.19 (71)申请人辽宁科技大学地址 114051 辽宁省鞍山市高新区千山路 185号 (72)发明人赵骥　李明旸　 (74)专利代理机构鞍山嘉讯科技专利事务所 (普通合伙) 21224 专利代理师张群 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/40(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于改进High erHRNet的人体姿态估计方法 (57)摘要本发明提供一种基于改进HigherHRNet的人体姿态估计方法，将HigherHRNet做了相关的改进，更加精准的定位图像中小人体和拥挤环境下的人体。包括：步骤一、设计一种新的通道增强特征提取网络，旨在解决多尺度特征融合时通道信息丢失问题；步骤二、设计一种基于CBAM的改进轻量级注意力机制，将通道注意力机制应用到每次融合之后生成的新特征图上，以解决多尺度特征融合时产生的混叠效应；将该注意力机制应用到网络末端，优化将要去预测热图的最终特征图，让网络对于人体难被检测到的关键点更加敏感；步骤三、引入D upsampling并设计优化的热图聚合策略，生成与输入图像分辨率一致的预测热图，能够恢复出低分辨率热图中丢失的小人体关键点，加强网络对小尺度人体感知能力。权利要求书3页说明书9页附图4页 CN 115512393 A 2022.12.23 CN 115512393 A 1.一种基于改进HigherHRNet的人体姿态估计方法，其特征在于，包括如下的步骤：步骤一、设计一种新的通道增强特征提取网络，该特征提取网络研究如何在不大幅增加计算量的同时，用少量计算负担即可解决多尺度特征融合时产生的通道信息丢失的问题；步骤二、设计一种基于CBAM的改进轻量级注意力机制，将通道注意力机制应用到每次融合之后生成的新特征图上，来优化每次融合之后的特征图，以消除多尺度特征融合之后产生的混叠效应影响；将通道和空间混合注意力机制应用到网络末端，以优化将要去预测热图的最终特征图，让网络对于人体难被检测到的关键点更加敏感，并且可以缓解模型的错检问题；步骤三、针对Hi gherHRNet对于小人体尺度感知能力不强的问题，引入一种代替转置卷积的上采样方法，来生成与输入图像分辨率一致的预测热图，同时设计一个优化的热图聚合策略，能够恢复出在低分辨率热图中丢失的小尺度人体的关键点，加强网络的尺度感知能力，使得网络对于小人体的检测性能提高。 2.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法，，其特征在于，所述的步骤一中，所述新的通道增强特征提取网络的设计包括如下：使用Sub_Pixel Conv来代替HigherHRNet中的1*1卷积降低通道数和最近邻插值的上采样方法， Sub_Pixel Conv又称Pixel Shuffle，能够将形状为H1×W1×C1·r2的特征图转换成形状为rH2×rW2×C2的特征图，其中H表示该特征图的高度， W表示该特征图的宽度， C代表通道， H1表示转换前该特征图的高度， W1表示转换前该特征图的宽度， C1代表转换前通道， H2表示转换后该特征图的高度， W2表示转换后该特征图的宽度， C2代表转换后通道，公式在数学上可以定义为： PS(F)x,y,c＝F[x/r]， [y/r]， C ·r·mod(y,r)+C ·mod(x,r)+c 其中r为放大因子， F是输入的特征，表示坐标为(x， y， c)上的输出特征像素； x表示输出特征图高度方向上的坐标， y表示输出特征图宽度方向上的坐标， c代表输出特征图通道方向的坐标；多尺度亚像素跳跃连接融合利用低分辨率特征图Ci中丰富的通道信息，将其合并到Fi 中，公式如下所示：其中，表示的应用于减少通道的1 ×1卷积， i为高分辨率子网的索引，为通道变换，将亚像素卷积的缩放因子r为2，以此来进行多尺度特征融合；基于sub_pixel conv提出多尺度亚像素跳跃连接融合方法，首先通过Sub_Pixel Conv 生成高分辨率特征图，之后引入跳跃连接，将前一阶段的特征图与生成的新特征图再次进行融合，二者特征重复交叠混合，保证网络可以兼顾空间位置信息和特征抽象信息并且可以增强网络特征信息传播能力以及降低训练的难度。 3.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法，，其特征在于，所述的步骤二中，所述基于 CBAM的改进轻量级注意力机制的设计包括如下：为了消除多尺度特征融合时特征图产生的混叠效应，在多尺度特征融合时，提出了一权　利　要　求　书 1/3 页 2 CN 115512393 A 2个轻量级的通道注意力机制CAEM，取消原始CBAM中通道注意力机制的共享多层感知机mlp，选择分别用两个全连接层并行进行最大池化操作和全局平均池化操作来代替mlp，因为两种操作得到的特征各有不同，出于计算量的考量用两个全连接层分别处理即可； CAEM利用特征通道之间的关系生成通道注意力图，由于特征图的每个通道都可以被看做特征检测器， CAEM的实际本质就是想要通道注意力机制就是关注这张输入图像上哪些内容是有意义的，可以以此来减轻生成特征图的混叠效应。 4.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法，，其特征在于，所述的基于 CBAM的改进轻量级注意力机制具体包括如下步骤： 1)首先将输入的特征图，分别使用基于输入特征图的宽和高的全局平均池化和全局最大池化来聚合特征映射的空间信息，生成两个不同的空间上下文信息的描述符和分别表示平均池化特征和最大池化特征； 2)然后，将全连接层输出特征向量通过对应元素element ‑wise求和操作合并输出的向量，在使用Sigmod函数进行激活操作，将合并向量映射到(0 ‑1)的区间，生成最终的通道注意力图； 3)最后拿权重系数和原来的特征F做对应元素element ‑wise相乘的操作即可得到缩放后的新特征，这个过程用数学公式表达为： CA(F)＝σ(FC1(AvgPool(F))+FC2(MaxPool(F))) 其中CA(F)为通道注意力函数， σ 为Sigmod函数。 5.根据权利要求1所述的一种基于计算机视觉和深度学习的材料图像分割识别方法，其特征在于，所述的步骤三包括如下：在高分辨率特征金字塔中引入Dupsampling模块替换转置卷积模块， DUpsampling是一种数据相关型上采样方法，可以简单高效的代替转置卷积，同时可以减少模型因为使用转置卷积带来的计算量和内存占用； DUpsampling在对特征图的单个像素所对应的N个通道重构成一个1 ×N的向量，与N ×M的权重矩阵相乘得到1 ×M的向量，再重新排列成r ×r×M/r2 的放大后的亚像素块， r是缩放因子，重组成放大后的特征图；计算损失的时候需要将F上采样至Y相同尺寸， l oss公式如下所示： L(F,Y)＝ LOSS(softmax(Dupsampl ing)(F)),Y) F∈RH×W×N为特征提取网络的输出， Y∈[0,1]H×W×N为groundtruth， DUpsample(F)在进行线性上采样时，将K卷积核应用到输入特征图F 的每一个特征上；这个上采样过程和在空间维度上应用深度可分离卷积中的逐点卷积工作原理一样，卷积核参数在K中存储。 6.根据权利要求1所述的一种基于计算机视觉和深度学习的材料图像分割识别方法，其特征在于，所述的步骤三的优化的热图聚合策略包括如下：将反卷积替换成DUpsampling，以此来生成更高分辨率的用于预测热图的特征图；共有三种分辨率的特征图，分别是特征提取网络最终输出的160 ×160的特征图，以及通过 DUpsampling生成的分辨率为320 ×320， 640×640的特征图；借用了深度可分离卷积的思想，首先对一个像素点的所有通道进行reshape然后在通过网络学习到的卷积核 K对特征图进行重新排列，然后在通过缩放因子r进行分辨率的扩大；因为已经通过DUpsampling生成具有三种尺度的高分辨率特征金字塔，在热图聚合时，不采用双线性插值这一上采样方法，选择S ub_Pixel Conv对160 ×160和320 ×320两种分辨权　利　要　求　书 2/3 页 3 CN 115512393 A 3

专利 一种基于改进HigherHRNet的人体姿态估计方法

专利一种基于改进HigherHRNet的人体姿态估计方法