(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211278177.9
(22)申请日 2022.10.19
(71)申请人 辽宁科技大 学
地址 114051 辽宁省鞍山市高新区千山路
185号
(72)发明人 赵骥 李明旸
(74)专利代理 机构 鞍山嘉讯科技专利事务所
(普通合伙) 21224
专利代理师 张群
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/40(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于改进High erHRNet的人体姿态估计
方法
(57)摘要
本发明提供一种基于改进HigherHRNet的人
体姿态估计方法, 将HigherHRNet做了相关的改
进, 更加精 准的定位图像中小人体和拥挤环境下
的人体。 包括: 步骤一、 设计一种新的通道增强特
征提取网络, 旨在解决多尺度特征融合时通道信
息丢失问题; 步骤二、 设计一种基于CBAM的改进
轻量级注 意力机制, 将通道注 意力机制应用到每
次融合之后生成的新特征图上, 以解决多尺度特
征融合时产生的混叠效应; 将该注 意力机制应用
到网络末端, 优化将要去预测热图的最终特征
图, 让网络对于人体难被检测到的关键点更加敏
感; 步骤三、 引入D upsampling并设计优 化的热图
聚合策略, 生成与输入图像分辨率一致的预测热
图, 能够恢复出低分辨率热图中丢失的小人体关
键点, 加强网络对 小尺度人体感知能力。
权利要求书3页 说明书9页 附图4页
CN 115512393 A
2022.12.23
CN 115512393 A
1.一种基于改进HigherHRNet的人体姿态估计方法, 其特 征在于, 包括如下的步骤:
步骤一、 设计一种新的通道增强特征提取网络, 该特征提取网络研究如何在不大幅增
加计算量的同时, 用少量计算负担即可解决多尺度特征融合时产生的通道信息丢失的问
题;
步骤二、 设计一种基于CBAM的改进轻量级注意力机制, 将通道注意力机制应用到每次
融合之后生成的新特征图上, 来优化每次融合之后的特征图, 以消除多尺度特征融合之后
产生的混叠效应影响; 将通道和空间混合注意力机制 应用到网络末端, 以优化将要去预测
热图的最终特征图, 让网络对于人体难被检测到的关键点更加敏感, 并且可以缓解模型 的
错检问题;
步骤三、 针对Hi gherHRNet对于小人体尺度感知能力不强的问题, 引入一种 代替转置卷
积的上采样方法, 来生成与输入图像分辨率一致的预测热图, 同时设计一个优化的热图聚
合策略, 能够恢复出在低分辨率热图中丢失的小尺度人体的关键点, 加强网络的尺度感知
能力, 使得网络对于小人体的检测性能提高。
2.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法, , 其特征在
于, 所述的步骤一中, 所述 新的通道增强特 征提取网络的设计包括如下:
使用Sub_Pixel Conv来代替HigherHRNet中的1*1卷积降低通道数和 最近邻插值的上
采样方法, Sub_Pixel Conv又称Pixel Shuffle, 能够将形状为H1×W1×C1·r2的特征图转
换成形状为rH2×rW2×C2的特征图, 其中H表 示该特征图的高度, W表示该特征图的宽度, C代
表通道, H1表示转换前该特征图的高度, W1表示转换前该特征图的宽度, C1代表转换前通道,
H2表示转换后该特征图的高度, W2表示转换后该特征图的宽度, C2代表转换后通道, 公式在
数学上可以定义 为:
PS(F)x,y,c=F[x/r], [y/r], C ·r·mod(y,r)+C ·mod(x,r)+c
其中r为放大因子, F是输入的特征, 表示坐标为(x, y, c)上的输出特征像素; x表示输出
特征图高度方向上 的坐标, y表示输出特征图宽度方向上 的坐标, c代表输出特征图通道方
向的坐标;
多尺度亚像素跳跃连接融合利用低分辨率特征图Ci中丰富的通道信息, 将其合并到Fi
中, 公式如下 所示:
其中,
表示的应用于减少通道的1 ×1卷积, i为高分辨率子网的索引,
为通道变换,
将亚像素 卷积的缩放因子r为2, 以此来进行多尺度特 征融合;
基于sub_pixel conv提出多尺度亚像素跳跃连接融合方法, 首先通过Sub_Pixel Conv
生成高分辨率特征图, 之后引入跳跃连接, 将前一阶段的特征图与生成的新特征图再次进
行融合, 二者特征重复交叠混合, 保证网络可以兼顾空间位置信息和特征抽象信息并且可
以增强网络特 征信息传播能力以及降低训练的难度。
3.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法, , 其特征在
于, 所述的步骤二中, 所述基于 CBAM的改进轻量级注意力机制的设计包括如下:
为了消除多尺度特征融合时特征图产生的混叠效应, 在多尺度特征融合时, 提出了一权 利 要 求 书 1/3 页
2
CN 115512393 A
2个轻量级的通道注 意力机制CAEM, 取消原始CBAM中通道注 意力机制的共享多层感知机mlp,
选择分别用两个全连接层 并行进行最大池化操作和全局平均池化操作来代替mlp, 因为两
种操作得到的特 征各有不同, 出于计算 量的考量用两个全连接层分别处 理即可;
CAEM利用特征通道之间的关系生成通道注意力图, 由于特征图的每个通道都可以被看
做特征检测器, CAEM的实际本质就是想要通道注意力机制就是关注这张输入图像上哪些内
容是有意 义的, 可以 以此来减轻生成特 征图的混叠效应。
4.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法, , 其特征在
于, 所述的基于 CBAM的改进轻量级注意力机制具体包括如下步骤:
1)首先将输入的特征图, 分别使用基于输入特征图的宽和高的全局平均池化和全局最
大池化来聚合特征映射的空间信息, 生成两个不同的空间上下文信息的描述符
和
分别表示平均池化特 征和最大池化特 征;
2)然后, 将全连接层输出特征向量通过对应元素element ‑wise求和操作合并输出的向
量, 在使用Sigmod函数进行激活操作, 将合并向量映射到(0 ‑1)的区间, 生成最终的通道注
意力图;
3)最后拿权重系数和原来的特征F做对应元素element ‑wise相乘的操作即可得到缩放
后的新特 征, 这个过程用数 学公式表达为:
CA(F)=σ(FC1(AvgPool(F))+FC2(MaxPool(F)))
其中CA(F)为 通道注意力函数, σ 为Sigmod函数。
5.根据权利要求1所述的一种基于计算机视觉和深度学习的材料图像分割识别方法,
其特征在于, 所述的步骤三包括如下:
在高分辨率特征金字塔中引入Dupsampling模块替换转置卷积模块, DUpsampling是一
种数据相关型上采样方法, 可以简单高效的代替转置卷积, 同时可以减少模型因为使用转
置卷积带来的计算量和内存占用; DUpsampling在对 特征图的单个像素所对应的N个通道重
构成一个1 ×N的向量, 与N ×M的权重矩阵相乘得到1 ×M的向量, 再重新排列成r ×r×M/r2
的放大后的亚像素块, r是缩放因子, 重组成放大后的特征图; 计算损失的时候需要将F上采
样至Y相同尺寸, l oss公式如下 所示:
L(F,Y)= LOSS(softmax(Dupsampl ing)(F)),Y)
F∈RH×W×N为特征提取 网络的输出, Y∈[0,1]H×W×N为groundtruth, DUpsample(F)在进行
线性上采样时, 将K卷积核应用到输入特征图F 的每一个特征上; 这个上采样过程和在空间
维度上应用深度可分离卷积中的逐点卷积工作原理一样, 卷积核参数在K中存 储。
6.根据权利要求1所述的一种基于计算机视觉和深度学习的材料图像分割识别方法,
其特征在于, 所述的步骤三的优化的热图聚合策略包括如下:
将反卷积替换成DUpsampling, 以此来生成更高分辨率的用于预测热图的特征图; 共有
三种分辨率的特征图, 分别是特征提取网络最终输出的160 ×160的特征图, 以及通过
DUpsampling生成的分辨率为320 ×320, 640×640的特征图; 借用了深度可分离卷积的思
想, 首先对一个像素点的所有通道进 行reshape然后在通过网络学习到的卷积核 K对特征图
进行重新 排列, 然后在通过缩放因子r进行分辨 率的扩大;
因为已经通过DUpsampling生成具有三种 尺度的高分辨率特征金字塔, 在 热图聚合时,
不采用双线性插值这一上采样方法, 选择S ub_Pixel Conv对160 ×160和320 ×320两种分辨权 利 要 求 书 2/3 页
3
CN 115512393 A
3
专利 一种基于改进HigherHRNet的人体姿态估计方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:27上传分享