(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210222101.8
(22)申请日 2022.03.09
(71)申请人 江苏金智教育信息股份有限公司
地址 211106 江苏省南京市江宁区天元西
路59号南京科亚科技创业园一号楼
10、 11、 12层
(72)发明人 王晓东 张宜红 郭超 章联军
吴奇元 俞京华
(74)专利代理 机构 江苏银创律师事务所 32 242
专利代理师 孙计良
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 10/20(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于上下文注意力的图片人头计数的
方法和装置
(57)摘要
本发明公开了一种基于上下文注意力的图
片人头计数的方法和装置。 本发明以VGG16的部
分卷积层为前端网络, 在中端网络和后端网络中
生成4个64通道的密度图, 并引入引入上下文特
征采样, 形成4通道 的系数特征图。 4个64通道 的
密度图在融合网络中进一步通过卷积和堆叠得
到4通道的中间密度图。 中间密度图和经Sigmoid
或Softmax操作后的系数特征图以逐像素相乘后
融合, 得到最终的人群密度图, 最后根据人群密
度图的积分累加得到人头数。 相比于基于多列神
经网络的人头计数, 本发明在一定程度上能够提
高计数效率, 并且相比于现有计数, 本发明在准
确度上有较大提升 。
权利要求书5页 说明书14页 附图3页
CN 114581849 A
2022.06.03
CN 114581849 A
1.一种基于上下文注意力的图片人头计数的方法, 其特征在于, 该方法包括模型计算
步骤; 所述模型计算 步骤用于通过 上下文注意力网络模型计算得到人群密度图;
所述上下文注意力网络模型包括: 前端网络、 中端网络、 后端网络和融合网络;
所述前端网络、 中端网络和后端网络分别包括五个由卷积层所组成的卷积层组; 所述
卷积层组包括有 若干卷积层;
所述融合网络包括 通道维度层、 融合 堆叠层和融合 求积层;
所述前端网络中, 五个卷积层组通过池化层按顺序依次串接, 池化层使得五个卷积层
组所输出的图像大小逐步缩半, 并且最后序的卷积层组输出连接中端网络最前序的卷积层
组;
所述中端 网络中, 前序的卷积层组 的输出分别通过翻倍层进行图像大小翻倍后和前端
网络输出同样图像尺寸大小的卷积层组通过堆叠层在通道维度上堆叠后连接后序的卷积
层组, 五个卷积层组的输出分别连接后端网络的五个卷积层组; 堆叠层用于将所输入的图
像在通道维度上堆叠;
所述后端 网络中, 输入连接中端 网络最后序 卷积层组的卷积层组输出图像大小与输入
图像相同、 通道数为4的特征图, 并且输出连接融合网络的通道维度层; 其他四个卷积层组
各自间插有数量不同的翻倍层, 使得这四个卷积层组输出图像大小与输入图像相同、 通道
数为64的特征图, 并且这四个卷积层组的输出分别通过卷积层RR连接所述融合网络的融合
堆叠层;
卷积层RR用于将图像大小与输入图像相同、 通道数为64的特征图处理后输出图像大小
与输入图像相同、 通道数为1的特 征图; 卷积层R R的卷积核大小为1*1, 填充为0, 步长为1;
融合堆叠层用于将四个通道数为1的特征图在维度上堆叠, 输出图像大小与输入图像
相同、 通道数为 4的融合特 征图;
通道维度层用于将输入的特征图执行Sigmoid或Softmax操作, 生成通道数为4、 图像尺
寸与输入图像相同的系数 特征图;
所述融合求积层的输入连接所述通道维度层和融合堆叠层的输出, 用于将所述系数特
征图和所述融合特征图逐像素相乘, 从而 得到通道数为4、 图像尺 寸与输入图像相同的人群
密度图;
前端网络、 中端网络和后端网络的各 卷积层均设有激活函数ReLU。
2.如权利要求1所述的基于上 下文注意力的图片人头计数的方法, 其特 征在于,
前端网络中, 五个卷积层组分别标记为卷积层组RF1、 卷积层组RF2、 卷积层组RF3、 卷积
层组RF4和卷积层组RF5; 所述卷积层组RF1包括依次串接的卷积层RF11和卷积层RF12; 所述
卷积层组RF2包括依次串接的卷积层RF21和卷积层RF22; 所述卷积层组RF3包括依次串接的
卷积层RF31、 卷积层 RF32和卷积层 RF33; 所述卷积层组RF4包括依次串接的卷积层 RF41、 卷
积层RF42和卷积层RF43; 所述卷积层组RF5包括依次串接的卷积层RF51、 卷积层RF52和卷积
层RF53; 卷积层RF11、 卷积层RF12、 卷积层RF21、 卷积层RF22、 卷积层RF31、 卷积层RF32、 卷积
层RF33、 卷积层RF41、 卷积层RF42、 卷积层RF43、 卷积层RF51、 卷积层RF52、 卷积层RF53的卷
积核大小为3*3, 步长为1, 填充为1, 输入通道数为: 3、 64、 64、 128、 128、 256、 256、 256、 512、
512、 512、 512、 512, 输出通道数为: 64、 64、 128、 128、 256、 256、 256、 512、 512、 512、 512、 512、
512;权 利 要 求 书 1/5 页
2
CN 114581849 A
2连接前端网络五个卷积层组的四个池化层均采用池化核大小为2*2、 步长为2、 填充为
0、 采用最大池化的池化层;
中端网络中, 五个卷积层组分别标记为卷积层组RM1、 卷积层组RM2、 卷积层组RM3、 卷积
层组RM4和卷积层组RM5; 所述卷积层组RM1包括依次串接的卷积层RM11和卷积层RM12; 所述
卷积层组RM2包括依次串接的卷积层RM21和卷积层RM22; 所述卷积层组RM3包括依次串接的
卷积层RM31和卷积层RM32; 所述卷积层组RM4包括依次串接的卷积层RM41和卷积层RM42; 所
述卷积层组RM5包括依次串接的卷积层 RM51和卷积层 RM52; 卷积层 RM11、 卷积层 RM12、 卷积
层RM21、 卷积层RM22、 卷积层RM31、 卷积层RM32、 卷积层RM41、 卷积层RM42、 卷积层RM51、 卷积
层RM52的卷积核大小为3*3, 步长为1, 填充为1, 输入通道数为: 512、 1024、 1024、 512、 512、
256、 256、 128、 128、 64, 输出通道数为: 1024、 512、 512、 256、 256、 128、 128、 64、 64、 64; 翻倍层
采用双线性插值方式将图像大小翻倍;
后端网络中, 卷积层组均包括四个卷积层; 五个卷积层组分别标记为卷积层组RE1、 卷
积层组RE2、 卷积层组RE3、 卷积层组RE4和卷积层组RE5; 所述卷积层组RE1包括依次串接的
四倍层KE11、 卷积层RE11、 卷积层RE12、 翻倍层KE12、 卷积层RE13、 卷积层RE14和翻倍层
KE13; 所述卷积层组RE2包括依次串接的翻倍层KE21、 卷积层RE21、 卷积层RE22、 翻倍层
KE22、 卷积层RE23、 卷积层RE24和翻倍层K23; 所述卷积层组RE3包括依次串接的翻倍层
KE31、 卷积层RE31、 卷积层RE32、 翻倍层KE32、 卷积层RE33和卷积层RE34; 所述卷积层组RE4
包括依次串接的的翻倍层KE41、 卷积层RE41、 卷积层RE42、 卷积层RE43和卷积层RE44; 所述
卷积层组RE5包括依次串接的卷积层 RE51、 卷积层 RE52、 卷积层 RE53和卷积层 RE54; 卷积层
RE11、 卷积层RE12、 卷积层RE13、 卷积层RE14、 卷积层RE21、 卷积层RE22、 卷积层RE23、 卷积层
RE24、 卷积层RE31、 卷积层RE32、 卷积层RE33、 卷积层RE34、 卷积层RE41、 卷积层RE42、 卷积层
RE43、 卷积层RE44、 卷积层RE51、 卷积层RE52、 卷积层RE53、 卷积层RE54的卷积核大小为3*3,
步长为1, 输入通道数分别为: 512、 512、 256、 128、 256、 256、 256、 128、 128、 128、 128、 128、 64、
64、 64、 64、 64、 64、 32、 16, 输出通道数分别为: 512、 256、 128、 64、 256、 256、 128、 64、 128、 128、
128、 64、 64、 64、 64、 64、 64、 32、 16、 4; 其中, 卷积层RE12、 卷积层RE14、 卷积层RE22、 卷积层
RE24、 卷积层RE32、 卷积层RE34、 卷积层RE42和卷积层RE44均为空洞率为2, 填充为2的卷积
层, 其他卷积层填充为1;
翻倍层KE12、 翻倍层KE13、 翻倍层KE21、 翻倍层KE22、 翻倍层KE23、 翻倍层KE31、 翻倍层
KE32、 和翻倍层KE41用于通过双线性插值方式将图像大小翻倍;
四倍层KE1 1用于通过双线性插值方式将图像大小放大成四倍。
3.如权利要求1或2所述的基于上下文注意力的图片人头计数的方法, 其特征在于, 该
方法还包括模型初始化 步骤、 数据初始化 步骤、 图片预处 理步骤和人头计数步骤;
所述模型初始化 步骤, 用于: 初始化所述上 下文注意力网络模型;
所述数
专利 一种基于上下文注意力的图片人头计数的方法和装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:01:08上传分享