专利 一种基于上下文注意力的图片人头计数的方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210222101.8 (22)申请日 2022.03.09 (71)申请人江苏金智教育信息股份有限公司地址 211106 江苏省南京市江宁区天元西路59号南京科亚科技创业园一号楼 10、 11、 12层 (72)发明人王晓东　张宜红　郭超　章联军　吴奇元　俞京华　 (74)专利代理机构江苏银创律师事务所 32 242 专利代理师孙计良 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于上下文注意力的图片人头计数的方法和装置 (57)摘要本发明公开了一种基于上下文注意力的图片人头计数的方法和装置。本发明以VGG16的部分卷积层为前端网络，在中端网络和后端网络中生成4个64通道的密度图，并引入引入上下文特征采样，形成4通道的系数特征图。 4个64通道的密度图在融合网络中进一步通过卷积和堆叠得到4通道的中间密度图。中间密度图和经Sigmoid 或Softmax操作后的系数特征图以逐像素相乘后融合，得到最终的人群密度图，最后根据人群密度图的积分累加得到人头数。相比于基于多列神经网络的人头计数，本发明在一定程度上能够提高计数效率，并且相比于现有计数，本发明在准确度上有较大提升。权利要求书5页说明书14页附图3页 CN 114581849 A 2022.06.03 CN 114581849 A 1.一种基于上下文注意力的图片人头计数的方法，其特征在于，该方法包括模型计算步骤；所述模型计算步骤用于通过上下文注意力网络模型计算得到人群密度图；所述上下文注意力网络模型包括：前端网络、中端网络、后端网络和融合网络；所述前端网络、中端网络和后端网络分别包括五个由卷积层所组成的卷积层组；所述卷积层组包括有若干卷积层；所述融合网络包括通道维度层、融合堆叠层和融合求积层；所述前端网络中，五个卷积层组通过池化层按顺序依次串接，池化层使得五个卷积层组所输出的图像大小逐步缩半，并且最后序的卷积层组输出连接中端网络最前序的卷积层组；所述中端网络中，前序的卷积层组的输出分别通过翻倍层进行图像大小翻倍后和前端网络输出同样图像尺寸大小的卷积层组通过堆叠层在通道维度上堆叠后连接后序的卷积层组，五个卷积层组的输出分别连接后端网络的五个卷积层组；堆叠层用于将所输入的图像在通道维度上堆叠；所述后端网络中，输入连接中端网络最后序卷积层组的卷积层组输出图像大小与输入图像相同、通道数为4的特征图，并且输出连接融合网络的通道维度层；其他四个卷积层组各自间插有数量不同的翻倍层，使得这四个卷积层组输出图像大小与输入图像相同、通道数为64的特征图，并且这四个卷积层组的输出分别通过卷积层RR连接所述融合网络的融合堆叠层；卷积层RR用于将图像大小与输入图像相同、通道数为64的特征图处理后输出图像大小与输入图像相同、通道数为1的特征图；卷积层R R的卷积核大小为1*1，填充为0，步长为1；融合堆叠层用于将四个通道数为1的特征图在维度上堆叠，输出图像大小与输入图像相同、通道数为 4的融合特征图；通道维度层用于将输入的特征图执行Sigmoid或Softmax操作，生成通道数为4、图像尺寸与输入图像相同的系数特征图；所述融合求积层的输入连接所述通道维度层和融合堆叠层的输出，用于将所述系数特征图和所述融合特征图逐像素相乘，从而得到通道数为4、图像尺寸与输入图像相同的人群密度图；前端网络、中端网络和后端网络的各卷积层均设有激活函数ReLU。 2.如权利要求1所述的基于上下文注意力的图片人头计数的方法，其特征在于，前端网络中，五个卷积层组分别标记为卷积层组RF1、卷积层组RF2、卷积层组RF3、卷积层组RF4和卷积层组RF5；所述卷积层组RF1包括依次串接的卷积层RF11和卷积层RF12；所述卷积层组RF2包括依次串接的卷积层RF21和卷积层RF22；所述卷积层组RF3包括依次串接的卷积层RF31、卷积层 RF32和卷积层 RF33；所述卷积层组RF4包括依次串接的卷积层 RF41、卷积层RF42和卷积层RF43；所述卷积层组RF5包括依次串接的卷积层RF51、卷积层RF52和卷积层RF53；卷积层RF11、卷积层RF12、卷积层RF21、卷积层RF22、卷积层RF31、卷积层RF32、卷积层RF33、卷积层RF41、卷积层RF42、卷积层RF43、卷积层RF51、卷积层RF52、卷积层RF53的卷积核大小为3*3，步长为1，填充为1，输入通道数为： 3、 64、 64、 128、 128、 256、 256、 256、 512、 512、 512、 512、 512，输出通道数为： 64、 64、 128、 128、 256、 256、 256、 512、 512、 512、 512、 512、 512；权　利　要　求　书 1/5 页 2 CN 114581849 A 2连接前端网络五个卷积层组的四个池化层均采用池化核大小为2*2、步长为2、填充为 0、采用最大池化的池化层；中端网络中，五个卷积层组分别标记为卷积层组RM1、卷积层组RM2、卷积层组RM3、卷积层组RM4和卷积层组RM5；所述卷积层组RM1包括依次串接的卷积层RM11和卷积层RM12；所述卷积层组RM2包括依次串接的卷积层RM21和卷积层RM22；所述卷积层组RM3包括依次串接的卷积层RM31和卷积层RM32；所述卷积层组RM4包括依次串接的卷积层RM41和卷积层RM42；所述卷积层组RM5包括依次串接的卷积层 RM51和卷积层 RM52；卷积层 RM11、卷积层 RM12、卷积层RM21、卷积层RM22、卷积层RM31、卷积层RM32、卷积层RM41、卷积层RM42、卷积层RM51、卷积层RM52的卷积核大小为3*3，步长为1，填充为1，输入通道数为： 512、 1024、 1024、 512、 512、 256、 256、 128、 128、 64，输出通道数为： 1024、 512、 512、 256、 256、 128、 128、 64、 64、 64；翻倍层采用双线性插值方式将图像大小翻倍；后端网络中，卷积层组均包括四个卷积层；五个卷积层组分别标记为卷积层组RE1、卷积层组RE2、卷积层组RE3、卷积层组RE4和卷积层组RE5；所述卷积层组RE1包括依次串接的四倍层KE11、卷积层RE11、卷积层RE12、翻倍层KE12、卷积层RE13、卷积层RE14和翻倍层 KE13；所述卷积层组RE2包括依次串接的翻倍层KE21、卷积层RE21、卷积层RE22、翻倍层 KE22、卷积层RE23、卷积层RE24和翻倍层K23；所述卷积层组RE3包括依次串接的翻倍层 KE31、卷积层RE31、卷积层RE32、翻倍层KE32、卷积层RE33和卷积层RE34；所述卷积层组RE4 包括依次串接的的翻倍层KE41、卷积层RE41、卷积层RE42、卷积层RE43和卷积层RE44；所述卷积层组RE5包括依次串接的卷积层 RE51、卷积层 RE52、卷积层 RE53和卷积层 RE54；卷积层 RE11、卷积层RE12、卷积层RE13、卷积层RE14、卷积层RE21、卷积层RE22、卷积层RE23、卷积层 RE24、卷积层RE31、卷积层RE32、卷积层RE33、卷积层RE34、卷积层RE41、卷积层RE42、卷积层 RE43、卷积层RE44、卷积层RE51、卷积层RE52、卷积层RE53、卷积层RE54的卷积核大小为3*3，步长为1，输入通道数分别为： 512、 512、 256、 128、 256、 256、 256、 128、 128、 128、 128、 128、 64、 64、 64、 64、 64、 64、 32、 16，输出通道数分别为： 512、 256、 128、 64、 256、 256、 128、 64、 128、 128、 128、 64、 64、 64、 64、 64、 64、 32、 16、 4；其中，卷积层RE12、卷积层RE14、卷积层RE22、卷积层 RE24、卷积层RE32、卷积层RE34、卷积层RE42和卷积层RE44均为空洞率为2，填充为2的卷积层，其他卷积层填充为1；翻倍层KE12、翻倍层KE13、翻倍层KE21、翻倍层KE22、翻倍层KE23、翻倍层KE31、翻倍层 KE32、和翻倍层KE41用于通过双线性插值方式将图像大小翻倍；四倍层KE1 1用于通过双线性插值方式将图像大小放大成四倍。 3.如权利要求1或2所述的基于上下文注意力的图片人头计数的方法，其特征在于，该方法还包括模型初始化步骤、数据初始化步骤、图片预处理步骤和人头计数步骤；所述模型初始化步骤，用于：初始化所述上下文注意力网络模型；所述数

专利 一种基于上下文注意力的图片人头计数的方法和装置

专利一种基于上下文注意力的图片人头计数的方法和装置