专利 行人检测方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210585688.9 (22)申请日 2022.05.27 (71)申请人中南民族大学地址 430000 湖北省武汉市洪山区民族大道708号、 823号 (72)发明人田莎莎　谢勇　汪红　帖军　郑禄　吴立锋　张慧丽　董小杰　 (74)专利代理机构深圳市世纪恒程知识产权代理事务所 4 4287 专利代理师何秋石 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称行人检测方法、装置、设备及存储介质 (57)摘要本发明涉及计算机技术领域，尤其涉及一种行人检测方法、装置、设备及存储介质，该行人检测方法包括：获取待识别图像；通过预设多层次细粒度YOLO模型对待识别图像进行行人检测，并输出行人检测结果，预设多层次细粒度YOLO模型包括多层次细粒度PAFPN结构；其中，多层次细粒度PAFPN结构用于接收主干网络根据待识别图像输出的特征图对特征图进行特征融合得到融合特征图，通过解耦头模块根据融合特征图进行行人检测。由于本发明在YOL O模型中加入了多层次细粒度PAFPN结构，能够更加充分的提取行人特征，改善最终的检测效果，解决了现有技术在行人检测中小目标行人以及遮挡行人的检测效果不佳的技术问题。权利要求书3页说明书12页附图7页 CN 115131819 A 2022.09.30 CN 115131819 A 1.一种行人检测方法，其特征在于，所述行人检测方法包括：获取待识别图像；通过预设多层次细粒度YOLO模型对所述待识别图像进行行人检测，并输出行人检测结果，所述预设多层次细粒度YOLO模型包括多层次细粒度PAFPN结构；其中，所述多层次细粒度PAFPN结构，用于对主干网络基于所述待识别图像输出的特征图进行特征融合，得到融合特征图，并将所述融合特征图输入至解耦头模块进行行人检测。 2.如权利要求1所述的行人检测方法，其特征在于，所述预设多层次细粒度YOLO模型中，所述多层次细粒度PAFPN结构设置在所述主干网络与所述解耦头模块之间，所述多层次细粒度PAFPN结构包括： ResCoT模块；所述通过预设多层次细粒度YOLO模型对所述待识别图像进行行人检测，并输出行人检测结果，包括：通过所述主干网络对所述待识别图像进行特征提取，获得特征图；通过所述ResCoT模块将所述特征图与所述待识别图像对应的行人上下文信息进行融合，并将融合结果进行特征提取后，输入至所述解耦头模块；通过所述解耦头模块对特征提取后的融合结果进行行人检测，并输出行人检测结果。 3.如权利要求2所述的行人检测方法，其特征在于，所述特征提取后的融合结果包括融合输出特征，所述ResCoT模块包括： CoT模块、特征分量拆分融合模块和输出特征分量融合模块；所述CoT模块设置在所述特征分量拆分融合模块和所述输出特征分量融合模块之间；通过所述ResCoT模块将所述特征图与所述待识别图像对应的行人上下文信息进行融合，并将融合结果进行特征提取后，输入至所述解耦头模块，包括：通过所述特征分量拆分融合模块将所述特征图拆分为多个特征分量，所述多个特征分量包含第1～N特征分量， N 为大于等于2的整数；通过所述特征分量拆分融合模块对所述多个特征分量进行遍历，将第一次遍历到的特征分量作为第一输出特征分量输出至所述输出特征分量融合模块；通过所述特征分量拆分融合模块将当前遍历到的第N个特征分量分别与前N ‑1个特征分量对应的输出特征分量进行融合，并将分量融合结果输入至所述CoT模块；通过所述CoT模块接收所述分量融合结果，对所述分量融合结果进行3 ×3卷积，获得融合了行人上下文信息的键值特征分量；通过所述CoT模块将所述键值特征分量与预设查询值进行张量拼接，获得静态上下文建模；通过所述CoT模块对所述分量融合结果进行1 ×1卷积，获得卷积特征分量；通过所述CoT模块将所述静态上下文建模进行两次1 ×1卷积后与所述卷积特征分量相乘，获得动态上下文建模；通过所述CoT模块将所述动态上下文建模与所述静态上下文建模进行融合，获得所述分量融合结果对应的输出特征分量，并将所述分量融合结果对应的输出特征分量输出至所述输出特征分量融合模块；通过所述输出特征分量融合模块将所述分量融合结果对应的输出特征分量和所述第一输出特征分量进行融合，得到融合输出特征，将所述融合输出特征输入至所述解耦头模权　利　要　求　书 1/3 页 2 CN 115131819 A 2块。 4.如权利要求3所述的行人检测方法，其特征在于，所述特征提取后的融合结果还包括位置输出特征，所述ResCoT模块还包括：坐标注意力机制模块；所述通过所述ResCoT模块将所述特征图与所述待识别图像对应的行人上下文信息进行融合，当将融合结果进行特征提取后，输入至所述解耦头模块，还包括：通过所述坐标注意力机制模块接收所述融合输出特征，对所述融合输出特征分别进行水平方向平均池化和垂直方向平均池化，得到两个1D向量；通过所述坐标注意力机制模块对所述两个1D向量进行张量拼接，得到1D拼接向量，对所述1D拼接向量进行通道压缩，得到压缩后的1D向量；通过所述坐标注意力机制模块利用批量归一化和非线性处理对所述压缩后的1D向量在垂直方向和水平方向的空间信息进行编码，得到编码后的1D拼接向量；通过所述坐标注意力机制模块分裂所述编码后的1D拼接向量得到两个新的1D向量，对所述两个新的1D向量的通道数进行调整，以使所述两个新的1D向量的通道数保持一致；通过所述坐标注意力机制模块对所述通道数一致的所述两个新的1D向量进行归一化加权，得到位置输出特征，将所述位置输出特征输入至所述解耦头模块。 5.如权利要求2至4任一项所述的行人检测方法，其特征在于，所述多层次细粒度PAFPN 结构还包括： WG‑NAM‑CSPLayer模块；所述通过预设多层次细粒度YOLO模型对所述待识别图像进行行人检测，并输出行人检测结果，还包括：通过所述WG ‑NAM‑CSPLayer模块对所述特征图或所述融合结果进行权重稀疏惩罚，获得通道增强特征图；通过所述WG‑NAM‑CSPLayer模块将所述通道增强特征图输出至解耦头模块。 6.如权利要求5所述的行人检测方法，其特征在于，所述WG ‑NAM‑CSPLayer模块包括： WG‑NAM注意力模块、瓶颈层模块和至少两个BaseCo nv模块；所述WG‑NAM注意力模块设置在所述瓶颈层模块的3 ×3卷积层之后；所述通过所述WG ‑NAM‑CSPLayer模块接收所述特征图或所述融合结果，对所述特征图或所述融合结果进行权重稀疏惩罚，获得通道增强特征图，包括：通过其中一个所述BaseConv模块将所述特征图或所述融合结输出至所述瓶颈层模块进行卷积操作；通过所述WG ‑NAM注意力模块接收所述瓶颈层中3 ×3卷积层生成的与通道数相同数量的特征图；通过所述WG‑NAM注意力模块对所述特征图进行权重稀疏惩罚，获得通道输出特征图；通过所述WG ‑NAM注意力模块将所述通道输出特征图输入至第一融合模块，以使所述第一融合模块将所述特征图与所述通道输出特征图融合，获得第一融合输出特征图；通过所述第一融合模块将所述第一融合特征图输入第二融合模块，以使所述第二融合模块将所述第一融合特征图与经过所述BaseConv模块处理后的所述特征图或所述融合结果进行融合，得到通道增强特征图。 7.如权利要求6所述的行人检测方法，其特征在于，所述通过所述WG ‑NAM注意力模块对所述特征图进行权重稀疏惩罚，获得通道输出特征图，包括：权　利　要　求　书 2/3 页 3 CN 115131819 A 3

专利 行人检测方法、装置、设备及存储介质

专利行人检测方法、装置、设备及存储介质