专利 面向位姿估计的遮挡场景目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210566658.3 (22)申请日 2022.05.24 (71)申请人东北大学地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人郭楠　李婧源　高天寒　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师李在川 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称面向位姿估计的遮挡场景目标检测方法 (57)摘要本发明提供一种面向位姿估计的遮挡场景目标检测方法，该方法基于单阶段目标检测模型 YOLOv5进行设计检测模型；采用特征融合的网络结构，对卷积层的浅层特征和深层特征进行了提取和融合，增加了相应的头部检测层，提高了模型的准确率和鲁棒性；在原始YOLOv5模型的基础上还对目标检测的优化算法进行了更改，使用了 Soft NMS优化算法能够更好地避免YOLOv5模型在遮挡情况下存在的漏检问题，为了满足在资源有限设备上的部署，本发明还通过修改普通卷积层为深度可分离卷积，减小了模型的大小，不仅提高了检测模型的效率，检测结果更加准确有效。权利要求书2页说明书7页附图2页 CN 115100405 A 2022.09.23 CN 115100405 A 1.一种面向位姿估计的遮挡场景目标检测方法，其特征在于，包括：步骤1：根据真实数据集和合成数据集制作数据集；步骤2：基于支持移动端的最小化模型YOLOv5n设计神经网络模型，作为目标检测模型；步骤3：对待检测图像进行预处理后作为目标检测模型的输入，通过目标检测模型预测目标物体。 2.根据权利要求1所述的一种面向位姿估计的遮挡场景目标检测方法，其特征在于，所述步骤1包括：步骤1.1：基于Un ity制作合成数据集；步骤1.2：利用数据集 LineMOD数据集制作真实数据集；步骤1.3：划分训练集和测试集数据，其中训练集包括合成数据与真实数据，测试集为真实数据。 3.根据权利要求2所述的一种面向位姿估计的遮挡场景目标检测方法，其特征在于，所述步骤1.1包括：步骤1.1.1：将LineMOD数据集中提供的.ply文件转换为.obj文件，获取目标物体的3D 模型并导入到Un ity 3D中；步骤1.1.2：调用Un ity Percepti on为背景设置位置随机化和旋转随机化来制作背景；步骤1.1.3：调用Un ity Percepti on为步骤1.1.1中导入的模型制作标签。 4.根据权利要求1所述的一种面向位姿估计的遮挡场景目标检测方法，其特征在于，所述步骤2包括：步骤2.1：对数据集中的图像进行预处理；步骤2.2：基于支持移动端的最小化模型YOLOv5n设计神经网络模型；步骤2.3：将步骤2.1处理后的图像作为神经网络模型的输入进行网络训练。 5.根据权利要求4所述的一种面向位姿估计的遮挡场景目标检测方法，其特征在于，所述步骤2.1具体表述为：为了保证原始图像的目标物体不会产生形变，将图像进行等比例缩放后，再进行图像边缘的填充，使其缩放为640 ×640尺寸；随机选取4张缩放后的图像，并对 4张图像进行剪裁；拼接剪裁后的4张图像为1张图像。 6.根据权利要求4所述的一种面向位姿估计的遮挡场景目标检测方法，其特征在于，所述步骤2.2包括：步骤2.2.1：设计Pose ‑YOLOv5特征提取网络，具体表述为：主干网络包括CBS、 C3和SPP模块，其中SPP模块用于将局部特征和全局特征进行融合， CBS模块包含卷积层、批归一化层和SiLU激活层用来实现网络的下采样功能， C3模块包含 C3_1、 C3_2和C3_3三种模块，分别对应具备1个、 2个和3个的残差模块，能够构建更深的网络，提升网络的特征提取能力；颈部网络包括上采样模块、连接模块、 C3模块和CBS模块，其中，上采样模块用于恢复下采样后的图像特征，连接模块用于融合浅层特征和深层特征， C3模块和CBS模块用于实现卷积融合来获取最终的图像特征；头部网络作为Pose ‑YOLOv5网络的输出端，所述头部网络包括CBS模块、卷积层，用于预测物体的位置信息和类别信息；深度可分离卷积层：逐通道卷积中一个卷积核对一个通道进行卷积，保证输入输出的权　利　要　求　书 1/2 页 2 CN 115100405 A 2通道数一致；逐点卷积对深度方向的特征进行加权组合，获取特征图；步骤2.2.2：利用Soft NMS算法来进行目标检测优化，实现对物体出现的多个冗余包围框的去除。 7.根据权利要求4所述的一种面向位姿估计的遮挡场景目标检测方法，其特征在于，所述步骤2.3包括： 1)初始化网络参数； 2)损失函数选择CIOU损失函数，表示为：其中， w为预测包围框的宽度， h为预测包围框的高度， wgt为真实包围框的宽度， hgt为真实包围框的高度； 3)设置迭代次数对神经网络模型进行训练。权　利　要　求　书 2/2 页 3 CN 115100405 A 3

专利 面向位姿估计的遮挡场景目标检测方法

专利面向位姿估计的遮挡场景目标检测方法