专利 一种基于深度学习的6D姿态估计方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211072450.2 (22)申请日 2022.09.02 (71)申请人广东工业大学地址 510090 广东省广州市越秀区东风东路729号 (72)发明人许伟濠　张伯泉　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师刘俊 (51)Int.Cl. G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的6D姿态估计方法和系统 (57)摘要本发明提供了一种基于深度学习的6D姿态估计方法和系统，该方法首先获取目标物体的无标记码图像和有标记码图像；之后对目标物体的有标记码图像进行处理，之后利用预设的点云补全神经网络模型获得目标物体表面完整点云数据和3D模型；之后将目标物体的3D模型、表面完整点云数据和无标记码图像输入预设的6D姿态估计神经网络模型中训练并迭代优化；最后利用优化后的6D姿态估计神经网络模型对待预测目标物体进行6D 姿态估计；该方法基于深度学习对目标物体进行6D 姿态估计，能够有效提高目标物体6D姿态估计的预测精确度和预测效率，而且显著降低了现有技术中目标物体完整点云数据的获取难度，降低了生产成本。权利要求书3页说明书12页附图3页 CN 115457128 A 2022.12.09 CN 115457128 A 1.一种基于深度学习的6D姿态估计方法，其特征在于，包括以下步骤： S1：分别获取目标物体的无标记码图像和有标记码图像； S2：对目标物体的有标记码图像背景和噪声进行分割，获取目标物体的表面稀疏点云数据； S3：对目标物体的表面稀疏点云数据进行处理，获取目标物体的表面稠密点云数据和目标物体的3D模型； S4：将目标物体的无标记码图像和表面稠密点云数据输入到预设的点云补全神经网络模型中，获得目标物体的表面完整点云数据； S5：将目标物体的3D模型、表面完整点云数据和目标物体的无标记码图像输入到预设的6D姿态估计神经网络模型中进行训练，获得优化后的6D姿态估计神经网络模型； S6：获取待预测的目标物体图像，将待预测的目标物体图像输入到优化后的6D姿态估计神经网络模型，获取待预测目标物体的6D姿态。 2.根据权利要求1所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤 S1中，分别获取目标物体的无标记码图像和有标记码图像的具体方法为：用单目相机从目标物体的多个方向进行拍摄，获取一组目标物体的无标记码图像，并记录每张无标记码图像对应的相机姿态；将若干ARUCO标记码围绕目标物体放置，利用所述单目相机从目标物体的多个方向进行拍摄，获取一组目标物体的有标记码图像。 3.根据权利要求2所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述目标物体的有标记码图像中包括至少3个不被遮挡且清晰的ARUCO标记码。 4.根据权利要求3所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤 S3中，对目标物体的表面稀疏点云数据进行处理，获取目标物体的表面稠密点云数据和目标物体的3D模型的具体方法为：使用PMVS2对目标物体的表面稀疏点云数据进行处理，获取目标物体的表面稠密点云数据、表面三角网格化数据和纹理映射数据；根据所述表面三角网格化数据和纹理映射数据生成目标物体的3D模型。 5.根据权利要求4所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤 S4中，将目标物体的无标记码图像和表面稠密点云数据输入到预设的点云补全神经网络模型中，获得目标物体的表面完整点云数据的具体方法为： S4.1：将任意一张目标物体的无标记码图像和表面稠密点云数据输入到预设的点云补全神经网络模型中，对表面稠密点云数据进行旋转操作，调整至与所述目标物体的无标记码图像对应的相机姿态相匹配，得到目标物体稠密点云旋转数据P1； S4.2：将目标物体的无标记码图像进行映射，得到目标物体的全局稠密点云数据P2； S4.3：将目标物体稠密点云旋转数据P1和全局稠密点云数据P2拼接后进行均匀下采样； S4.4：利用下采样后的全局稠密点云数据P2减去下采样后的目标物体稠密点云旋转数据P1，得到输入部分点云数据Pf和输入缺少部分点云数据Pc； S4.5：将输入部分点云数据Pf、输入缺少部分点云数据Pc、下采样后的目标物体稠密点云旋转数据P1和目标物体的无标记码图像拼接获得全局特征向量Vt； S4.6：利用全局特征向量Vt获得目标物体的表面点云偏移量向量，将输入缺少部分点云权　利　要　求　书 1/3 页 2 CN 115457128 A 2数据Pc与目标物体的表面点云偏移量向量拼接，获得目标物体表面完整点云数据P3。 6.根据权利要求5所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤 S4.6中，利用全局特征向量Vt获得目标物体的表面点云偏移量向量，将输入缺少部分点云数据Pc与目标物体的表面点云偏移量向量拼接，获得目标物体表面完整点云数据P3的具体方法为：将全局特征向量Vt输入预设的1D卷积层中，得到N维嵌入fpoint，再将N维嵌入fpoint 复制展平之后上采样，接着输入预设的2D卷积层中，得到偏移点向量，之后将偏移点向量输入所述1D卷积层中，得到目标物体的表面点云偏移量向量以及对应的不完整点云的掩模，将经过不完整点云的掩模选择过的输入缺少部分点云数据Pc与目标物体的表面点云偏移量向量拼接，获得目标物体表面完整点云数据P3。 7.根据权利要求6所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤 S4之后还包括：利用基于最优传输理论的距离优化损失函数对所述预设的点云补全神经网络模型进行优化，所述损失函数为： Lall＝α LCD+β LEMD 其中， LCD为第一损失函数， LEMD为第二损失函数， Lall为总损失函数， P3为由点云补全神经网络模型输出的目标物体表面完整点云数据， P2为目标物体的全局稠密点云数据，表示 P3与P2点云数据之间的对应关系， α和β 为第一、第二超参数， p3是目标物体表面完整点云数据P3中的点， p2是目标物体的全局稠密点云数据中的点。 8.根据权利要求7所述的一种基于深度学习的6D姿态估计方法，其特征在于，所述步骤 S5中，将目标物体的3D模型、表面完整点云数据和目标物体的无标记码图像输入到预设的 6D姿态估计神经网络模型中进行训练，获得优化后的6D姿态估计神经网络模型，具体方法为：将目标物体的3D模型、表面完整点云数据和目标物体的无标记码图像输入到预设的6D 姿态估计神经网络模型中，所述预设的6D姿态估计神经网络模型包括编码模块、解码模块和数据整合模块；将目标物体的无标记码图像输入编码模块进行编码，获得编码后的2D图像；之后将编码后的2D图像送入解码模块进行解码，所述解码模块包括旋转预测头和平移预测头；所述旋转预测头根据编码后的2D图像输出目标物体的2D点云数据和置信度图；利用目标物体的置信度图和RANSAC PnP算法，将目标物体的表面完整点云数据与目标物体的2D点云数据进行匹配，获得预测的目标物体旋转矩阵；所述平移预测头根据编码后的2D图像输出目标物体的热力图数据、初始坐标数据和深度图数据，根据目标物体的热力图数据和初始坐标数据获得目标物体的最终坐标数据，将权　利　要　求　书 2/3 页 3 CN 115457128 A 3

专利 一种基于深度学习的6D姿态估计方法和系统

专利一种基于深度学习的6D姿态估计方法和系统