专利 一种基于因果注意力的室内视觉导航方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211273306.5 (22)申请日 2022.10.18 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人罗光春　朱大勇　戴瑞婷　董强　张清扬　张晨曦　 (74)专利代理机构成都希盛知识产权代理有限公司 512 26 专利代理师陈泽斌 (51)Int.Cl. G06V 20/00(2022.01) G06V 10/22(2022.01) G06V 10/762(2022.01) G06V 10/764(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G01C 21/20(2006.01) (54)发明名称一种基于因果注意力的室内视觉导航方法 (57)摘要本发明涉及视觉导航技术，其公开了一种基于因果注意力的室内视觉导航方法，解决传统室内视觉导航方案存在的过度关注特征间虚假相关性，降低模型泛化能力的问题。该方法包括：对历史导航轨迹各位置处的导航方向图像进行聚类，计算聚类中心；接着，提取当前位置各观测方向的视觉特征、位置特征以及表征同各聚类中心距离的全局特征，并融合当前的历史状态特征，基于自注意力机制和因果注意力机制，计算获取视觉环境状态特征；然后，根据各方向视觉特征与视觉环境状态特征的相关性，预测当前位置导航动作，并根据预测导航动作和视觉环境状态特征更新历史状态特征，直至完成导航任务。权利要求书6页说明书13页附图3页 CN 115512214 A 2022.12.23 CN 115512214 A 1.一种基于因果注意力的室内视觉导航方法，其特征在于，包括以下步骤： A、数据准备获取室内视觉图像数据集，所述室内视觉图像数据集包括一组导航轨迹数据，各导航轨迹数据分别包括由位置序列构成的导航轨迹以及导航轨迹上各位置处的视觉图像序列，各视觉图像序列分别包括在对应位置处各个观测方向的图像；并基于导航轨迹数据，构建到达终点前导航轨迹各位置处的导航方向对应图像所构成的导航图像序列，所述导航方向对应图像为从对应位置的视觉图像序列中，按对应位置到达导航轨迹下一位置的方向所确定的图像；然后，对所有导航轨迹数据的导航图像序列，进行视觉特征提取并聚类，获得聚类中心； B、通过室内视觉导航模型执行室内视觉导航任务： B1、以导航起点位置作为初始的当前位置，并随机初始化历史状态特征； B2、观测当前位置的各个观测方向，获得当前位置的视觉图像序列，提取当前位置视觉图像序列中各图像的视觉特征，并编码获得各观测方向的位置特征，并根据各图像的视觉特征与各聚类中心的距离，获得各图像的全局特征； B3、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征，获得其各图像的视觉图像特征；融合各图像的视觉图像特征及其位置特征，并通过自注意力机制，计算当前位置视觉图像序列各图像的自注意力特征；融合各图像的视觉图像特征和位置特征，构建查询向量；根据各图像的全局特征，构建键向量和值向量，然后，基于构建的查询向量、键向量和值向量，通过因果注意力机制，计算当前位置视觉图像序列各图像的因果注意力特征；然后，融合各图像的自注意力特征及其因果注意力特征，获得当前位置视觉图像序列各图像的视觉环境状态特征； B4、根据预设的可导航方向，计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性，根据相关性预测当前位置的导航动作； B5、根据当前位置的导航动作确定导航的下一位置，判定是否到达终点或者是否达到预设的最大导航步数，若是，则结束导航，否则，执行步骤B6； B6、根据步骤B3获得的当前位置的视觉环境状态特征，以及步骤B4预测的当前位置的导航动作，更新历史状态特征；将当前位置导航动作确定的下一位置以及更新后的历史状态特征作为输入，返回步骤B2。 2.如权利要求1所述的一种基于因果注意力的室内视觉导航方法，其特征在于，按如下步骤训练室内视觉导航模型： C1、以室内视觉图像数据集作为训练数据集并计算获得聚类中心； C2、从训练数据集提取一条导航轨迹数据，将其全部或部分作为本轮训练的导航轨迹数据； C3、从输入的导航轨迹数据中，提取其起点的视觉图像序列，作为初始输入的视觉图像序列，并随机初始化历史状态特征； C4、以输入视觉图像序列对应位置作为当前位置，提取当前位置视觉图像序列中各图像的视觉特征，并编码获得各观测方向的位置特征，并根据各图像的视觉特征与各聚类中权　利　要　求　书 1/6 页 2 CN 115512214 A 2心的距离，获得各图像的全局特征； C5、将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征，获得其各图像的视觉图像特征；然后，计算当前位置的自注意力特征和因果注意力特征，并融合自注意力特征及其因果注意力特征，获得视觉环境状态特征； C6、根据预设的可导航方向，计算当前位置视觉图像序列中可导航方向的图像的视觉特征与其对应视觉环境状态特征之间的相关性，根据相关性预测当前位置的导航动作； C7、判定是否到达输入导航轨迹数据的终点，若是，则执行步骤C9，否则执行步骤C8； C8、根据步骤C5获得的当前位置的视觉环境状态特征，以及步骤C6预测的当前位置的导航动作，更新历史状态特征；从导航轨迹数据中，提取导航轨迹下一位置的视觉图像序列，并将该视觉图像序列以及更新后的历史状态特征作为输入，返回步骤C4； C9、根据各位置处预设的专家导航动作和预测的导航动作，计算其损失，并根据累计损失对室内视觉导航模型的参数进行更新； C10、重复步骤C2 ‑C9进行迭代训练，直至满足训练终止条件，获得训练好的室内视觉导航模型。 3.如权利要求2所述的一种基于因果注意力的室内视觉导航方法，其特征在于，在步骤B中，初始时，采用训练时获得的聚类中心，并将训练时室内视觉图像数据集的导航轨迹数据作为初始的历史导航轨迹数据；在执行室内视觉导航任务后，收集已实际完成的导航任务的导航轨迹数据，在收集达到设定数量后，根据收集到的导航轨迹数据对历史导航轨迹数据进行更新，并基于更新后的历史导航轨迹数据对聚类中心进行更新。 4.如权利要求2所述的一种基于因果注意力的室内视觉导航方法，其特征在于，步骤C9中，累计损失按如下损失函数计算： L＝w1Lil+w2Lrl 其中， w1和w2均为可训练参数， Lil表示模仿学习产生的损失， Lrl表示强化学习产生的损失，所述强化学习采用执行者评论者框架，其中执行者网络为室内视觉导航模型，评论者网络为前馈神经网络；其中， Lil和Lrl分别按如下公式计算：其中， at表示t时刻位置的预测的导航动作，表示t时刻位置的预设的专家导航动作， πt表示t时刻位置视觉图像序列视觉特征与其对应视觉环境状态特征之间的相关性， Gt表示 t时刻位置执行者网络的累计收益， TDt为t时刻位置评论者网络的输出并如下公式计算： TDt＝max(0, πtWTD1)WTD2 其中， WTD1和WTD2为可训练参数。 5.如权利要求 4所述的一种基于因果注意力的室内视觉导航方法，其特征在于，按如下公式，计算执行者网络的累计收益Gt：权　利　要　求　书 2/6 页 3 CN 115512214 A 3

专利 一种基于因果注意力的室内视觉导航方法

专利一种基于因果注意力的室内视觉导航方法