(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211273306.5
(22)申请日 2022.10.18
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 罗光春 朱大勇 戴瑞婷 董强
张清扬 张晨曦
(74)专利代理 机构 成都希盛知识产权代理有限
公司 512 26
专利代理师 陈泽斌
(51)Int.Cl.
G06V 20/00(2022.01)
G06V 10/22(2022.01)
G06V 10/762(2022.01)
G06V 10/764(2022.01)G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G01C 21/20(2006.01)
(54)发明名称
一种基于因果注意力的室内视 觉导航方法
(57)摘要
本发明涉及视觉导航技术, 其 公开了一种基
于因果注 意力的室内视觉导航方法, 解决传统室
内视觉导航方案存在的过度关注特征间虚假相
关性, 降低模型泛化能力的问题。 该方法包括: 对
历史导航轨迹各位置处的导航方向图像进行聚
类, 计算聚类中心; 接着, 提取当前位置各观测方
向的视觉 特征、 位置特征以及表征同各聚类中心
距离的全局特征, 并融合当前的历史状态特征,
基于自注 意力机制和因果注意力机制, 计算获取
视觉环境状态特征; 然后, 根据各方向视觉特征
与视觉环 境状态特征的相关性, 预测当前位置导
航动作, 并根据预测导航动作和视觉环境状态特
征更新历史状态特 征, 直至完成导航任务。
权利要求书6页 说明书13页 附图3页
CN 115512214 A
2022.12.23
CN 115512214 A
1.一种基于因果注意力的室内视 觉导航方法, 其特 征在于, 包括以下步骤:
A、 数据准备
获取室内视觉 图像数据集, 所述室内视觉 图像数据集包括一组导航轨迹数据, 各导航
轨迹数据分别包括由位置序列构成的导航轨迹以及导航轨迹上各位置处的视觉图像序列,
各视觉图像序列分别包括在对应位置处各个观测方向的图像;
并基于导航轨迹数据, 构建到达终点前导航轨迹各位置处 的导航方向对应图像所构 成
的导航图像序列, 所述导航方向对应图像为从对应位置的视觉图像序列中, 按对应位置到
达导航轨迹下一位置的方向所确定的图像; 然后, 对所有导航轨迹数据的导航图像序列, 进
行视觉特征提取并聚类, 获得聚类中心;
B、 通过室内视 觉导航模型执行室内视 觉导航任务:
B1、 以导航起点位置作为初始的当前位置, 并随机初始化历史状态特 征;
B2、 观测当前位置的各个观测方向, 获得当前位置的视觉图像序列, 提取当前位置视觉
图像序列中各图像的视觉特征, 并编码获得各观测方向的位置特征, 并根据各图像的视觉
特征与各聚类中心的距离, 获得 各图像的全局特 征;
B3、 将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征, 获得其各
图像的视 觉图像特 征;
融合各图像的视觉 图像特征及其位置特征, 并通过自注意力机制, 计算当前位置视觉
图像序列各图像的自注意力特 征;
融合各图像的视觉图像特征和位置特征, 构建查询向量; 根据 各图像的全局特征, 构建
键向量和值向量, 然后, 基于构建的查询向量、 键向量和值向量, 通过因果注 意力机制, 计算
当前位置 视觉图像序列各图像的因果注意力特 征;
然后, 融合各图像的自注意力特征及其因果注意力特征, 获得当前位置视觉 图像序列
各图像的视 觉环境状态特 征;
B4、 根据预设的可导航方向, 计算当前位置视觉图像序列中可导航方向的图像的视觉
特征与其对应视 觉环境状态特 征之间的相关性, 根据相关性预测当前位置的导 航动作;
B5、 根据当前位置的导航动作确定导航的下一位置, 判定是否到达终点或者是否达到
预设的最大导 航步数, 若是, 则结束导 航, 否则, 执 行步骤B6;
B6、 根据步骤B3获得的当前位置的视觉环境状态特征, 以及步骤B4预测的当前位置的
导航动作, 更新历史状态特征; 将当前位置导航动作确定的下一位置以及更新后的历史状
态特征作为输入, 返回步骤B2。
2.如权利要求1所述的一种基于因果注意力的室内视觉导航方法, 其特征在于, 按如下
步骤训练室内视 觉导航模型:
C1、 以室内视 觉图像数据集作为训练数据集并计算获得聚类中心;
C2、 从训练数据集提取一条导航轨迹数据, 将其全部或部分作为本轮训练的导航轨迹
数据;
C3、 从输入的导航轨迹数据中, 提取其起点的视觉图像序列, 作为初始输入的视觉图像
序列, 并随机初始化历史状态特 征;
C4、 以输入视觉 图像序列对应位置作为当前位置, 提取当前位置视觉图像序列中各图
像的视觉特征, 并编码获得各观测方向的位置特征, 并根据各图像的视觉特征与各聚类中权 利 要 求 书 1/6 页
2
CN 115512214 A
2心的距离, 获得 各图像的全局特 征;
C5、 将历史状态特征分别融入当前位置视觉图像序列中各图像的视觉特征, 获得其各
图像的视觉图像特征; 然后, 计算当前位置的自注意力特征和因果注意力特征, 并融合自注
意力特征及其因果注意力特 征, 获得视 觉环境状态特 征;
C6、 根据预设的可导航方向, 计算当前位置视觉图像序列中可导航方向的图像的视觉
特征与其对应视 觉环境状态特 征之间的相关性, 根据相关性预测当前位置的导 航动作;
C7、 判定是否 到达输入导航轨迹数据的终点, 若是, 则执 行步骤C9, 否则执 行步骤C8;
C8、 根据步骤C5获得的当前位置的视觉环境状态特征, 以及步骤C6预测的当前位置的
导航动作, 更新历史状态特征; 从导航轨迹数据中, 提取导航轨迹下一位置的视觉图像序
列, 并将该视 觉图像序列以及更新后的历史状态特 征作为输入, 返回步骤C4;
C9、 根据各位置处预设的专家导航动作和预测的导航动作, 计算其损失, 并根据累计损
失对室内视 觉导航模型的参数进行 更新;
C10、 重复步骤C2 ‑C9进行迭代训练, 直至满足训练终止条件, 获得训练好的室内视觉导
航模型。
3.如权利要求2所述的一种基于因果注意力的室内视 觉导航方法, 其特 征在于,
在步骤B中, 初始时, 采用训练时获得的聚类中心, 并将训练时室内视觉图像数据集的
导航轨迹数据作为初始的历史导航轨迹数据; 在执行室内视觉导航任务后, 收集已实际完
成的导航任务的导航轨迹数据, 在收集达到设定数量后, 根据收集到的导航轨迹数据对历
史导航轨迹数据进行 更新, 并基于更新后的历史导 航轨迹数据对聚类中心进行 更新。
4.如权利要求2所述的一种基于因果注意力的室内视 觉导航方法, 其特 征在于,
步骤C9中, 累计损失按如下损失函数计算:
L=w1Lil+w2Lrl
其中, w1和w2均为可训练参数, Lil表示模仿学习产 生的损失, Lrl表示强化学习产 生的损
失, 所述强化学习采用执行者评论者框架, 其中执行者网络为室内视觉导航模型, 评论者网
络为前馈神经网络;
其中, Lil和Lrl分别按如下公式计算:
其中, at表示t时刻位置的预测的导航动作,
表示t时刻位置的预设的专家导航动作,
πt表示t时刻位置视觉图像序列视觉特征与其对应视觉环境状态特征之间的相关性, Gt表示
t时刻位置执 行者网络的累计收益, TDt为t时刻位置 评论者网络的输出并如下公式计算:
TDt=max(0, πtWTD1)WTD2
其中, WTD1和WTD2为可训练参数。
5.如权利要求 4所述的一种基于因果注意力的室内视 觉导航方法, 其特 征在于,
按如下公式, 计算执 行者网络的累计收益Gt:权 利 要 求 书 2/6 页
3
CN 115512214 A
3
专利 一种基于因果注意力的室内视觉导航方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:29上传分享