说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211024919.5 (22)申请日 2022.08.25 (71)申请人 南通先进通信技 术研究院有限公司 地址 226019 江苏省南 通市崇川区崇川路 58号4号楼11层 申请人 南通大学 (72)发明人 王伟 杨永杰 陈俊杰 曹张华  孙强 刘锦涛 吴磊  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 张俊俊 (51)Int.Cl. G05D 1/10(2006.01) H04B 7/185(2006.01) H04B 13/02(2006.01)H04B 17/336(2015.01) H04B 17/391(2015.01) G06N 20/00(2019.01) (54)发明名称 基于强化学习的海域安全通信无人机轨迹 实时规划方法 (57)摘要 本发明提供了基于强化学习的海域安全通 信无人机轨迹实时规划方法, 属于通信技术领 域。 解决了传统优化方法无法实时处理海洋动态 场景的问题。 其技术方案为: 步骤一、 建立联合大 尺度衰落和小尺度衰落的UAV ‑船舶信道模型; 步 骤二、 得到移动船舶、 窃听节点接收的信干燥比 和速率; 步骤三、 通过求解系统最大平均保密速 率来获得无人机的最优轨迹; 步骤四、 使用Q ‑ learning和DDPG算法来进行轨迹优化; 步骤五、 设置相关仿真参数; 步骤六、 展示不同起飞位置 下两种算法的UAV轨迹实时规划结果。 本发明的 有益效果为: 本发明针对不同船舶的通信需求实 时的规划出UAV飞行轨迹, 有效保障海洋通信的 实时性。 权利要求书4页 说明书9页 附图5页 CN 115407794 A 2022.11.29 CN 115407794 A 1.基于强化学习的海域安全通信无人机轨迹实时规划方法, 其特征在于, 包括以下步 骤: 步骤一、 建立联合大尺度衰落和小尺度衰落的UA V‑船舶信道模型; 步骤二、 通过船载AIS获得船舶的航道信息, 并分别得到移动船舶、 窃听节点接收的信 干燥比和速率; 步骤三、 通过求 解系统最大平均保密速率 来获得无人机的最优轨 迹; 步骤四、 基于离散空间的无人机运动模型和基于连续空间的无人机运动模型, 分别使 用Q‑learning和DDPG算法来进行轨 迹优化; 步骤五、 设置相关仿真参数; 步骤六、 展示不同起飞位置下两种算法的UAV轨迹实时规划结果、 不同船舶航迹下两种 算法的UAV轨迹实时规划结果、 两种算法每次迭代得到的平均奖励和不同飞行时间下不同 算法得到的平均保密速率。 2.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法, 其 特征在于, 所述步骤一中, 假设将 无人机S的飞行时间T按极小等间隔dt化分成N个时隙, 即T =Ndt; 在每个时 隙内, 考虑到实际的海域信 道特性容易受到海面状况和气象条件环境因素 的影响, 因此, 无人机 ‑移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰 落的表示形式: 其中, gsd[n]为无人机S到移动船舶D的信道功率增益, 为无人机S到窃听节点Ek的 信道功率增益; 式中, 表示UAV到船舶D的 距离, 表示UAV到窃听Ek的距离。 3.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法, 其 特征在于, 所述步骤二中, 海洋 上的船只是沿着预先规划好的航道行驶, 而航道信息通过船 载AIS获得, 因此假设船舶D的航线为: 其中, Vd为船舶最大航运速度, dt表示时隙, xd[n]表示船舶D在n时隙在x轴的坐标, xd[n+ 1]表示船舶D在n+1时隙在x轴的坐 标, yd[n]表示船舶D在n时隙在y轴的坐 标, yd[n+1]表示船 舶D在n+1 时隙在y轴的坐标, (xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时 隙的位置; 移动船舶D接收的信干燥比和速率 为:权 利 要 求 书 1/4 页 2 CN 115407794 A 2式中: SINR表示信干燥比, SINRd表示船舶D的信干燥比, Rd表示船舶D的速率, Ps[n]表示 UAV的发射功率; 表示船舶D处的噪声方差; 窃听节点接收的信干燥比和速率 为: 式中, SINR表示信干燥比, 表示窃听节点E的信干燥比, 表示窃听E处的噪声方 差; 对系统进行优化, 系统最大的平均保密速率表示 为: 式中, 为无人机最大 水平飞行速度。 4.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法, 其 特征在于, 所述 步骤四中, 基于Q ‑learning的海域无 人机轨迹优化: 首先, 提出了一个解决离散轨迹优化问题的Q ‑learning框架, 将Q ‑learning算法视为 一个马尔可 夫决策过程, 它表示 为一个集合<S, A, R, P, γ>; S={s1,s2,....}表示每 个时隙UA V出现的位置或状态集 合; 其中, 第n个时隙的状态可表 示为: Sn={xs(n),ys(n),H}, (xs(n),ys(n))表示UAV的水平 坐标, H表示UA V的垂直坐标; A表示UAV可用的动作集, 在Q ‑learning框架下的离散空间内有9个可用动作{上, 下, 左, 右, 左上, 右上, 左下, 右下, 悬停}; R是UAV的奖励函数, 表示 为rn=rs+rb+rf; 其中rs表示保密速率奖励, rb表示UAV飞出边界的惩罚, rf表示飞行时间惩罚; P表示状态转移概率, P(s ′|s, a)表示UAV在当前状态s采取动作 a后移动到下一个状态 s′的概率分布; γ表示折扣因子, 决定着UA V重视未来奖励还是当前 奖励; 在每一次迭代开始时, 随机选择岸上的一个UAV起飞点进行训练, 且由于移动船舶按照 固定航道航行, 航道信息通过 船载AIS历史信息得到; 首先UAV会在第n个时隙根据探索率ε选择一个动作an, 当该动作导致UAV飞出边界或无 法按时返航时, UA V将受到rb和rf的惩罚, 其中: rb和tf为负常数; 否则UAV将根据an移动到下一个 状态s′并且获得 奖励rn; 然后根据更新公式: 来更新Q表; 其中, Qπ(s,a)=Ε(Rn=|sn=s,an=a), 表示当UAV遵循策略π(a|s)在状态s采取动作a权 利 要 求 书 2/4 页 3 CN 115407794 A 3

.PDF文档 专利 基于强化学习的海域安全通信无人机轨迹实时规划方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的海域安全通信无人机轨迹实时规划方法 第 1 页 专利 基于强化学习的海域安全通信无人机轨迹实时规划方法 第 2 页 专利 基于强化学习的海域安全通信无人机轨迹实时规划方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:04:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。