专利基于强化学习的海域安全通信无人机轨迹实时规划方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211024919.5 (22)申请日 2022.08.25 (71)申请人南通先进通信技术研究院有限公司地址 226019 江苏省南通市崇川区崇川路 58号4号楼11层申请人南通大学 (72)发明人王伟　杨永杰　陈俊杰　曹张华　孙强　刘锦涛　吴磊　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师张俊俊 (51)Int.Cl. G05D 1/10(2006.01) H04B 7/185(2006.01) H04B 13/02(2006.01)H04B 17/336(2015.01) H04B 17/391(2015.01) G06N 20/00(2019.01) (54)发明名称基于强化学习的海域安全通信无人机轨迹实时规划方法 (57)摘要本发明提供了基于强化学习的海域安全通信无人机轨迹实时规划方法，属于通信技术领域。解决了传统优化方法无法实时处理海洋动态场景的问题。其技术方案为：步骤一、建立联合大尺度衰落和小尺度衰落的UAV ‑船舶信道模型；步骤二、得到移动船舶、窃听节点接收的信干燥比和速率；步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹；步骤四、使用Q ‑ learning和DDPG算法来进行轨迹优化；步骤五、设置相关仿真参数；步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果。本发明的有益效果为：本发明针对不同船舶的通信需求实时的规划出UAV飞行轨迹，有效保障海洋通信的实时性。权利要求书4页说明书9页附图5页 CN 115407794 A 2022.11.29 CN 115407794 A 1.基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，包括以下步骤：步骤一、建立联合大尺度衰落和小尺度衰落的UA V‑船舶信道模型；步骤二、通过船载AIS获得船舶的航道信息，并分别得到移动船舶、窃听节点接收的信干燥比和速率；步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹；步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型，分别使用Q‑learning和DDPG算法来进行轨迹优化；步骤五、设置相关仿真参数；步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。 2.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤一中，假设将无人机S的飞行时间T按极小等间隔dt化分成N个时隙，即T ＝Ndt；在每个时隙内，考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响，因此，无人机 ‑移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式：其中， gsd[n]为无人机S到移动船舶D的信道功率增益，为无人机S到窃听节点Ek的信道功率增益；式中，表示UAV到船舶D的距离，表示UAV到窃听Ek的距离。 3.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤二中，海洋上的船只是沿着预先规划好的航道行驶，而航道信息通过船载AIS获得，因此假设船舶D的航线为：其中， Vd为船舶最大航运速度， dt表示时隙， xd[n]表示船舶D在n时隙在x轴的坐标， xd[n+ 1]表示船舶D在n+1时隙在x轴的坐标， yd[n]表示船舶D在n时隙在y轴的坐标， yd[n+1]表示船舶D在n+1 时隙在y轴的坐标， (xd[n],yd[n])和(xd[n+1],yd[n+1])分别表示船舶在n和n+1时隙的位置；移动船舶D接收的信干燥比和速率为：权　利　要　求　书 1/4 页 2 CN 115407794 A 2式中： SINR表示信干燥比， SINRd表示船舶D的信干燥比， Rd表示船舶D的速率， Ps[n]表示 UAV的发射功率；表示船舶D处的噪声方差；窃听节点接收的信干燥比和速率为：式中， SINR表示信干燥比，表示窃听节点E的信干燥比，表示窃听E处的噪声方差；对系统进行优化，系统最大的平均保密速率表示为：式中，为无人机最大水平飞行速度。 4.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤四中，基于Q ‑learning的海域无人机轨迹优化：首先，提出了一个解决离散轨迹优化问题的Q ‑learning框架，将Q ‑learning算法视为一个马尔可夫决策过程，它表示为一个集合<S， A， R， P， γ>； S＝{s1,s2,....}表示每个时隙UA V出现的位置或状态集合；其中，第n个时隙的状态可表示为： Sn＝{xs(n),ys(n),H}， (xs(n),ys(n))表示UAV的水平坐标， H表示UA V的垂直坐标； A表示UAV可用的动作集，在Q ‑learning框架下的离散空间内有9个可用动作{上，下，左，右，左上，右上，左下，右下，悬停}； R是UAV的奖励函数，表示为rn＝rs+rb+rf；其中rs表示保密速率奖励， rb表示UAV飞出边界的惩罚， rf表示飞行时间惩罚； P表示状态转移概率， P(s ′|s， a)表示UAV在当前状态s采取动作 a后移动到下一个状态 s′的概率分布； γ表示折扣因子，决定着UA V重视未来奖励还是当前奖励；在每一次迭代开始时，随机选择岸上的一个UAV起飞点进行训练，且由于移动船舶按照固定航道航行，航道信息通过船载AIS历史信息得到；首先UAV会在第n个时隙根据探索率ε选择一个动作an，当该动作导致UAV飞出边界或无法按时返航时， UA V将受到rb和rf的惩罚，其中： rb和tf为负常数；否则UAV将根据an移动到下一个状态s′并且获得奖励rn；然后根据更新公式：来更新Q表；其中， Qπ(s,a)＝Ε(Rn＝|sn＝s,an＝a)，表示当UAV遵循策略π(a|s)在状态s采取动作a权　利　要　求　书 2/4 页 3 CN 115407794 A 3

专利 基于强化学习的海域安全通信无人机轨迹实时规划方法

专利基于强化学习的海域安全通信无人机轨迹实时规划方法