专利 一种基于深度强化学习优先提取的汽车纵向多态控制方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110267799.0 (22)申请日 2021.03.11 (65)同一申请的已公布的文献号申请公布号 CN 112861269 A (43)申请公布日 2021.05.28 (73)专利权人合肥工业大学地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人黄鹤　吴润晨　张峰　王博文　于海涛　汤德江　张炳力　 (74)专利代理机构安徽省合肥新安专利代理有限责任公司 34101 专利代理师陆丽莉　何梅生 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/17(2020.01) G06F 30/27(2020.01) G06F 119/14(2020.01) (56)对比文件 CN 110716562 A,2020.01.21 CN 111985614 A,2020.1 1.24 CN 110969848 A,2020.04.07CN 112162555 A,2021.01.01 CN 112406867 A,2021.02.26 CN 110450771 A,2019.1 1.15 CN 110850720 A,2020.02.28 CN 110716550 A,2020.01.21 US 202026 5305 A1,2020.08.20 US 2019220744 A1,2019.07.18 US 2020033868 A1,2020.01.3 0 CN 111605565 A,2020.09.01 黄鹤，郭伟锋，梅炜炜，张润，程进，张炳力. 基于深度强化学习的自动泊车控制策略. 《2020 中国汽车工程学会年会论文集》 .2020,第181- 189页. 王文飒，梁军，陈龙，陈小波，朱宁，华国栋. 基于深度强化学习的协同式自适应巡航控制. 《交通信息与安全》 .2019,第37 卷(第3期), Dey, K.C. Li Yan.A review of com munication, driver c haracteristics, and co ntrols aspects of co operative adaptive cruise control. 《IEEE Transacti ons on Intelligent Transportati on System s》 .2016,第17 卷(第2 期), 审查员李换 (54)发明名称一种基于深度强化学习优先提取的汽车纵向多态控制方法 (57)摘要本发明公开了一种基于深度强化学习优先提取的汽车纵向多态控制方法，其步骤包括： 1定义汽车行驶的状态参数集s和控制参数集a； 2初始化深度强化学习参数，并构建深度神经网络； 3 定义深度强化学习奖励函数以及优先提取规则； 4训练深度神经网络并得到最优网络模型； 5获得汽车t时刻状态参数st并输入最优网络模型从而得到输出at并予汽车执行。本发明通过结合优先级提取算法以及深度强化学习的控制方法来完成汽车在纵向的多态行驶，从而使汽车在行驶过程中安全性更高，并减少交通事故的发生。权利要求书3页说明书7页 CN 112861269 B 2022.08.30 CN 112861269 B 1.一种基于深度强化学习优先提取的汽车纵向多态控制方法，其特征包括以下步骤：步骤1：建立车辆动力学模型和车辆行驶环境模型；步骤2：采集真实驾驶场景中汽车行驶数据并作为初始化数据，所述汽车行驶数据为车辆的初始状态信息以及车辆的初始控制参数信息；步骤3：定义车辆的状态信息集s＝{s0,s1,···st,···,sn}， s0表示车辆的初始状态信息， st表示车辆在状态st‑1即t‑1时刻执行控制动作at‑1之后所达到的状态，且有st＝ {Axt,et,Vet}，其中， Axt表示在t时刻车辆的纵向加速度， et表示在t时刻前车车速与两车相对距离的差值， Vet表示在t时刻自身车速与前车车速的差值；定义车辆的控制参数集a＝{a0,a1,···,at,···,an}， a0表示车辆的初始控制参数信息， at表示车辆在状态st即t时刻车辆所执行的动作，且有 at＝{Tt,Bt}，其中， Tt表示在车辆在t时刻的节气门开度， Bt表示车辆在t时刻的主缸压力， t＝1,2, ···,c， c表示训练总时长；步骤4：初始化参数，包括时刻t，贪婪概率ε ‑greedy，经验池大小ms，目标网络更新频率 rt，优先提取数据条数bs，奖励衰减因子γ；步骤5：构建深度神经网络，并随机初始化神经网络的参数：权重w，偏置b；所述深度神经网络包含输入层、隐藏层、输出层；其中，所述输入层包含m个神经元，用于输入车辆在t时刻的状态st，所述隐藏层包含n个神经元，并利用激活函数Relu计算来自输入层的状态信息并传输给输出层，所述输出层包含k个神经元，用于输出动作值函数，并有： Qe＝Relu(Relu(st×w1+b1)×w2+b2) (1) 式(1)中， w1、 b1为隐藏层的权重与偏置值， w2、 b2为输出层的权重与偏置值， Qe为输出层的输出值即经过所述深度神经网络得到的所有动作的当前Q 值；步骤6：定义深度强化学习的奖励函数：式(2)和式(3)中， rh为车辆高速状态下的奖励值， rl是车辆低速状态下的奖励值， dis为自身车辆与前车的相对距离， Vf为前车车速， x表示相对距离下限， y表示相对距离上限， mid 表示奖励函数关于相对距离的切换阈值， lim表示奖励函数关于自身车速与前车车速差值的切换阈值， z表示奖励函数关于前车车速的切换阈值， u表示前车车速下限；步骤7：定义经验池优先提取规则；对经验池中所存储的当前Q值Qe与目标Q值Qt做差，并根据SumTr ee算法用其差值来对经验池中所存储的各条参数形式进行优先级排序，得到排序后的参数形式并从中提取前bs条参数形式；利用式(4)得到所提取的前bs条参数形式的权重ISW：权　利　要　求　书 1/3 页 2 CN 112861269 B 2式(4)中， pk为任意第k条参数形式的优先级值， min(p)为所提取的前bs条参数形式中优先级最小值， β 为权重增长系数，其取值随提取次数的增加逐渐从0向1收敛；步骤8：定义贪婪策略；生成0‑1之间的随机数η，判断η≤ε ‑greedy是否成立，若是，则选择Qe中最大Q值所对应的动作为车辆执行动作，否则，则随机选择一动作为车辆执行动作；步骤9：创建经验池D，用于存储车辆在每个时刻的状态、动作、奖励信息；在t时刻的状态st经由所述深度神经网络得到所有动作值函数，并利用贪婪策略选择动作at后由车辆执行；车辆在t时刻的状态st下执行动作at得到t+1时刻的状态参数st+1以及t时刻的奖励值 rt，将各个参数以一条参数形式{st,at,rt,st+1}存储入经验池D中；步骤10：构建与所述深度神经网络结构相同的目标神经网络；利用优先提取规则从经验池D中获取bs条参数形式，并将其中t+1时刻状态st+1输入目标神经网络，并有： Qne＝Relu(Relu(st+1×w1′+b1′)×w2′+b2′) (5) 式(5)中， Qne为目标神经网络输出层的输出值即经过所述目标神经网络得到的所有动作的Q值； w1′、 w2′分别为目标神经网络的隐藏层和输出层的权重， b1′、 b2′分别为目标神经网络的隐藏层和输出层的偏置；步骤11：建立目标Q 值Qt；利用式(6)定义在状态s时所执行的动作a的概率分布 π(a|s)： π(a|s)＝P(at＝a|st＝s) (6) 式(6)中， p表示条件概率；利用式(7)得到状态价值函数vπ(s)： vπ(s)＝Eπ(rt+γrt+1+γ2rt+2+···|st＝s) (7) 式(7)中， γ为奖励衰减因子， Eπ表示期望；利用式(8)得到在t时刻执行动作at转到下一个状态s′的概率利用式(9)得到动作价值函数qπ(s,a)：式(9)中，表示车辆在状态s执行动作a后的奖励值， vπ(s′)表示车辆在状态s ′时的状态价值函数；利用式(10)得到目标Q 值Qt： Qt＝rt+γmax(Qne) (10) 步骤12：利用式(1 1)构建损失函数l oss： loss＝ISW×(Qt‑Qe)2 (11) 对损失函数l oss实行梯度下降法，从而更新所述深度神经网络参数w1、 w2、 b1、 b2；权　利　要　求　书 2/3 页 3 CN 112861269 B 3

专利 一种基于深度强化学习优先提取的汽车纵向多态控制方法

专利一种基于深度强化学习优先提取的汽车纵向多态控制方法