(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110267799.0
(22)申请日 2021.03.11
(65)同一申请的已公布的文献号
申请公布号 CN 112861269 A
(43)申请公布日 2021.05.28
(73)专利权人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 黄鹤 吴润晨 张峰 王博文
于海涛 汤德江 张炳力
(74)专利代理 机构 安徽省合肥新 安专利代理有
限责任公司 34101
专利代理师 陆丽莉 何梅生
(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/17(2020.01)
G06F 30/27(2020.01)
G06F 119/14(2020.01)
(56)对比文件
CN 110716562 A,2020.01.21
CN 111985614 A,2020.1 1.24
CN 110969848 A,2020.04.07CN 112162555 A,2021.01.01
CN 112406867 A,2021.02.26
CN 110450771 A,2019.1 1.15
CN 110850720 A,2020.02.28
CN 110716550 A,2020.01.21
US 202026 5305 A1,2020.08.20
US 2019220744 A1,2019.07.18
US 2020033868 A1,2020.01.3 0
CN 111605565 A,2020.09.01
黄鹤, 郭伟锋, 梅炜 炜, 张润, 程进, 张炳力.
基于深度强化学习的自动泊车控制策略. 《2020
中国汽车工程学会年会论文集》 .2020,第181-
189页.
王文飒, 梁 军, 陈龙, 陈小 波, 朱宁, 华国栋.
基于深度强化学习的协同式自适应 巡航控制.
《交通信息与安全》 .2019,第37 卷(第3期),
Dey, K.C.
Li Yan.A review of com munication,
driver c haracteristics, and co ntrols
aspects of co operative adaptive cruise
control. 《IEEE Transacti ons on Intelligent
Transportati on System s》 .2016,第17 卷(第2
期),
审查员 李换
(54)发明名称
一种基于深度强化学习优先提取的汽车纵
向多态控制方法
(57)摘要
本发明公开了一种基于深度强化学习优先
提取的汽车纵向多态控制方法, 其步骤包括: 1定
义汽车行驶的状态参数集s和控制参数集a; 2初
始化深度强化学习参数, 并构建深度神经网络; 3
定义深度强化学习奖励函数以及优 先提取规则;
4训练深度神经网络并得到最优网络模型; 5获得
汽车t时刻状态参数st并输入最优网络模型从而
得到输出at并予汽车执行。 本发明通过结合优先
级提取算法以及深度强化学习的控制方法来完成汽车在纵向的多态行驶, 从而使汽车在行驶过
程中安全性更高, 并减少交通事故的发生。
权利要求书3页 说明书7页
CN 112861269 B
2022.08.30
CN 112861269 B
1.一种基于深度强化学习优先提取的汽车纵向多态控制方法, 其特 征包括以下步骤:
步骤1: 建立车辆动力学模型和车辆行驶环境模型;
步骤2: 采集真实驾驶场景中汽车行驶数据并作为初始化数据, 所述汽车行驶数据为车
辆的初始状态信息以及车辆的初始控制参数信息;
步骤3: 定义车辆的状态信息集s={s0,s1,···st,···,sn}, s0表示车辆的初始状
态信息, st表示车辆在状态st‑1即t‑1时刻执行控制动作at‑1之后所达到的状态, 且有st=
{Axt,et,Vet}, 其中, Axt表示在t时刻 车辆的纵向加速度, et表示在t时刻 前车车速与两车相
对距离的差值, Vet表示在t时刻自身车速与前 车车速的差值;
定义车辆的控制参数集a={a0,a1,···,at,···,an}, a0表示车辆的初始控制参数
信息, at表示车辆在状态st即t时刻车辆所执行的动作, 且有 at={Tt,Bt}, 其中, Tt表示在车
辆在t时刻的节气门开度, Bt表示车辆在t时刻的主缸压力, t=1,2, ···,c, c表示训练总
时长;
步骤4: 初始化参数, 包括时刻t, 贪婪概率ε ‑greedy, 经验池大小ms, 目标网络更新频率
rt, 优先提取 数据条数bs, 奖励衰减因子γ;
步骤5: 构建深度神经网络, 并随机初始化神经网络的参数: 权 重w, 偏置b;
所述深度神经网络包含输入层、 隐藏层、 输出层; 其中, 所述输入层包含m个神经元, 用
于输入车辆在t时刻的状态st, 所述隐藏层包含n个神经元, 并利用激活函数Relu计算来自
输入层的状态信息并传输给输出层, 所述输出层包含k个神经元, 用于输出动作值函数, 并
有:
Qe=Relu(Relu(st×w1+b1)×w2+b2) (1)
式(1)中, w1、 b1为隐藏层的权重与偏置值, w2、 b2为输出层的权重与偏置值, Qe为输出层
的输出值即经 过所述深度神经网络得到的所有动作的当前Q 值;
步骤6: 定义深度强化学习的奖励函数:
式(2)和式(3)中, rh为车辆高速状态 下的奖励值, rl是车辆低速状态 下的奖励值, dis为
自身车辆与前车的相对距离, Vf为前车车速, x表 示相对距离下限, y表 示相对距离上限, mid
表示奖励函数关于相对距离的切换阈值, lim表示奖励函数关于自身车速与前车车速差值
的切换阈值, z表示奖励函数关于前 车车速的切换阈值, u表示前 车车速下限;
步骤7: 定义经验 池优先提取规则;
对经验池中所存储的当前Q值Qe与目标Q值Qt做差, 并根据SumTr ee算法用其差值来对经
验池中所存储的各条参数形式进 行优先级排序, 得到排序后的参数形式并从 中提取前bs条
参数形式;
利用式(4)得到所提取的前bs条参数 形式的权 重ISW:权 利 要 求 书 1/3 页
2
CN 112861269 B
2式(4)中, pk为任意第k条参数形式的优先级值, min(p)为所提取的前bs条参数形式中优
先级最小值, β 为权 重增长系数, 其取值随提取次数的增 加逐渐从0向1收敛;
步骤8: 定义贪婪策略;
生成0‑1之间的随机数η, 判断η≤ε ‑greedy是否成立, 若是, 则选择Qe中最大Q值所对应
的动作为车辆执 行动作, 否则, 则随机 选择一动作为车辆执 行动作;
步骤9: 创建经验 池D, 用于存 储车辆在每 个时刻的状态、 动作、 奖励信息;
在t时刻的状态st经由所述深度神经网络得到 所有动作值函数, 并利用贪婪策略选 择动
作at后由车辆执 行;
车辆在t时刻 的状态st下执行动作at得到t+1时刻 的状态参数st+1以及t时刻 的奖励值
rt, 将各个参数以一条参数 形式{st,at,rt,st+1}存储入经验池D中;
步骤10: 构建与所述深度神经网络结构相同的目标神经网络;
利用优先提取规则从经验池D中获取bs条参数形式, 并将其中t+1时刻状态st+1输入目
标神经网络, 并有:
Qne=Relu(Relu(st+1×w1′+b1′)×w2′+b2′) (5)
式(5)中, Qne为目标神经网络输出层的输出值即经过所述目标神经网络得到的所有动
作的Q值; w1′、 w2′分别为目标神经网络的隐藏层和输出层的权重, b1′、 b2′分别为目标神经
网络的隐藏层和输出层的偏置;
步骤11: 建立目标Q 值Qt;
利用式(6)定义在状态s时所 执行的动作a的概 率分布 π(a|s):
π(a|s)=P(at=a|st=s) (6)
式(6)中, p表示条件概 率;
利用式(7)得到状态价 值函数vπ(s):
vπ(s)=Eπ(rt+γrt+1+γ2rt+2+···|st=s) (7)
式(7)中, γ为奖励衰减因子, Eπ表示期望;
利用式(8)得到在t时刻执 行动作at转到下一个 状态s′的概率
利用式(9)得到动作价 值函数qπ(s,a):
式(9)中,
表示车辆在状态s执行动作a后的奖励值, vπ(s′)表示车辆在状态s ′时的状
态价值函数;
利用式(10)得到目标Q 值Qt:
Qt=rt+γmax(Qne) (10)
步骤12: 利用式(1 1)构建损失函数l oss:
loss=ISW×(Qt‑Qe)2 (11)
对损失函数l oss实行梯度下降法, 从而更新所述深度神经网络参数w1、 w2、 b1、 b2;权 利 要 求 书 2/3 页
3
CN 112861269 B
3
专利 一种基于深度强化学习优先提取的汽车纵向多态控制方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:20:31上传分享