说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110267799.0 (22)申请日 2021.03.11 (65)同一申请的已公布的文献号 申请公布号 CN 112861269 A (43)申请公布日 2021.05.28 (73)专利权人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 黄鹤 吴润晨 张峰 王博文  于海涛 汤德江 张炳力  (74)专利代理 机构 安徽省合肥新 安专利代理有 限责任公司 34101 专利代理师 陆丽莉 何梅生 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/17(2020.01) G06F 30/27(2020.01) G06F 119/14(2020.01) (56)对比文件 CN 110716562 A,2020.01.21 CN 111985614 A,2020.1 1.24 CN 110969848 A,2020.04.07CN 112162555 A,2021.01.01 CN 112406867 A,2021.02.26 CN 110450771 A,2019.1 1.15 CN 110850720 A,2020.02.28 CN 110716550 A,2020.01.21 US 202026 5305 A1,2020.08.20 US 2019220744 A1,2019.07.18 US 2020033868 A1,2020.01.3 0 CN 111605565 A,2020.09.01 黄鹤, 郭伟锋, 梅炜 炜, 张润, 程进, 张炳力. 基于深度强化学习的自动泊车控制策略. 《2020 中国汽车工程学会年会论文集》 .2020,第181- 189页. 王文飒, 梁 军, 陈龙, 陈小 波, 朱宁, 华国栋. 基于深度强化学习的协同式自适应 巡航控制. 《交通信息与安全》 .2019,第37 卷(第3期), Dey, K.C. Li Yan.A review of com munication, driver c haracteristics, and co ntrols aspects of co operative adaptive cruise control. 《IEEE Transacti ons on Intelligent Transportati on System s》 .2016,第17 卷(第2 期), 审查员 李换 (54)发明名称 一种基于深度强化学习优先提取的汽车纵 向多态控制方法 (57)摘要 本发明公开了一种基于深度强化学习优先 提取的汽车纵向多态控制方法, 其步骤包括: 1定 义汽车行驶的状态参数集s和控制参数集a; 2初 始化深度强化学习参数, 并构建深度神经网络; 3 定义深度强化学习奖励函数以及优 先提取规则; 4训练深度神经网络并得到最优网络模型; 5获得 汽车t时刻状态参数st并输入最优网络模型从而 得到输出at并予汽车执行。 本发明通过结合优先 级提取算法以及深度强化学习的控制方法来完成汽车在纵向的多态行驶, 从而使汽车在行驶过 程中安全性更高, 并减少交通事故的发生。 权利要求书3页 说明书7页 CN 112861269 B 2022.08.30 CN 112861269 B 1.一种基于深度强化学习优先提取的汽车纵向多态控制方法, 其特 征包括以下步骤: 步骤1: 建立车辆动力学模型和车辆行驶环境模型; 步骤2: 采集真实驾驶场景中汽车行驶数据并作为初始化数据, 所述汽车行驶数据为车 辆的初始状态信息以及车辆的初始控制参数信息; 步骤3: 定义车辆的状态信息集s={s0,s1,···st,···,sn}, s0表示车辆的初始状 态信息, st表示车辆在状态st‑1即t‑1时刻执行控制动作at‑1之后所达到的状态, 且有st= {Axt,et,Vet}, 其中, Axt表示在t时刻 车辆的纵向加速度, et表示在t时刻 前车车速与两车相 对距离的差值, Vet表示在t时刻自身车速与前 车车速的差值; 定义车辆的控制参数集a={a0,a1,···,at,···,an}, a0表示车辆的初始控制参数 信息, at表示车辆在状态st即t时刻车辆所执行的动作, 且有 at={Tt,Bt}, 其中, Tt表示在车 辆在t时刻的节气门开度, Bt表示车辆在t时刻的主缸压力, t=1,2, ···,c, c表示训练总 时长; 步骤4: 初始化参数, 包括时刻t, 贪婪概率ε ‑greedy, 经验池大小ms, 目标网络更新频率 rt, 优先提取 数据条数bs, 奖励衰减因子γ; 步骤5: 构建深度神经网络, 并随机初始化神经网络的参数: 权 重w, 偏置b; 所述深度神经网络包含输入层、 隐藏层、 输出层; 其中, 所述输入层包含m个神经元, 用 于输入车辆在t时刻的状态st, 所述隐藏层包含n个神经元, 并利用激活函数Relu计算来自 输入层的状态信息并传输给输出层, 所述输出层包含k个神经元, 用于输出动作值函数, 并 有: Qe=Relu(Relu(st×w1+b1)×w2+b2)         (1) 式(1)中, w1、 b1为隐藏层的权重与偏置值, w2、 b2为输出层的权重与偏置值, Qe为输出层 的输出值即经 过所述深度神经网络得到的所有动作的当前Q 值; 步骤6: 定义深度强化学习的奖励函数: 式(2)和式(3)中, rh为车辆高速状态 下的奖励值, rl是车辆低速状态 下的奖励值, dis为 自身车辆与前车的相对距离, Vf为前车车速, x表 示相对距离下限, y表 示相对距离上限, mid 表示奖励函数关于相对距离的切换阈值, lim表示奖励函数关于自身车速与前车车速差值 的切换阈值, z表示奖励函数关于前 车车速的切换阈值, u表示前 车车速下限; 步骤7: 定义经验 池优先提取规则; 对经验池中所存储的当前Q值Qe与目标Q值Qt做差, 并根据SumTr ee算法用其差值来对经 验池中所存储的各条参数形式进 行优先级排序, 得到排序后的参数形式并从 中提取前bs条 参数形式; 利用式(4)得到所提取的前bs条参数 形式的权 重ISW:权 利 要 求 书 1/3 页 2 CN 112861269 B 2式(4)中, pk为任意第k条参数形式的优先级值, min(p)为所提取的前bs条参数形式中优 先级最小值, β 为权 重增长系数, 其取值随提取次数的增 加逐渐从0向1收敛; 步骤8: 定义贪婪策略; 生成0‑1之间的随机数η, 判断η≤ε ‑greedy是否成立, 若是, 则选择Qe中最大Q值所对应 的动作为车辆执 行动作, 否则, 则随机 选择一动作为车辆执 行动作; 步骤9: 创建经验 池D, 用于存 储车辆在每 个时刻的状态、 动作、 奖励信息; 在t时刻的状态st经由所述深度神经网络得到 所有动作值函数, 并利用贪婪策略选 择动 作at后由车辆执 行; 车辆在t时刻 的状态st下执行动作at得到t+1时刻 的状态参数st+1以及t时刻 的奖励值 rt, 将各个参数以一条参数 形式{st,at,rt,st+1}存储入经验池D中; 步骤10: 构建与所述深度神经网络结构相同的目标神经网络; 利用优先提取规则从经验池D中获取bs条参数形式, 并将其中t+1时刻状态st+1输入目 标神经网络, 并有: Qne=Relu(Relu(st+1×w1′+b1′)×w2′+b2′)           (5) 式(5)中, Qne为目标神经网络输出层的输出值即经过所述目标神经网络得到的所有动 作的Q值; w1′、 w2′分别为目标神经网络的隐藏层和输出层的权重, b1′、 b2′分别为目标神经 网络的隐藏层和输出层的偏置; 步骤11: 建立目标Q 值Qt; 利用式(6)定义在状态s时所 执行的动作a的概 率分布 π(a|s): π(a|s)=P(at=a|st=s)                (6) 式(6)中, p表示条件概 率; 利用式(7)得到状态价 值函数vπ(s): vπ(s)=Eπ(rt+γrt+1+γ2rt+2+···|st=s)              (7) 式(7)中, γ为奖励衰减因子, Eπ表示期望; 利用式(8)得到在t时刻执 行动作at转到下一个 状态s′的概率 利用式(9)得到动作价 值函数qπ(s,a): 式(9)中, 表示车辆在状态s执行动作a后的奖励值, vπ(s′)表示车辆在状态s ′时的状 态价值函数; 利用式(10)得到目标Q 值Qt: Qt=rt+γmax(Qne)                  (10) 步骤12: 利用式(1 1)构建损失函数l oss: loss=ISW×(Qt‑Qe)2                (11) 对损失函数l oss实行梯度下降法, 从而更新所述深度神经网络参数w1、 w2、 b1、 b2;权 利 要 求 书 2/3 页 3 CN 112861269 B 3

.PDF文档 专利 一种基于深度强化学习优先提取的汽车纵向多态控制方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习优先提取的汽车纵向多态控制方法 第 1 页 专利 一种基于深度强化学习优先提取的汽车纵向多态控制方法 第 2 页 专利 一种基于深度强化学习优先提取的汽车纵向多态控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:20:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。