说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110534127.1 (22)申请日 2021.05.17 (65)同一申请的已公布的文献号 申请公布号 CN 113487902 A (43)申请公布日 2021.10.08 (73)专利权人 东南大学 地址 210000 江苏省南京市玄武区四牌楼 2 号 专利权人 扬州市法马智能设备有限公司 (72)发明人 王昊 卢云雪 董长印 杨朝友  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 姜慧勤 (51)Int.Cl. G08G 1/0968(2006.01) G08G 1/0967(2006.01) G08G 1/01(2006.01)G06F 30/27(2020.01) G06N 20/00(2019.01) G06Q 10/04(2012.01) G06Q 50/26(2012.01) (56)对比文件 CN 112632858 A,2021.04.09 CN 111915894 A,2020.1 1.10 CN 112365724 A,2021.02.12 CN 105046987 A,2015.1 1.11 RU 2379761 C1,2010.01.20 YUNXUE LU,HAO WANG.Compatibi lity- Based Ap proach for Routi ng and Sc heduling the Demand Respo nsive Co nnector. 《IE EE Access 》 .2020,第8卷1017 70-101783. 黄艳国等.基 于多智能体的城市交通区域协 调控制方法. 《武汉理工大 学学报(交通科 学与工 程版)》 .2010,第34卷(第02期),197-20 0. 审查员 刘俊 (54)发明名称 一种基于车辆规划路径的强化学习区域信 号控制方法 (57)摘要 本发明公开了一种基于车辆规划路径的强 化学习区域信号控制方法, 具体为在车联网环境 下, 收集智能体控制范围内交叉口所有车辆的规 划路径信息以及位置信息, 利用强化学习PPO2算 法, 对区域内的道路交叉口进行分布式信号控 制, 实现区域交通联动优化。 具体为给出多智能 体强化学习在区域交通信号控制的控制框架; 基 于车辆规划路径信息和车辆位置信息定义道路 交通状态; 定义交叉口信号控制的动作变量; 以 减小交叉口排队长度, 减小车辆延误和避免下游 交通堵塞为目标定义智能体与交通环境交互奖 励; 同时提出 “距离因子 ”衡量PPO2算法产生的控 制方案与排 队优先长度优先策略产生方案的距 离, 避免PPO2算法输 出不良控制方法造成道路 交通不正常扰动。 权利要求书3页 说明书6页 附图3页 CN 113487902 B 2022.08.12 CN 113487902 B 1.一种基于车辆规划路径的强化学习区域信号控制方法, 其特征在于, 具体包括如下 步骤: 步骤1, 设计目标区域交通信号控制中智能体的控制框架, 并对道路交通状态进行建 模, 包括: 以目标区域中每一个交叉口作为独立智能体, 为每一个独立智能体构建各自对应 的强化学习控制模型和数据库; 步骤2: 令交叉口独立智能体与交叉口环境进行交互, 实时收集交叉口一定范围内的道 路交通状态信息; 所述 一定范围包括交叉口和相邻交叉口 的进口道; 所述道路交通状态信息是由车辆规划路径矩阵、 车辆位置矩阵、 车道和路段对应关系 向量以及绿时向量构成的集 合; 所述车辆规划路径矩阵用Distributionm×n×4表示, 其中每一行对应一条车道, 将智能 体监测范围内的车道以1米进 行分隔, 得到若干个单元格, 每一列对应一个所述单元格; 若t 时刻车道i 的第k个单元格中存在车辆, 则Distribution(i, k, 1)、 Distribution(i, k, 2)、 Distribution(i, k, 3)和Distribution(i, k, 4)分别存储该车辆在t时刻之后可能经过的四 条规划路段编号; 所述车辆位置矩阵用Posm×n×1表示, 其中每一行对应智能体监测范围内的一条车道; 每 一列对应一个所述单元格; 若t时刻车道i的第k个单元格中存在车辆, 则Pos(i, k)=1; 若t 时刻车道i的第k个单 元格中不存在车辆, 则Pos(i, k)=0; 所述车道和路段对应关系向量用Im×1表示; 则Ii表示车道i所在的路段编号; 所述绿时向量用Gm×1表示; 则Gi表示车道i在t时刻所在当前周期的剩余绿灯通行时间; 步骤3, 将当前时刻交叉口的道路交通状态信息作为该交叉口对应的强化学习控制模 型的输入, 得到 当前时刻的下一时刻的交叉口信号控制方案, 以及该控制方案的评价结果; 所述信号控制方案包括 放行相位和绿灯时间; 步骤4, 通过当前时刻交叉口的道路交通状态信息, 利用排队优先长度 策略生成当前时 刻的下一时刻的交叉口信号控制方案; 步骤5, 利用强化学习控制模型得到的交叉口信号控制方案以及排队优先长度策略生 成的交叉口信号控制方案, 计算距离因子; 若计算得到的距离因子大于 设定的距离阈值, 则 在交叉口实施排队优先长度策略生成的交叉 口信号控制方案; 否则, 在交叉 口实施强化学 习控制模型 得到的交叉口信号控制方案; 所述距离因子的计算公式如下: 式中, γ为距离因子; 为强化学习控制模型得到的交叉口信号控制方案; 为排队长 度优先策略生成的信号控制方案; 步骤6, 将目标区域中交叉口智能体收集的道路交通状态信 息、 交叉口各自对应的信号 控制方案以及交叉口智能体与环境交互的奖励实时存储至交叉口各自对应的数据库中, 并 判断当交叉口数据库中存储的数据信息累计至 设定大小时, 更新该交叉口对应的强化学习 控制模型参数, 并在更新完成后清空数据库中的全部数据, 返回步骤2。 2.根据权利要求1所述的一种基于车辆规划路径的强化学习区域信号控制方法, 其特 征在于, 步骤6中目标区域中交叉口智能体收集的道路交通状态信息、 交叉口各自对应的信 号控制方案以及交叉口智能体与环境交互的奖励以<st, at, rt+1, st+1>的形式存储至交叉口权 利 要 求 书 1/3 页 2 CN 113487902 B 2各自对应的数据库中; 其中, st表示交叉口智能体在t时刻收集到的道路交通状态信息; at表 示交叉口在t时刻实施的信号控制方案; rt+1表示交叉口智能体在t+1时刻与环境交互的奖 励; st+1表示交叉口智能体在t+1时刻收集到的道路交通状态信息 。 3.根据权利要求1所述的一种基于车辆规划路径的强化学习区域信号控制方法, 其特 征在于, 所述交叉口智能体与 环境交互的奖励, 是由交叉口进口道首车等候时间、 交叉口进 口道排队长度和交叉口出口道排队长度计算得到的, 具体如下: 式中, rt+1为交叉口智能体在t+1时刻与环境交互的奖励; lin、 lout分别为交叉口的进口 道、 出口道 集合; wi、 qi分别为车道 i的首车等候时间和排队长度; fj为布尔变量, 用来衡量出 口道排队长度是否超过路段长度Lj的四分之三, 如果 则fj=1, 否则fj=0; Lj为车道j 的路段长度; qj为车道j的排队长度; δ 为 惩罚因子 。 4.根据权利要求2所述的一种基于车辆规划路径的强化学习区域信号控制方法, 其特 征在于, 步骤6所述当交叉口数据库中存储的数据信息累计至 设定大小时, 则更新该 交叉口 对应的强化学习控制模型参数, 并在更新完成后清空数据库中的全部数据, 包括: 步骤6.1, 初始化强化学习控制模型参数, 包括: 初始化超参数的值, 包括学习速率α 、 距离因子的阈值σ 、 惩罚因子 δ; 为动作模型Actorθ的参数、 评价模型Criticw的参数赋初始值, 其中, θ和w分别为待更新 的动作模型和评价模型的参数; 定义Actor_oldθ′、 Critic_oldw′为Actorθ、 Criticw模型的副本, 即Act or_oldθ′模型的参 数等于Actorθ未更新时的参数, 并在更新过程中参数保持不变; 为Actorθ和Criticw设置训练次数n_actor、 n_critic; 步骤6.2, 利用数据库中 的全部数据xt=<st, at, rt+1, st+1>, 更新强化学习控制模型中 的 动作模型, 包括: 步骤6.21, 计算A(st, at)=rt+1+τVw(st+1)‑Vw(st) 式中, Vw(st+1)为评价模型Criticw在t+1时刻输出的评价结果; Vw(st)为评价模型在t时 刻输出的评价结果; τ为折减因子; A(st, at)为在道路交通状态信息st下实施信号控制方案 at的优势; 步骤6.22, 计算Actorθ模型的梯度: 式中, E表示数学期 望; (st, at)~ πθ′表示使用的数据是由Act or_oldθ′模型得到的; Pθ(at |st)、 Pθ′(at|st)为动作模型Actorθ、 Actor_oldθ′在道路交通状态信息st下实施信号控制方 案at的概率; 表示对参数θ 求 导数; 步骤6.23, 根据Adam优化方法, 更新 参数θ; 步骤6.24, 重复步骤6.2 2‑步骤6.23n_actor次; 步骤6.3, 利用数据库中 的全部数据

.PDF文档 专利 一种基于车辆规划路径的强化学习区域信号控制方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于车辆规划路径的强化学习区域信号控制方法 第 1 页 专利 一种基于车辆规划路径的强化学习区域信号控制方法 第 2 页 专利 一种基于车辆规划路径的强化学习区域信号控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:20:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。