专利 一种基于车辆规划路径的强化学习区域信号控制方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110534127.1 (22)申请日 2021.05.17 (65)同一申请的已公布的文献号申请公布号 CN 113487902 A (43)申请公布日 2021.10.08 (73)专利权人东南大学地址 210000 江苏省南京市玄武区四牌楼 2 号专利权人扬州市法马智能设备有限公司 (72)发明人王昊　卢云雪　董长印　杨朝友　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师姜慧勤 (51)Int.Cl. G08G 1/0968(2006.01) G08G 1/0967(2006.01) G08G 1/01(2006.01)G06F 30/27(2020.01) G06N 20/00(2019.01) G06Q 10/04(2012.01) G06Q 50/26(2012.01) (56)对比文件 CN 112632858 A,2021.04.09 CN 111915894 A,2020.1 1.10 CN 112365724 A,2021.02.12 CN 105046987 A,2015.1 1.11 RU 2379761 C1,2010.01.20 YUNXUE LU,HAO WANG.Compatibi lity- Based Ap proach for Routi ng and Sc heduling the Demand Respo nsive Co nnector. 《IE EE Access 》 .2020,第8卷1017 70-101783. 黄艳国等.基于多智能体的城市交通区域协调控制方法. 《武汉理工大学学报(交通科学与工程版)》 .2010,第34卷(第02期),197-20 0. 审查员刘俊 (54)发明名称一种基于车辆规划路径的强化学习区域信号控制方法 (57)摘要本发明公开了一种基于车辆规划路径的强化学习区域信号控制方法，具体为在车联网环境下，收集智能体控制范围内交叉口所有车辆的规划路径信息以及位置信息，利用强化学习PPO2算法，对区域内的道路交叉口进行分布式信号控制，实现区域交通联动优化。具体为给出多智能体强化学习在区域交通信号控制的控制框架；基于车辆规划路径信息和车辆位置信息定义道路交通状态；定义交叉口信号控制的动作变量；以减小交叉口排队长度，减小车辆延误和避免下游交通堵塞为目标定义智能体与交通环境交互奖励；同时提出 “距离因子 ”衡量PPO2算法产生的控制方案与排队优先长度优先策略产生方案的距离，避免PPO2算法输出不良控制方法造成道路交通不正常扰动。权利要求书3页说明书6页附图3页 CN 113487902 B 2022.08.12 CN 113487902 B 1.一种基于车辆规划路径的强化学习区域信号控制方法，其特征在于，具体包括如下步骤：步骤1，设计目标区域交通信号控制中智能体的控制框架，并对道路交通状态进行建模，包括：以目标区域中每一个交叉口作为独立智能体，为每一个独立智能体构建各自对应的强化学习控制模型和数据库；步骤2：令交叉口独立智能体与交叉口环境进行交互，实时收集交叉口一定范围内的道路交通状态信息；所述一定范围包括交叉口和相邻交叉口的进口道；所述道路交通状态信息是由车辆规划路径矩阵、车辆位置矩阵、车道和路段对应关系向量以及绿时向量构成的集合；所述车辆规划路径矩阵用Distributionm×n×4表示，其中每一行对应一条车道，将智能体监测范围内的车道以1米进行分隔，得到若干个单元格，每一列对应一个所述单元格；若t 时刻车道i 的第k个单元格中存在车辆，则Distribution(i， k， 1)、 Distribution(i， k， 2)、 Distribution(i， k， 3)和Distribution(i， k， 4)分别存储该车辆在t时刻之后可能经过的四条规划路段编号；所述车辆位置矩阵用Posm×n×1表示，其中每一行对应智能体监测范围内的一条车道；每一列对应一个所述单元格；若t时刻车道i的第k个单元格中存在车辆，则Pos(i， k)＝1；若t 时刻车道i的第k个单元格中不存在车辆，则Pos(i， k)＝0；所述车道和路段对应关系向量用Im×1表示；则Ii表示车道i所在的路段编号；所述绿时向量用Gm×1表示；则Gi表示车道i在t时刻所在当前周期的剩余绿灯通行时间；步骤3，将当前时刻交叉口的道路交通状态信息作为该交叉口对应的强化学习控制模型的输入，得到当前时刻的下一时刻的交叉口信号控制方案，以及该控制方案的评价结果；所述信号控制方案包括放行相位和绿灯时间；步骤4，通过当前时刻交叉口的道路交通状态信息，利用排队优先长度策略生成当前时刻的下一时刻的交叉口信号控制方案；步骤5，利用强化学习控制模型得到的交叉口信号控制方案以及排队优先长度策略生成的交叉口信号控制方案，计算距离因子；若计算得到的距离因子大于设定的距离阈值，则在交叉口实施排队优先长度策略生成的交叉口信号控制方案；否则，在交叉口实施强化学习控制模型得到的交叉口信号控制方案；所述距离因子的计算公式如下：式中， γ为距离因子；为强化学习控制模型得到的交叉口信号控制方案；为排队长度优先策略生成的信号控制方案；步骤6，将目标区域中交叉口智能体收集的道路交通状态信息、交叉口各自对应的信号控制方案以及交叉口智能体与环境交互的奖励实时存储至交叉口各自对应的数据库中，并判断当交叉口数据库中存储的数据信息累计至设定大小时，更新该交叉口对应的强化学习控制模型参数，并在更新完成后清空数据库中的全部数据，返回步骤2。 2.根据权利要求1所述的一种基于车辆规划路径的强化学习区域信号控制方法，其特征在于，步骤6中目标区域中交叉口智能体收集的道路交通状态信息、交叉口各自对应的信号控制方案以及交叉口智能体与环境交互的奖励以<st， at， rt+1， st+1>的形式存储至交叉口权　利　要　求　书 1/3 页 2 CN 113487902 B 2各自对应的数据库中；其中， st表示交叉口智能体在t时刻收集到的道路交通状态信息； at表示交叉口在t时刻实施的信号控制方案； rt+1表示交叉口智能体在t+1时刻与环境交互的奖励； st+1表示交叉口智能体在t+1时刻收集到的道路交通状态信息。 3.根据权利要求1所述的一种基于车辆规划路径的强化学习区域信号控制方法，其特征在于，所述交叉口智能体与环境交互的奖励，是由交叉口进口道首车等候时间、交叉口进口道排队长度和交叉口出口道排队长度计算得到的，具体如下：式中， rt+1为交叉口智能体在t+1时刻与环境交互的奖励； lin、 lout分别为交叉口的进口道、出口道集合； wi、 qi分别为车道 i的首车等候时间和排队长度； fj为布尔变量，用来衡量出口道排队长度是否超过路段长度Lj的四分之三，如果则fj＝1，否则fj＝0； Lj为车道j 的路段长度； qj为车道j的排队长度； δ 为惩罚因子。 4.根据权利要求2所述的一种基于车辆规划路径的强化学习区域信号控制方法，其特征在于，步骤6所述当交叉口数据库中存储的数据信息累计至设定大小时，则更新该交叉口对应的强化学习控制模型参数，并在更新完成后清空数据库中的全部数据，包括：步骤6.1，初始化强化学习控制模型参数，包括：初始化超参数的值，包括学习速率α 、距离因子的阈值σ 、惩罚因子 δ；为动作模型Actorθ的参数、评价模型Criticw的参数赋初始值，其中， θ和w分别为待更新的动作模型和评价模型的参数；定义Actor_oldθ′、 Critic_oldw′为Actorθ、 Criticw模型的副本，即Act or_oldθ′模型的参数等于Actorθ未更新时的参数，并在更新过程中参数保持不变；为Actorθ和Criticw设置训练次数n_actor、 n_critic；步骤6.2，利用数据库中的全部数据xt＝<st， at， rt+1， st+1>，更新强化学习控制模型中的动作模型，包括：步骤6.21，计算A(st， at)＝rt+1+τVw(st+1)‑Vw(st) 式中， Vw(st+1)为评价模型Criticw在t+1时刻输出的评价结果； Vw(st)为评价模型在t时刻输出的评价结果； τ为折减因子； A(st， at)为在道路交通状态信息st下实施信号控制方案 at的优势；步骤6.22，计算Actorθ模型的梯度：式中， E表示数学期望； (st， at)～ πθ′表示使用的数据是由Act or_oldθ′模型得到的； Pθ(at |st)、 Pθ′(at|st)为动作模型Actorθ、 Actor_oldθ′在道路交通状态信息st下实施信号控制方案at的概率；表示对参数θ 求导数；步骤6.23，根据Adam优化方法，更新参数θ；步骤6.24，重复步骤6.2 2‑步骤6.23n_actor次；步骤6.3，利用数据库中的全部数据

专利 一种基于车辆规划路径的强化学习区域信号控制方法

专利一种基于车辆规划路径的强化学习区域信号控制方法