专利 一种基于生成对抗网络和强化学习的分布式交通信号控制方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110331933.9 (22)申请日 2021.03.29 (65)同一申请的已公布的文献号申请公布号 CN 113436443 A (43)申请公布日 2021.09.24 (73)专利权人东南大学地址 210000 江苏省南京市玄武区四牌楼 2 号专利权人扬州市法马智能设备有限公司 (72)发明人王昊　卢云雪　董长印　杨朝友　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师罗运红 (51)Int.Cl. G08G 1/07(2006.01)G08G 1/01(2006.01) G06F 30/27(2020.01) 审查员刘宗明 (54)发明名称一种基于生成对抗网络和强化学习的分布式交通信号控制方法 (57)摘要本发明公开了一种利用改进的生成对抗网络(WGAN‑GP)加速强化学习(RL)算法并用于区域交通信号控制的方法，将生成对抗网络在生成数据方面的优势，以及强化学习算法在学习控制策略方面的优势运用到区域交通信号控制中，能有效的提高信号控制策略学习的速度和效果。本发明方法主要包括，给出多智能体强化学习在区域交通信号控制的控制框架，同时定义强化学习的各要素，即状态、动作、奖励，目标函数；定义生成对抗网络结构；提出生成对抗网络与强化学习的数据交互框架。权利要求书3页说明书7页附图3页 CN 113436443 B 2022.08.26 CN 113436443 B 1.一种基于生成对抗网络和强化学习的分布式交通信号控制方法，其特征在于，该方法包括以下步骤： (1)设计多智能体强化学习在区域交通信号控制的控制框架，同时定义强化学习的各要素，即状态、动作、奖励； (2)应用基于强化学习的智能体与交通仿真环境交互，并积累交互数据，每个时刻t，智能体与交通仿真环境交互，多线程累积数据，将数据以<st， at， rt+1， st+1>的形式存储到经验数据库中，其中， st、 st+1分别为t、 t+1时刻的环境状态， at为t时刻智能体输出的信号控制方案， rt+1是t+1时刻智能体从交通仿真环境得到的奖励，所述交通仿真环境为SUMO或 VISSIM仿真平台，智能体记为a gent； (3)在生成对抗模型GAN的基础上，构建基于策略的生成对抗模型P ‑WGAN‑GP，用于生成交通数据的伪数据库，模型训练中，生成模型G以策略Pt产生的动作和随机噪声向量为输入，生成t时刻和t+1时刻的伪造状态 t+1时刻的伪造奖励根据计算得到，从而形成一条伪造数据通过输入不同的噪声向量，生成模型将产生批量的基于策略Pt的伪数据集，将经验数据库中的真实数据和生成模型产生的伪数据输入到对抗模型D中，对抗模型通过更新模型参数增强对真实数据和伪数据的评估能力，而根据对抗模型D对伪数据的评价，生成模型G也进一步更新模型参数以提高生成数据的真实度，当生成模型G的参数收敛后，重新输入批量噪声向量，生成伪数据存储在伪数据库 (4)以伪数据库作为经验数据库中数据的补充，用于强化学习模型的训练，对强化学习模型的参数进行更新，多智能体信号控制系统采用分布式训练 ‑分布式控制方式，即每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型，然后进行分布式控制；所述步骤(2)中单个智能体采用了基于优势演员 ‑评论家算法的强化学习模型，模型在训练阶段，通过与多个交通仿真器交互，多线程构建经验数据库用于后续生成对抗模型的参数训练，单个智能体与交通仿真环境交互的过程如下：根据步骤(1)中的状态定义，智能体获取t时刻的环境状态st，将t时刻的演员模型A ctor 记为策略Pt，智能体将st输入演员模型，得到t时刻的信号控制相位at；在动作at的作用下，交通状态更新到st+1，并通过评估st+1得到st状态下采取at的奖励rt+1，从而得到一条经验数据<st， at， rt+1， st+1>，并将其存储到数据库中，每个智能体通过与交通仿真环境反复进行交互，即可构建各自的经验数据库所述优势演员 ‑评论家算法记为A 2C；所述步骤(3)中在生成对抗模型GAN的基础上所构建基于策略的生成对抗模型P ‑WGAN‑ GP，其中生成模型G以t时刻的策略Pt，即t时刻的演员模型Actor产生的动作和随机噪声向量z为输入，生成t时刻和t+1时刻的状态并根据得到从而形成一条伪数据对抗模型D以伪状态对和经验状态对<st， st+1>为输入，输出对于各状态对的评价值；定义生成模型G的目标函数为：其中，表示由生成模型G输出的伪数据，是对抗模型D的输出； I(X； Y)在信息权　利　要　求　书 1/3 页 2 CN 113436443 B 2论表示变量X和Y的互信息，用于衡量两个变量之间关系； G(z， Pt)是生成模型G的输出， δ是惩罚因子，使目标函数中对抗模型的期望值和生成模型输入与输出的互信息在同一量级；定义对抗模型D的目标函数为：其中， x～Pr表示从经验数据库中取样的数据；为对抗模型的梯度惩罚，从而使梯度值和1的差值在预设范围内；是通过对经验数据和伪数据均匀插值得到的数据；是对抗模型输出对于的梯度，是对该梯度的求模； λ为梯度因子； P‑WGAN‑GP的训练方法如下： (a)初始化：给定超参数的值，包括惩罚因子δ、梯度因子λ，学习速率α， Adam优化器中的参数β1和β2；批量样本的大小m，给定n_critic，其定义为G每迭代一次，对抗模型D需要迭代 n_critic次；以θ和w分别表示生成模型G和对抗模型D的参数，给模型Gθ和Dw的参数赋初值； (b)保持生成模型G的参数不变，对抗模型D的参数迭代n_critic次； (b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z，以及一组随机数字∈～U[0， 1]； (b.2)利用生成模型产生伪造数据生成经验数据和伪数据的插值数据 (b.3)计算对抗模型的目标函数： (b.4)更新对抗模型的参数其中，是目标函数对模型参数w的梯度； (c)保持对抗模型D的参数不变，更新生成模型G的参数； (c.1)生成大小为m的随机噪声z； (c.2)利用生成模型G生成伪数据 (c.3)计算生成模型的目标函数 (c.4)计算生成模型目标函数对参数的梯度 (c.4)更新生成模型的参数 (d)重复步骤(b)、 (c)，直至生成模型G和对抗模型D收敛，然后再生成一组随机噪声z ′，同时根据Pt，即t时刻的演员模型，生成对应的伪动作将z′和输入训练好的生成模型G，以生成模型G的输出作为伪数据库 2.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法，其特征在于，所述步骤(1)中控制框架为：每个交叉口作为独立智能体收集数据并进行模型训练；各智能体之间进行状态信息的交互，优化交叉口的信号控制策略，从而间接实现区域交通的联合控制；智能体之间的信息交互体现在对环境状态的定义上，每个智能体在时刻 t的环境状态st 定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Qt、进口道首车等候时间矩阵权　利　要　求　书 2/3 页 3 CN 113436443 B 3

专利 一种基于生成对抗网络和强化学习的分布式交通信号控制方法

专利一种基于生成对抗网络和强化学习的分布式交通信号控制方法