说明:收录全文最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110331933.9 (22)申请日 2021.03.29 (65)同一申请的已公布的文献号 申请公布号 CN 113436443 A (43)申请公布日 2021.09.24 (73)专利权人 东南大学 地址 210000 江苏省南京市玄武区四牌楼 2 号 专利权人 扬州市法马智能设备有限公司 (72)发明人 王昊 卢云雪 董长印 杨朝友 (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 罗运红 (51)Int.Cl. G08G 1/07(2006.01)G08G 1/01(2006.01) G06F 30/27(2020.01) 审查员 刘宗明 (54)发明名称 一种基于生成对抗网络和强化学习的分布 式交通信号控制方法 (57)摘要 本发明公开了一种利用改进的生成对抗网 络(WGAN‑GP)加速强化学习(RL)算 法并用于区域 交通信号控制的方法, 将生 成对抗网络在生成数 据方面的优势, 以及强化学习算法在学习控制策 略方面的优势运用到区域交通信号控制中, 能有 效的提高信号控制策略学习的速度和效果。 本发 明方法主要包括, 给出多智能体强化学习在区域 交通信号控制的控制框架, 同时定义强化学习的 各要素, 即状态、 动作、 奖励, 目标函数; 定义生成 对抗网络 结构; 提出生成对抗网络与强化学习的 数据交互框架。 权利要求书3页 说明书7页 附图3页 CN 113436443 B 2022.08.26 CN 113436443 B 1.一种基于生成对抗网络和强化学习的分布式交通信号控制方法, 其特征在于, 该方 法包括以下步骤: (1)设计多智能体强化学习在区域交通信号控制的控制框架, 同时定义强化学习的各 要素, 即状态、 动作、 奖励; (2)应用基于强化学习的智能体与交通仿真环境交互, 并积累交互数据, 每个时刻t, 智 能体与交通仿真环境交互, 多线程累积数据, 将数据以<st, at, rt+1, st+1>的形式存储到经验 数据库 中, 其中, st、 st+1分别为t、 t+1时刻的环境状态, at为t时刻智能体输出的信号 控制方案, rt+1是t+1时刻智能体从交通仿真环境得到的奖励, 所述交通仿真环境为SUMO或 VISSIM仿真平台, 智能体记为a gent; (3)在生成对抗模型GAN的基础 上, 构建基于策略的生成对抗模型P ‑WGAN‑GP, 用于生成 交通数据的伪数据库, 模型训练中, 生成模型G以策略Pt产生的动作 和随机噪声向量为输 入, 生成t时刻和t+1时刻的伪造状态 t+1时刻的伪造奖励 根据 计算得到, 从而形成一条伪造数据 通过输入不同的噪声向量, 生成模型将产生批量 的基于策略Pt的伪数据集, 将经验数据库中的真实数据和生成模型产生的伪数据输入到对 抗模型D中, 对抗模 型通过更新模型参数增强对真实数据和伪数据的评估能力, 而根据对抗 模型D对伪数据的评价, 生成模型G也进一步更新模型参数以提高生成数据的真实度, 当生 成模型G的参数收敛后, 重新输入批量噪声向量, 生成伪数据存 储在伪数据库 (4)以伪数据库 作为经验数据库 中数据的补充, 用于强化学习模型的训 练, 对强化学习模型的参数进 行更新, 多智能体信号控制系统采用分布式训练 ‑分布式控制 方式, 即每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型, 然后 进行分布式控制; 所述步骤(2)中单个智能体采用了基于优势演员 ‑评论家算法的强化学习模型, 模型在 训练阶段, 通过与多个交通仿真器交互, 多线程构建经验数据库 用于后续生成对抗 模型的参数训练, 单个智能体与交通仿真环境交 互的过程如下: 根据步骤(1)中的状态 定义, 智能体获取t时刻的环境状态st, 将t时刻的演员模型A ctor 记为策略Pt, 智能体将st输入演员模型, 得到t时刻的信号控制相位at; 在动作at的作用下, 交通状态更新到st+1, 并通过评估st+1得到st状态下采取at的奖励rt+1, 从而得到一条经验数 据<st, at, rt+1, st+1>, 并将其存储到数据库中, 每个智能体通过与交通仿真环境反复进行交 互, 即可构建各自的经验数据库 所述优势演员 ‑评论家算法记为A 2C; 所述步骤(3)中在生成对抗模型GAN的基础 上所构建基于策略的生成对抗模型P ‑WGAN‑ GP, 其中生成模型G以t时刻的策略Pt, 即t时刻的演员模型Actor产生 的动作 和随机噪声 向量z为输入, 生成t时刻和t+1时刻的状态 并根据 得到 从而形成一条伪 数据 对抗模型D以伪状态对 和经验状态对<st, st+1>为输入, 输 出对于各状态对的评价 值; 定义生成模型G的目标函数为: 其中, 表示由生成模型G输出的伪数据, 是对抗模型D的输出; I(X; Y)在信息权 利 要 求 书 1/3 页 2 CN 113436443 B 2论表示变量X和Y的互信息, 用于衡量两个变量之间关系; G(z, Pt)是生成模型G的输出, δ是 惩罚因子, 使目标函数中对抗模型的期望值和生成模型输入与输出的互信息在同一 量级; 定义对抗模型D的目标函数为: 其中, x~Pr表示从经验数据库中取样的数据; 为对抗模型的 梯度惩罚, 从而使梯度值和1的差值在预设范围内; 是通过对经验数据和伪数据均匀 插值得到的数据; 是对抗模型输出 对于 的梯度, 是对该梯度的求 模; λ为梯度因子; P‑WGAN‑GP的训练方法如下: (a)初始化: 给定超参数的值, 包括惩罚因子δ、 梯度因子λ, 学习速率α, Adam优化器中的 参数β1和β2; 批量样本的大小m, 给定n_critic, 其定义为G每迭代一次, 对抗模型D需要迭代 n_critic次; 以θ和w分别表示 生成模型G和对抗模型D的参数, 给模型Gθ和Dw的参数赋初值; (b)保持生成模型G的参数不变, 对抗模型D的参数迭代n_critic次; (b.1)从经验数据库中取大小为m的经验样本x、 生成大小为m的随机噪声z, 以及一组 随 机数字∈~U[0, 1]; (b.2)利用生成模型产生伪造数据 生成经验数据和伪数据的插值数据 (b.3)计算对抗模型的目标函数: (b.4)更新对抗模型的参数 其中, 是目标函数对模 型参数w的梯度; (c)保持对抗模型D的参数不变, 更新 生成模型G的参数; (c.1)生成大小为m的随机噪声z; (c.2)利用生成模型G生成伪数据 (c.3)计算 生成模型的目标函数 (c.4)计算 生成模型目标函数对参数的梯度 (c.4)更新 生成模型的参数 (d)重复步骤(b)、 (c), 直至生成模型G和对抗模型D收敛, 然后再生成一组随机噪声z ′, 同时根据Pt, 即t时刻的演员模型, 生成对应的伪动作 将z′和 输入训练好 的生成模型G, 以生成模型G的输出作为伪数据库 2.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制 方法, 其特征在于, 所述步骤(1)中控制框架为: 每个交叉口作为独立智能体收集数据并进 行模型训练; 各智能体之 间进行状态信息的交互, 优化交叉口的信号控制策略, 从而间接实 现区域交通的联合控制; 智能体之间的信息交互体现在对环境状态的定义上, 每个智能体在时刻 t的环境状态st 定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Qt、 进口道首车等候时间矩阵权 利 要 求 书 2/3 页 3 CN 113436443 B 3
专利 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 03:20:36
上传分享
举报
下载
原文档
(948.7 KB)
分享
友情链接
GB-T 18386.2-2022 电动汽车能量消耗量和续驶里程试验方法 第2部分:重型商用车辆.pdf
GB-T 33009.2-2016 工业自动化和控制系统网络安全 集散控制系统 DCS 第2部分:管理要求.pdf
T-SDL 3.2—2021 10 kV智能电缆系统技术规范 第 2 部分 智能电缆测控系统终端.pdf
YD-T 2699-2014 电信网和互联网安全防护基线配置要求及检测要求-安全设备.pdf
T-SDMT 0001—2022 电气化铁路高效节能自耦变压器.pdf
T-CMSA 0034—2022 抑制雷电装置技术要求.pdf
DB42-T 2226.4-2024 自然资源政务一张图应用规范 第4部分:运行服务 湖北省.pdf
GB-T 41263-2022 工控系统动态重构主动防御体系架构规范.pdf
GB-T 26603-2011 N,N-二甲基苯胺.pdf
GB-T 30596-2014 温拌沥青混凝土.pdf
专利 一种基于大数据计算机网络安全防护装置.PDF
GB-T 37964-2019 信息安全技术 个人信息去标识化指南.pdf
GB-T 23799-2021 车用甲醇汽油 M85.pdf
T-CGMA 100.001-2016 闭式冷却塔.pdf
YD-T 3763.3-2021 研发运营一体化(DevOps)能力成熟度模型 第3部分:持续交付.pdf
GB-T 36558-2023 电力系统电化学储能系统通用技术条件.pdf
GB-T 10811-2022 釉下-中彩日用瓷器.pdf
DB11-T 1961-2022 软件和信息化项目运行评价指标体系 北京市.pdf
T-ACEF 071—2023 燃煤电厂耦合处理城镇污水处理厂污泥污染物控制要求.pdf
云计算服务安全评估申报书.pdf
1
/
3
14
评价文档
赞助1.5元 点击下载(948.7 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。