说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110435532.8 (22)申请日 2021.04.2 2 (65)同一申请的已公布的文献号 申请公布号 CN 113010967 A (43)申请公布日 2021.06.22 (73)专利权人 吉林大学 地址 130012 吉林省长 春市前进大街269 9 号 (72)发明人 朱冰 公韦沣 高涵 魏宁  (74)专利代理 机构 长春市四环 专利事务所(普 通合伙) 22103 专利代理师 刘驰宇 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06F 119/12(2020.01) G06F 119/14(2020.01)(56)对比文件 CN 110322017 A,2019.10.1 1 CN 112201070 A,2021.01.08 US 20213 39772 A1,2021.04.1 1 王坤峰 等.生成式对抗网络GAN的研究进 展 与展望. 《自动化学报》 .2017,(第0 3期),4-15. 任秉韬.面向智能驾驶测试的仿真场景构建 技术综述. 《中国图象图形 学报》 .2021,第26卷 (第01期),1-12. Bing Zhu 等.Combi ned Hierarc hical Learning Framew ork for Perso nalized Automatic Lane- Changing. 《IEEE Transacti ons on Intelligent Transportati on System s》 .2020,第2 2卷(第10 期),6275 -6285. 胡益恺 等.智能车辆决策方法研究综述. 《上海交通大 学学报》 .2021,第5 5卷(第08 期), 1035-1048. 审查员 赵鼎新 (54)发明名称 一种基于混合交通流模型的智能汽车在环 仿真测试方法 (57)摘要 本发明提供了一种基于混合交通流模型的 智能汽车在 环仿真测试方法, 利用生成对抗网络 和Actor‑Critic网络, 建立混合交通流模型, 利 用近端策略优化算法求解交通流车辆行驶策略, 并与环境互动形成车辆的行驶轨迹; 通过判别模 型, 对生成的轨迹与实际轨迹及逆 行区分并为交 通流环境提供奖励信号; 本发明利用组合测试方 法, 对混合交通流模型多个影 响因素的取值进行 组合, 减少测试次数, 探究各个因素相互作用时 对测试的影 响; 基于生成对抗模仿学习的交通流 模型生成方法能够使车辆获得与实际交通流较 为相似的决策; 基于贪心算法的组合用例测试生 成方法能够提高测试效率。 本方法通过实证分 析, 获得了良好的改进效果。 权利要求书6页 说明书14页 附图2页 CN 113010967 B 2022.07.01 CN 113010967 B 1.一种基于混合交通流模型的智能汽车在环仿真测试方法, 基于生成对抗模仿学习和 组合用例测试生成方法, 能够测试智能汽车在混合交通流中的跟驰行为和变道行为, 使用 一种车辆硬件在环模拟测试设备, 包括电脑和工控机; 电脑用于运行场景模 型软件prescan 和生成混合交通流模型软件matlab, 工控机用于运行车辆动力学模型及其控制算法, 并对 场景参数进行实时更新; 其特 征在于, 本方法包括以下步骤: 步骤一、 构建车辆运动模型: 定义马尔科夫链决策过程五元组结构{S,A,Psa,γ,R}, 其中S为状态空间, 包括自身车 速vt、 自身车辆与前车的距离d、 自身车辆与前车的相对速度Δv、 自身车辆中轴线与左车道 线横向偏移量lL、 车辆中轴线与右车道线横向偏移量lR以及自然坐标系下的航向角αhead; A 为动作空间, 包括驾驶人控制车辆纵向加速度值alon、 车辆横向加 速度值alat以及驾驶人控 制方向盘转角αt; Psa表示在第i时刻的状态空间Si下采取动作Ai、 状态转移到Si+1状态的概 率; γ表示决策过程中的阻尼系数, 取γ=0.99; R表示在该状态下的一个奖励, 由该状态空 间S和该状态空间采取的动作空间A共同决定, 即R(S,A); 建立车辆交通 流运动学模型: v(t+1)=v(t)+a(t)dt Δv(t+1)=vhead(t+1)‑v(t+1) 其中, v表示本车速度, a表示本车加速度, vhead表示前车速度, 为已知量, 从提取的跟车 数据中输入, d表示本车与前 车车距; 时间步长dt设为0.1s; 步骤二, 建立车辆智能体生成网络模型G: 生成网络模型用于车辆智能体与跟车环境进行交互, 产生生成状态动作的组合; 采用 Actor‑Critic网络算法, 将车辆看作智能体做出决策; 其中Actor网络根据值函数的估计结 果对策略进行改进, 以得到或接近系统的最优控制策 略, Critic网络通过对值函数的估计 对当前策略进行评价; 基于步骤一中的交通流运动学模型, 利用ppo1算法建立混合交通流决策控制策略; 交 通流决策交通 流决策由状态空间S决定; 设车辆智能体生成网络模型G的优化参数为θ, 定义损失函数L( θ ), 能够同时结合策略 代理和价 值函数的损失, 并且通过增 加信息熵来进行优化, 具体表达式为: 其中 为求期望运算, st为t时刻的状态具体值, S[ πθ](st)为t时刻的状态具体值st对应 的策略πθ的信息熵增, c1,c2均为相关系数, 取c1=0.5,c2=0.01; 其中ε为常数, 取ε=0.2, 为Actor‑Critic网络所输出的旧的策略, πθ(at|权 利 要 求 书 1/6 页 2 CN 113010967 B 2st)为Actor ‑Critic网络所输出的新的策略, 策略从学习集中进行选择; 其中Vθ(st)为t时刻的状态具体值st的值函数; 裁剪函数 可用于避免新旧策略差别过 大: 优势函数如下式所示: 表示应该增加采取当前动作的可能性, 表示应该减小采取当前动作的可 能性; 利用优势函数对样本 轨迹中的动作值 函数相比于当前状态的值 函数进行评价; 步骤三, 建立判别网络模型D; 判别网络模型D由包含两个隐藏层的神经网络构成, 该网络输入为状态动作组合样本 (si,ai), si为第i时刻的样本状态具体值, ai为第i时刻的样本对应的动作具体值; 设判别网络模型D的优化参数为ω, 采用交叉熵损失函数L(ω), 对判别网络模型D的优 化参数ω进行梯度更新; 其中, N为样本个数, yi为第i时刻的样本的标记, (si,ai)为第i时刻的训练样本, Dω(si, ai)为参数为ω的判别网络在输入为第i时刻的样本时的输出 结果; 判别网络同时为跟车环境提供奖励信号, 智能体在状态st下采取动作at的奖励函数R (st,at)为: R(st,at)=‑log(Dω(st,at)) 步骤四, 生成交通 流模型: 初始化车辆智能体生成网络模型G和判别网络模型D的网络参数分别为θ0和ω0; 设在ti时刻, 智能体执行Actor ‑Critic网络参数为θi时输出的策略与跟车环境进行交 互, 产生生成状态动作 组合; 将生成状态动作 组合与实际状态动作 组合输入判别网络模型权 利 要 求 书 2/6 页 3 CN 113010967 B 3

.PDF文档 专利 一种基于混合交通流模型的智能汽车在环仿真测试方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于混合交通流模型的智能汽车在环仿真测试方法 第 1 页 专利 一种基于混合交通流模型的智能汽车在环仿真测试方法 第 2 页 专利 一种基于混合交通流模型的智能汽车在环仿真测试方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:20:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。