(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110435532.8
(22)申请日 2021.04.2 2
(65)同一申请的已公布的文献号
申请公布号 CN 113010967 A
(43)申请公布日 2021.06.22
(73)专利权人 吉林大学
地址 130012 吉林省长 春市前进大街269 9
号
(72)发明人 朱冰 公韦沣 高涵 魏宁
(74)专利代理 机构 长春市四环 专利事务所(普
通合伙) 22103
专利代理师 刘驰宇
(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06F 119/12(2020.01)
G06F 119/14(2020.01)(56)对比文件
CN 110322017 A,2019.10.1 1
CN 112201070 A,2021.01.08
US 20213 39772 A1,2021.04.1 1
王坤峰 等.生成式对抗网络GAN的研究进 展
与展望. 《自动化学报》 .2017,(第0 3期),4-15.
任秉韬.面向智能驾驶测试的仿真场景构建
技术综述. 《中国图象图形 学报》 .2021,第26卷
(第01期),1-12.
Bing Zhu 等.Combi ned Hierarc hical
Learning Framew ork for Perso nalized
Automatic Lane- Changing. 《IEEE
Transacti ons on Intelligent
Transportati on System s》 .2020,第2 2卷(第10
期),6275 -6285.
胡益恺 等.智能车辆决策方法研究综述.
《上海交通大 学学报》 .2021,第5 5卷(第08 期),
1035-1048.
审查员 赵鼎新
(54)发明名称
一种基于混合交通流模型的智能汽车在环
仿真测试方法
(57)摘要
本发明提供了一种基于混合交通流模型的
智能汽车在 环仿真测试方法, 利用生成对抗网络
和Actor‑Critic网络, 建立混合交通流模型, 利
用近端策略优化算法求解交通流车辆行驶策略,
并与环境互动形成车辆的行驶轨迹; 通过判别模
型, 对生成的轨迹与实际轨迹及逆 行区分并为交
通流环境提供奖励信号; 本发明利用组合测试方
法, 对混合交通流模型多个影 响因素的取值进行
组合, 减少测试次数, 探究各个因素相互作用时
对测试的影 响; 基于生成对抗模仿学习的交通流
模型生成方法能够使车辆获得与实际交通流较
为相似的决策; 基于贪心算法的组合用例测试生
成方法能够提高测试效率。 本方法通过实证分
析, 获得了良好的改进效果。
权利要求书6页 说明书14页 附图2页
CN 113010967 B
2022.07.01
CN 113010967 B
1.一种基于混合交通流模型的智能汽车在环仿真测试方法, 基于生成对抗模仿学习和
组合用例测试生成方法, 能够测试智能汽车在混合交通流中的跟驰行为和变道行为, 使用
一种车辆硬件在环模拟测试设备, 包括电脑和工控机; 电脑用于运行场景模 型软件prescan
和生成混合交通流模型软件matlab, 工控机用于运行车辆动力学模型及其控制算法, 并对
场景参数进行实时更新; 其特 征在于, 本方法包括以下步骤:
步骤一、 构建车辆运动模型:
定义马尔科夫链决策过程五元组结构{S,A,Psa,γ,R}, 其中S为状态空间, 包括自身车
速vt、 自身车辆与前车的距离d、 自身车辆与前车的相对速度Δv、 自身车辆中轴线与左车道
线横向偏移量lL、 车辆中轴线与右车道线横向偏移量lR以及自然坐标系下的航向角αhead; A
为动作空间, 包括驾驶人控制车辆纵向加速度值alon、 车辆横向加 速度值alat以及驾驶人控
制方向盘转角αt; Psa表示在第i时刻的状态空间Si下采取动作Ai、 状态转移到Si+1状态的概
率; γ表示决策过程中的阻尼系数, 取γ=0.99; R表示在该状态下的一个奖励, 由该状态空
间S和该状态空间采取的动作空间A共同决定, 即R(S,A);
建立车辆交通 流运动学模型:
v(t+1)=v(t)+a(t)dt
Δv(t+1)=vhead(t+1)‑v(t+1)
其中, v表示本车速度, a表示本车加速度, vhead表示前车速度, 为已知量, 从提取的跟车
数据中输入, d表示本车与前 车车距; 时间步长dt设为0.1s;
步骤二, 建立车辆智能体生成网络模型G:
生成网络模型用于车辆智能体与跟车环境进行交互, 产生生成状态动作的组合; 采用
Actor‑Critic网络算法, 将车辆看作智能体做出决策; 其中Actor网络根据值函数的估计结
果对策略进行改进, 以得到或接近系统的最优控制策 略, Critic网络通过对值函数的估计
对当前策略进行评价;
基于步骤一中的交通流运动学模型, 利用ppo1算法建立混合交通流决策控制策略; 交
通流决策交通 流决策由状态空间S决定;
设车辆智能体生成网络模型G的优化参数为θ, 定义损失函数L( θ ), 能够同时结合策略
代理和价 值函数的损失, 并且通过增 加信息熵来进行优化, 具体表达式为:
其中
为求期望运算, st为t时刻的状态具体值, S[ πθ](st)为t时刻的状态具体值st对应
的策略πθ的信息熵增, c1,c2均为相关系数, 取c1=0.5,c2=0.01;
其中ε为常数, 取ε=0.2,
为Actor‑Critic网络所输出的旧的策略, πθ(at|权 利 要 求 书 1/6 页
2
CN 113010967 B
2st)为Actor ‑Critic网络所输出的新的策略, 策略从学习集中进行选择;
其中Vθ(st)为t时刻的状态具体值st的值函数;
裁剪函数
可用于避免新旧策略差别过 大:
优势函数如下式所示:
表示应该增加采取当前动作的可能性,
表示应该减小采取当前动作的可
能性; 利用优势函数对样本 轨迹中的动作值 函数相比于当前状态的值 函数进行评价;
步骤三, 建立判别网络模型D;
判别网络模型D由包含两个隐藏层的神经网络构成, 该网络输入为状态动作组合样本
(si,ai), si为第i时刻的样本状态具体值, ai为第i时刻的样本对应的动作具体值;
设判别网络模型D的优化参数为ω, 采用交叉熵损失函数L(ω), 对判别网络模型D的优
化参数ω进行梯度更新;
其中, N为样本个数, yi为第i时刻的样本的标记, (si,ai)为第i时刻的训练样本, Dω(si,
ai)为参数为ω的判别网络在输入为第i时刻的样本时的输出 结果;
判别网络同时为跟车环境提供奖励信号, 智能体在状态st下采取动作at的奖励函数R
(st,at)为:
R(st,at)=‑log(Dω(st,at))
步骤四, 生成交通 流模型:
初始化车辆智能体生成网络模型G和判别网络模型D的网络参数分别为θ0和ω0;
设在ti时刻, 智能体执行Actor ‑Critic网络参数为θi时输出的策略与跟车环境进行交
互, 产生生成状态动作 组合; 将生成状态动作 组合与实际状态动作 组合输入判别网络模型权 利 要 求 书 2/6 页
3
CN 113010967 B
3
专利 一种基于混合交通流模型的智能汽车在环仿真测试方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:20:32上传分享