专利 一种基于混合交通流模型的智能汽车在环仿真测试方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110435532.8 (22)申请日 2021.04.2 2 (65)同一申请的已公布的文献号申请公布号 CN 113010967 A (43)申请公布日 2021.06.22 (73)专利权人吉林大学地址 130012 吉林省长春市前进大街269 9 号 (72)发明人朱冰　公韦沣　高涵　魏宁　 (74)专利代理机构长春市四环专利事务所(普通合伙) 22103 专利代理师刘驰宇 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06F 119/12(2020.01) G06F 119/14(2020.01)(56)对比文件 CN 110322017 A,2019.10.1 1 CN 112201070 A,2021.01.08 US 20213 39772 A1,2021.04.1 1 王坤峰等.生成式对抗网络GAN的研究进展与展望. 《自动化学报》 .2017,(第0 3期),4-15. 任秉韬.面向智能驾驶测试的仿真场景构建技术综述. 《中国图象图形学报》 .2021,第26卷 (第01期),1-12. Bing Zhu 等.Combi ned Hierarc hical Learning Framew ork for Perso nalized Automatic Lane- Changing. 《IEEE Transacti ons on Intelligent Transportati on System s》 .2020,第2 2卷(第10 期),6275 -6285. 胡益恺等.智能车辆决策方法研究综述. 《上海交通大学学报》 .2021,第5 5卷(第08 期), 1035-1048. 审查员赵鼎新 (54)发明名称一种基于混合交通流模型的智能汽车在环仿真测试方法 (57)摘要本发明提供了一种基于混合交通流模型的智能汽车在环仿真测试方法，利用生成对抗网络和Actor‑Critic网络，建立混合交通流模型，利用近端策略优化算法求解交通流车辆行驶策略，并与环境互动形成车辆的行驶轨迹；通过判别模型，对生成的轨迹与实际轨迹及逆行区分并为交通流环境提供奖励信号；本发明利用组合测试方法，对混合交通流模型多个影响因素的取值进行组合，减少测试次数，探究各个因素相互作用时对测试的影响；基于生成对抗模仿学习的交通流模型生成方法能够使车辆获得与实际交通流较为相似的决策；基于贪心算法的组合用例测试生成方法能够提高测试效率。本方法通过实证分析，获得了良好的改进效果。权利要求书6页说明书14页附图2页 CN 113010967 B 2022.07.01 CN 113010967 B 1.一种基于混合交通流模型的智能汽车在环仿真测试方法，基于生成对抗模仿学习和组合用例测试生成方法，能够测试智能汽车在混合交通流中的跟驰行为和变道行为，使用一种车辆硬件在环模拟测试设备，包括电脑和工控机；电脑用于运行场景模型软件prescan 和生成混合交通流模型软件matlab，工控机用于运行车辆动力学模型及其控制算法，并对场景参数进行实时更新；其特征在于，本方法包括以下步骤：步骤一、构建车辆运动模型：定义马尔科夫链决策过程五元组结构{S,A,Psa,γ,R}，其中S为状态空间，包括自身车速vt、自身车辆与前车的距离d、自身车辆与前车的相对速度Δv、自身车辆中轴线与左车道线横向偏移量lL、车辆中轴线与右车道线横向偏移量lR以及自然坐标系下的航向角αhead； A 为动作空间，包括驾驶人控制车辆纵向加速度值alon、车辆横向加速度值alat以及驾驶人控制方向盘转角αt； Psa表示在第i时刻的状态空间Si下采取动作Ai、状态转移到Si+1状态的概率； γ表示决策过程中的阻尼系数，取γ＝0.99； R表示在该状态下的一个奖励，由该状态空间S和该状态空间采取的动作空间A共同决定，即R(S,A)；建立车辆交通流运动学模型： v(t+1)＝v(t)+a(t)dt Δv(t+1)＝vhead(t+1)‑v(t+1) 其中， v表示本车速度， a表示本车加速度， vhead表示前车速度，为已知量，从提取的跟车数据中输入， d表示本车与前车车距；时间步长dt设为0.1s；步骤二，建立车辆智能体生成网络模型G：生成网络模型用于车辆智能体与跟车环境进行交互，产生生成状态动作的组合；采用 Actor‑Critic网络算法，将车辆看作智能体做出决策；其中Actor网络根据值函数的估计结果对策略进行改进，以得到或接近系统的最优控制策略， Critic网络通过对值函数的估计对当前策略进行评价；基于步骤一中的交通流运动学模型，利用ppo1算法建立混合交通流决策控制策略；交通流决策交通流决策由状态空间S决定；设车辆智能体生成网络模型G的优化参数为θ，定义损失函数L( θ )，能够同时结合策略代理和价值函数的损失，并且通过增加信息熵来进行优化，具体表达式为：其中为求期望运算， st为t时刻的状态具体值， S[ πθ](st)为t时刻的状态具体值st对应的策略πθ的信息熵增， c1,c2均为相关系数，取c1＝0.5,c2＝0.01；其中ε为常数，取ε＝0.2，为Actor‑Critic网络所输出的旧的策略， πθ(at|权　利　要　求　书 1/6 页 2 CN 113010967 B 2st)为Actor ‑Critic网络所输出的新的策略，策略从学习集中进行选择；其中Vθ(st)为t时刻的状态具体值st的值函数；裁剪函数可用于避免新旧策略差别过大：优势函数如下式所示：表示应该增加采取当前动作的可能性，表示应该减小采取当前动作的可能性；利用优势函数对样本轨迹中的动作值函数相比于当前状态的值函数进行评价；步骤三，建立判别网络模型D；判别网络模型D由包含两个隐藏层的神经网络构成，该网络输入为状态动作组合样本 (si,ai)， si为第i时刻的样本状态具体值， ai为第i时刻的样本对应的动作具体值；设判别网络模型D的优化参数为ω，采用交叉熵损失函数L(ω)，对判别网络模型D的优化参数ω进行梯度更新；其中， N为样本个数， yi为第i时刻的样本的标记， (si,ai)为第i时刻的训练样本， Dω(si, ai)为参数为ω的判别网络在输入为第i时刻的样本时的输出结果；判别网络同时为跟车环境提供奖励信号，智能体在状态st下采取动作at的奖励函数R (st,at)为： R(st,at)＝‑log(Dω(st,at)) 步骤四，生成交通流模型：初始化车辆智能体生成网络模型G和判别网络模型D的网络参数分别为θ0和ω0；设在ti时刻，智能体执行Actor ‑Critic网络参数为θi时输出的策略与跟车环境进行交互，产生生成状态动作组合；将生成状态动作组合与实际状态动作组合输入判别网络模型权　利　要　求　书 2/6 页 3 CN 113010967 B 3

专利 一种基于混合交通流模型的智能汽车在环仿真测试方法

专利一种基于混合交通流模型的智能汽车在环仿真测试方法