专利 一种基于多智能体深度强化学习的车联网边缘缓存方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110332326.4 (22)申请日 2021.03.29 (65)同一申请的已公布的文献号申请公布号 CN 113094982 A (43)申请公布日 2021.07.09 (73)专利权人天津理工大学地址 300384 天津市西青区宾水西道391号 (72)发明人张德干　倪辰昊　张婷　杜金玉　张捷　陈露　 (74)专利代理机构天津佳盟知识产权代理有限公司 120 02 专利代理师林玉慧 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 7/00(2006.01) H04L 67/568(2022.01) H04L 67/1074(2022.01) G06F 111/04(2020.01) G06F 111/08(2020.01) (56)对比文件 CN 112565377 A,2021.0 3.26 CN 111901833 A,2020.1 1.06 审查员王一凡 (54)发明名称一种基于多智能体深度强化学习的车联网边缘缓存方法 (57)摘要一种基于多智能体深度强化学习的车联网边缘缓存方法，通过以下步骤实现，第1、系统模型与数学模型的构建；第2、建立基于多智能体的执行者‑评价家结构的协同内容分发的边缘缓存策略。本发明首先采用Zipf分布请求内容，每个智能体根据自己的策略网络及其过程中的噪声选择相应动作并执行，之后判断是否超出缓存，超出则删除流行度较低内容。然后，每个智能体获得环境奖励，获得新的观测空间，并将相应数据放入经验池中。最后，更新每个智能体的目标网络参数。结果表明本方法所提出的车联网边缘缓存方案与其他方法相比，在减少内容内容分发过程中的时延、提高内容命中率和成功率方面有较好的表现。权利要求书5页说明书12页附图5页 CN 113094982 B 2022.12.16 CN 113094982 B 1.一种基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于该方法包括如下步骤：第1、系统模型与数学模型的构建：第1.1、建立系统模型；第1.2、建立内容缓存数学模型；第1.3、建立内容获取数学模型；第2、建立基于多智能体的执行者‑评价家结构的协同内容分发的边缘缓存策略：第2.1、策略设计；第2.2、训练分布式执行的多智能体执行者‑评价家框架；第2.3、基于多智能体强化学习的协同内容分发的边缘缓存算法的描述，方法如下：步骤1：初始化状态空间，每个智能体的目标策略网络，主价值网络和主策略网络的参数，智能体的个数，智能体的最大缓存容量，内容集合，采样批次大小；步骤2：初始化一个随机过程以便进行探索，初始化接收的状态空间；步骤3：按照Zipf分布获得内容的流行度并且按照流行度请求内容；步骤4：每个智能体根据自己的策略网络以及过程中的噪声选择动作并执行，步骤5：执行动作后判断缓存的内容是否超出了缓存容量，若超出了，删除缓存区中流行度较低的内容，并获得环境奖励和新的观测空间，将每个智能体的当前状态、执行动作、奖励、下一状态存入到对应的经验回放池中；步骤6：将新的环境观测空间赋值给原来的观测结果，从经验回放池P中随机选择p条数据，每个智能体根据公式更新策略网络的参数和价值网络的参数，并更新每个智能体的目标网络的参数。 2.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第1.1 中建立的系统模型由1个宏基站(MBS)、多个路边单元(RSU)和多辆车辆组成；车辆间可以相互通信也可以缓存部分内容，考虑在不同的RSU覆盖范围下的内容具有不同的流行度，因此需要考虑不同的RSU覆盖范围下的车辆，各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布，每个内容f都由3个特征来进行描述，其中sf表示内容f的大小， df表示内容 f的最大容忍交付时延， ρf表示内容 f的流行度；另外，为每个内容分配一个唯一的索引，并在车辆请求内容时将该索引用作内容ID； MBS中缓存了所有车辆请求的内容，并在MBS上部署一个中央控制器，充当所有边缘服务器的管理器，存储着交互和同步信息； RSU 和车辆都具有边缘缓存能力，减少内容交付过程中的时延。 3.如权利要求2所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第1.2中建立内容缓存数学模型的方法如下，所有内容的流行度遵循Zipf分布，内容用集合F＝{1， 2,3,. .....,F}表示，所以车辆请求内容f的概率表示为：其中， ρf表示内容f的流行度， ε是控制内容相对流行的内容请求系数，该系数越大表示内容重复使用率越高；在该模型中MBS缓存了用户需要的所有内容，并且在MBS中部署有中央控制器，存储着其管理范围内的所有车辆和RSU的缓存内容，用矩阵表示为：权　利　要　求　书 1/5 页 2 CN 113094982 B 2其中， j≠0的情况， j表示车辆的编号，表示车辆的缓存情况： j＝0的情况， j为标签，表示RSU的缓存情况：当车辆发出内容请求时，如果本地没有缓存则车辆或者接受请求的RSU根据自身缓存的内容自主决策是缓存内容还是保持原状不变；其中RSU用集合R＝{r1， r2， r3， ......， rI} 表示， ri覆盖下的车辆用集合表示，车辆的缓存决策用cafi,j表示：另外，由于车辆和RSU具有有限的缓存容量，缓存的内容总量不能超过车辆和RSU 的缓存能力，表示车辆缓存容量，表示RSU缓存容量，即满足下述约束条件：其中sf表示内容f的大小，当车辆或者RS U的缓存空间已满时，为了提高内容命中率并减少内容分发过程中的时延，采取的策略是删除已缓存的内容中流行度较低的内容，内容的流行度可以通过Zipf分布得到。 4.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第1.3中建立内容获取数学模型的方法如下：当车辆请求内容时，先检查自身是否缓存了所请求的内容，如果缓存了则直接从缓存中获得，否则车辆自主做出决策是通过V2V 获得内容或通过V2R获得内容， V2V是指通过向周围车辆请求获得内容， V2R是指通过向其连接的RSU请求获得内容，车辆的内容访问方式决策用wvi,j表示：车辆的通信范围为TRi,j，可以通信的车辆用集合表示；目标车辆与内容请求车辆之间数据传输速率为：权　利　要　求　书 2/5 页 3 CN 113094982 B 3

专利 一种基于多智能体深度强化学习的车联网边缘缓存方法

专利一种基于多智能体深度强化学习的车联网边缘缓存方法