(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110332326.4
(22)申请日 2021.03.29
(65)同一申请的已公布的文献号
申请公布号 CN 113094982 A
(43)申请公布日 2021.07.09
(73)专利权人 天津理工大 学
地址 300384 天津市西青区 宾水西道391号
(72)发明人 张德干 倪辰昊 张婷 杜金玉
张捷 陈露
(74)专利代理 机构 天津佳盟知识产权代理有限
公司 120 02
专利代理师 林玉慧
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06N 7/00(2006.01)
H04L 67/568(2022.01)
H04L 67/1074(2022.01)
G06F 111/04(2020.01)
G06F 111/08(2020.01)
(56)对比文件
CN 112565377 A,2021.0 3.26
CN 111901833 A,2020.1 1.06
审查员 王一凡
(54)发明名称
一种基于多智能体深度强化学习的车联网
边缘缓存方法
(57)摘要
一种基于多智能体深度强化学习的车联网
边缘缓存方法, 通过以下步骤实现, 第1、 系统模
型与数学模型的构建; 第2、 建立基于多智能体的
执行者‑评价家结构的协同内容 分发的边缘缓存
策略。 本发明首先采用Zipf分布请求内容, 每个
智能体根据自己的策略网络及其过程中的噪声
选择相应动作并执行, 之后判断是否超出缓存,
超出则删除流行度较低内容。 然后, 每个智 能体
获得环境奖励, 获得新的观测空间, 并将相应数
据放入经验池中。 最后, 更新每个智 能体的目标
网络参数。 结果表明本方法所提出的车联网边缘
缓存方案与其他方法相比, 在减少内容内容分发
过程中的时延、 提高内容命中率和成功率方面有
较好的表现。
权利要求书5页 说明书12页 附图5页
CN 113094982 B
2022.12.16
CN 113094982 B
1.一种基于多智能体深度强化学习的车联网边缘缓存方法, 其特征在于该方法包括如
下步骤:
第1、 系统模型与数 学模型的构建:
第1.1、 建立系统模型;
第1.2、 建立内容缓存数 学模型;
第1.3、 建立内容获取 数学模型;
第2、 建立基于多智能体的执 行者‑评价家结构的协同内容分发的边 缘缓存策略:
第2.1、 策略设计;
第2.2、 训练分布式执 行的多智能体执 行者‑评价家框架;
第2.3、 基于多智能体强化学习的协同内容分发的边 缘缓存算法的描述, 方法如下:
步骤1: 初始化状态空间, 每个智能体的目标策略网络, 主价值网络和主策略网络的参
数, 智能体的个数, 智能体的最大缓存容 量, 内容集合, 采样批次大小;
步骤2: 初始化 一个随机过程以便进行探索, 初始化接收的状态空间;
步骤3: 按照Zipf分布获得内容的流行度并且按照流行度请求内容;
步骤4: 每 个智能体根据自己的策略网络以及过程中的噪声选择动作并执 行,
步骤5: 执行动作后判断缓存的内容是否超出了缓存容量, 若超出了, 删除缓存区中流
行度较低的内容, 并获得环境奖励和新的观测空间, 将每个智能体的当前状态、 执行动作、
奖励、 下一状态存 入到对应的经验回放池中;
步骤6: 将新的环境观测空间赋值给原来的观测结果, 从经验回放池P中随机选择p条数
据, 每个智能体根据公式更新策略网络的参数和价值网络的参数, 并更新每个智能体的目
标网络的参数。
2.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法, 其特征在
于, 步骤第1.1 中建立的系统模 型由1个宏基站(MBS)、 多个 路边单元(RSU)和多辆车辆组成;
车辆间可以相互通信也可以缓存部分内容, 考虑在不同的RSU覆盖范围下的内容具有不同
的流行度, 因此需要考虑不同的RSU覆盖范围下的车辆, 各个RSU覆盖范围内的车辆到相应
的RSU的位置服从泊松分布, 每个内容f都由3个特征来进行描述, 其中sf表示内容f的大小,
df表示内容 f的最大容忍交付 时延, ρf表示内容 f的流行度; 另外, 为每个 内容分配一个唯一
的索引, 并在车辆请求内容时将该索引用作内容ID; MBS中缓存了所有车辆请求的内容, 并
在MBS上部署一个中央控制器, 充当所有边缘服务器的管理器, 存储着交互和同步信息; RSU
和车辆都具有边 缘缓存能力, 减少内容交付过程中的时延。
3.如权利要求2所述的基于多智能体深度强化学习的车联网边缘缓存方法, 其特征在
于, 步骤第1.2中建立内容缓存数学模型的方法如下, 所有内容的流行度遵循Zipf分布, 内
容用集合F={1, 2,3,. .....,F}表示, 所以车辆请求内容f的概 率表示为:
其中, ρf表示内容f的流行度, ε是控制内容相对流行的内容请求系数, 该系数越大表示
内容重复使用率越高; 在该模型中MBS缓存了用户需要的所有内容, 并且在MBS中部署有中
央控制器, 存 储着其管理范围内的所有车辆和RSU的缓存内容, 用矩阵表示 为:权 利 要 求 书 1/5 页
2
CN 113094982 B
2其中,
j≠0的情况, j表示车辆的编号,
表示车辆的缓存情况:
j=0的情况, j为标签,
表示RSU的缓存情况:
当车辆发出内容请求时, 如果本地没有缓存则车辆或者接受请求的RSU根据自身缓存
的内容自主决策是缓存内容还是保持原状不变; 其中RSU用集合R={r1, r2, r3, ......, rI}
表示, ri覆盖下的车辆用集 合
表示, 车辆
的缓存决策用cafi,j表示:
另外, 由于车辆和RSU具有有限的缓存容量, 缓存 的内容总量不能超过车辆和RSU 的缓
存能力,
表示车辆缓存容 量,
表示RSU缓存容 量, 即满足下述约束条件:
其中sf表示内容f的大小, 当车辆或者RS U的缓存空间已满时, 为了提高内容命中率并减
少内容分发过程中的时延, 采取 的策略是删除已缓存的内容中流行度较低的内容, 内容的
流行度可以通过Zipf分布得到 。
4.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法, 其特征在
于, 步骤第1.3中建立内容获取数学模型的方法如下: 当车辆请求内容时, 先检查 自身是否
缓存了所请求的内容, 如果 缓存了则直接从缓存中获得, 否则车辆自主做出决策是通过V2V
获得内容 或通过V2R获得内容, V2V是指通过向周围车辆请求获得内容, V2R是指通过向其连
接的RSU请求获得内容, 车辆
的内容访问方式决策用wvi,j表示:
车辆
的通信范围为TRi,j, 可以通信的车辆用集合
表示; 目标车
辆与内容请求车辆之间数据传输 速率为:
权 利 要 求 书 2/5 页
3
CN 113094982 B
3
专利 一种基于多智能体深度强化学习的车联网边缘缓存方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:19:59上传分享