(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111649856.8
(22)申请日 2021.12.2 9
(71)申请人 阿里巴巴 (中国) 有限公司
地址 310000 浙江省杭州市滨江区长河街
道网商路69 9号4号楼5楼5 08室
(72)发明人 刘家曦 张祎东 林淑怡 王晓晴
邓玉明 尚磊
(74)专利代理 机构 北京众达德权知识产权代理
有限公司 1 1570
专利代理师 南海燕
(51)Int.Cl.
G06Q 10/08(2012.01)
G06Q 10/06(2012.01)
G06N 20/00(2019.01)
G06N 3/08(2006.01)G06N 3/04(2006.01)
(54)发明名称
库存活动决策的处 理方法、 装置及电子设备
(57)摘要
本申请公开了库存活动决策的处理方法、 装
置及电子设备, 其中, 所述方法包括: 确定库存活
动的活动方智能体相应的当前环 境状态; 基于所
述活动方智能体的库存活动策略以及所述当前
环境状态, 从库存活动决策的动作空间中确定当
前环境状态下的库存活动决策; 确定当前库存活
动周期内根据所述库存活动决策进行库存活动
的处理结果; 确定依据所述库存活动决策进行库
存活动后活动方智能体获得的环 境反馈结果。 通
过该方法, 可以产生更符合库存活动方需求的库
存活动决策, 有效的解决库存活动中的决策问
题。
权利要求书2页 说明书20页 附图5页
CN 114445004 A
2022.05.06
CN 114445004 A
1.一种库存活动决策的处 理方法, 其特 征在于, 包括:
确定库存活动的活动方智能体相应的当前环境状态;
基于所述活动方智能体的库存活动策略以及所述当前环境状态, 从库存活动决策的动
作空间中确定当前环境状态下的库存活动决策;
确定当前库存活动周期内根据所述库存活动决策进行库存活动的处 理结果;
确定依据所述库存活动决策进行库存活动 后活动方智能体获得的环境反馈结果。
2.根据权利要求1所述的方法, 其特征在于, 所述确定依据 所述库存活动决策进行库存
活动后活动方智能体获得的环境反馈结果, 包括:
根据对当前到货周期内预设指标的观测量, 确定依据所述库存活动决策进行库存活动
后活动方智能体获得的环境反馈结果; 所述到货周期包括以货品到达时间分割的时间周
期。
3.根据权利要求2所述的方法, 其特征在于, 所述预设指标包括所述当前到货周期内的
货品在架率, 和/或, 库存周转 率。
4.根据权利要求1至 3任一项所述的方法, 其特 征在于, 还 包括:
通过预置神经网络训练产生所述库存活动策略;
所述预置神经网络的训练过程包括:
确定库存活动的历史数据;
基于所述历史数据确定历史库存活动对应的历史环境状态, 历史活动决策, 以及历史
环境反馈构建训练样本;
基于所构建的训练样本, 对所述预置神经网络进行训练以确定所述库存活动策略。
5.根据权利要求4所述的方法, 其特征在于, 所述通过预置神经网络训练产生所述库存
活动策略, 包括:
预训练阶段以及调优阶段; 其中,
所述预训练 阶段包括: 使用窗口期为w1的历史数据, 宽泛度k1的超参集合, 对初始化的
神经网络进行步数为 n1的训练;
所述调优阶段包括: 使用窗口期为w2的历史数据, 宽泛度k2的超参集合, 对所述预训练
阶段得到的神经网络进行步数为 n2的训练;
其中, 窗口期w1大于窗口期w2, 宽泛度k1大于 宽泛度k2, 步数n1大于步数n2。
6.根据权利要求5所述的方法, 其特征在于, 所述确定库存活动的历史数据包括多个不
同产品仓库的库存活动的历史数据;
所述预训练阶段使用的样本对所述产品仓库的覆盖度为s1, 所述调优阶段使用的样本
对所述产品仓库的覆盖度为s2; 其中, s1大于s2。
7.根据权利要求 4所述的方法, 其特 征在于, 还 包括:
构建仿真环境, 基于所述活动方智能体与所述仿真环境的交互过程, 对所述预置神经
网络进行训练。
8.一种多智能体环境的库存活动决策 方法, 其特 征在于, 包括:
确定存在博 弈关系的智能体双方中的一个智能体为目标智能体;
确定所述目标智能体相应的当前环境状态;
确定所述智能体双方中的另一智能体的历史策略, 根据所述另一智能体的历史策略,权 利 要 求 书 1/2 页
2
CN 114445004 A
2确定当前轮次中所述目标智能体的库存活动策略;
根据所述目标智能体的库存活动策略以及所述当前环境状态, 从目标智能体的库存活
动决策的动作空间中确定库存活动决策;
确定依据所述库存活动决策进行库存活动 后目标智能体获得的环境反馈结果。
9.根据权利要求8所述的方法, 其特 征在于还 包括:
以所述目标智能体的活动策略以及所述另一智能体的活动策略之间的纳什均衡状态
为目标, 当双方智能体采取 的策略达到所述纳什均衡状态 时, 分别确定双方智能体的均衡
策略。
10.根据权利要求8或9所述的方法, 其特征在于, 所述目标智能体为供应方智能体; 所
述确定依据所述库存活动决策进行库存活动 后目标智能体获得的环境反馈结果, 包括:
根据到货周期内的送货 成本, 和/或效益, 确定依据所述库存活动决策进行库存活动后
目标智能体获得的环境反馈结果。
11.根据权利要求8或9所述的方法, 其特 征在于, 还 包括:
确定依据所述库存活动决策进行库存活动 后目标智能体进入的下一环境状态;
根据所述当前环境状态, 所述库存活动决策, 所述环境反馈结果, 以及所述下一环境状
态更新目标智能体的库存活动策略。
12.一种库存活动合约的处 理方法, 其特 征在于, 包括:
轮流依次将库存活动合约双方的其中一方对应的智能体确定为目标智能体, 另一方对
应的智能体确定为关联智能体;
在每一个 轮次中, 对所述目标智能体的库存活动决策进行推演; 所述推演的过程包括:
确定所述目标智能体相应的当前环境状态; 确定所述关联智能体的历史策略, 根据所
述关联智能体的历史策略, 确定当前轮次中所述 目标智能体的库存活动策略; 根据所述 目
标智能体的库存活动策略以及所述当前环境状态, 从目标智能体的库存活动决策的动作空
间中确定库存活动决策;
根据各轮次获得的库存活动决策的推演结果, 确定库存活动 合约中目标智能体对应的
合约方的合约处 理。
13.一种电子设备, 其特 征在于, 包括:
一个或多个处 理器; 以及
与所述一个或多个处理器关联的存储器, 所述存储器用于存储程序指令, 所述程序指
令在被所述 一个或多个处 理器读取 执行时, 执行权利要求1至12任一项所述的方法的步骤。
14.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器
执行时实现权利要求1至12任一项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 114445004 A
3
专利 库存活动决策的处理方法、装置及电子设备
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:31:36上传分享