专利 库存活动决策的处理方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111649856.8 (22)申请日 2021.12.2 9 (71)申请人阿里巴巴（中国）有限公司地址 310000 浙江省杭州市滨江区长河街道网商路69 9号4号楼5楼5 08室 (72)发明人刘家曦　张祎东　林淑怡　王晓晴　邓玉明　尚磊　 (74)专利代理机构北京众达德权知识产权代理有限公司 1 1570 专利代理师南海燕 (51)Int.Cl. G06Q 10/08(2012.01) G06Q 10/06(2012.01) G06N 20/00(2019.01) G06N 3/08(2006.01)G06N 3/04(2006.01) (54)发明名称库存活动决策的处理方法、装置及电子设备 (57)摘要本申请公开了库存活动决策的处理方法、装置及电子设备，其中，所述方法包括：确定库存活动的活动方智能体相应的当前环境状态；基于所述活动方智能体的库存活动策略以及所述当前环境状态，从库存活动决策的动作空间中确定当前环境状态下的库存活动决策；确定当前库存活动周期内根据所述库存活动决策进行库存活动的处理结果；确定依据所述库存活动决策进行库存活动后活动方智能体获得的环境反馈结果。通过该方法，可以产生更符合库存活动方需求的库存活动决策，有效的解决库存活动中的决策问题。权利要求书2页说明书20页附图5页 CN 114445004 A 2022.05.06 CN 114445004 A 1.一种库存活动决策的处理方法，其特征在于，包括：确定库存活动的活动方智能体相应的当前环境状态；基于所述活动方智能体的库存活动策略以及所述当前环境状态，从库存活动决策的动作空间中确定当前环境状态下的库存活动决策；确定当前库存活动周期内根据所述库存活动决策进行库存活动的处理结果；确定依据所述库存活动决策进行库存活动后活动方智能体获得的环境反馈结果。 2.根据权利要求1所述的方法，其特征在于，所述确定依据所述库存活动决策进行库存活动后活动方智能体获得的环境反馈结果，包括：根据对当前到货周期内预设指标的观测量，确定依据所述库存活动决策进行库存活动后活动方智能体获得的环境反馈结果；所述到货周期包括以货品到达时间分割的时间周期。 3.根据权利要求2所述的方法，其特征在于，所述预设指标包括所述当前到货周期内的货品在架率，和/或，库存周转率。 4.根据权利要求1至 3任一项所述的方法，其特征在于，还包括：通过预置神经网络训练产生所述库存活动策略；所述预置神经网络的训练过程包括：确定库存活动的历史数据；基于所述历史数据确定历史库存活动对应的历史环境状态，历史活动决策，以及历史环境反馈构建训练样本；基于所构建的训练样本，对所述预置神经网络进行训练以确定所述库存活动策略。 5.根据权利要求4所述的方法，其特征在于，所述通过预置神经网络训练产生所述库存活动策略，包括：预训练阶段以及调优阶段；其中，所述预训练阶段包括：使用窗口期为w1的历史数据，宽泛度k1的超参集合，对初始化的神经网络进行步数为 n1的训练；所述调优阶段包括：使用窗口期为w2的历史数据，宽泛度k2的超参集合，对所述预训练阶段得到的神经网络进行步数为 n2的训练；其中，窗口期w1大于窗口期w2，宽泛度k1大于宽泛度k2，步数n1大于步数n2。 6.根据权利要求5所述的方法，其特征在于，所述确定库存活动的历史数据包括多个不同产品仓库的库存活动的历史数据；所述预训练阶段使用的样本对所述产品仓库的覆盖度为s1，所述调优阶段使用的样本对所述产品仓库的覆盖度为s2；其中， s1大于s2。 7.根据权利要求 4所述的方法，其特征在于，还包括：构建仿真环境，基于所述活动方智能体与所述仿真环境的交互过程，对所述预置神经网络进行训练。 8.一种多智能体环境的库存活动决策方法，其特征在于，包括：确定存在博弈关系的智能体双方中的一个智能体为目标智能体；确定所述目标智能体相应的当前环境状态；确定所述智能体双方中的另一智能体的历史策略，根据所述另一智能体的历史策略，权　利　要　求　书 1/2 页 2 CN 114445004 A 2确定当前轮次中所述目标智能体的库存活动策略；根据所述目标智能体的库存活动策略以及所述当前环境状态，从目标智能体的库存活动决策的动作空间中确定库存活动决策；确定依据所述库存活动决策进行库存活动后目标智能体获得的环境反馈结果。 9.根据权利要求8所述的方法，其特征在于还包括：以所述目标智能体的活动策略以及所述另一智能体的活动策略之间的纳什均衡状态为目标，当双方智能体采取的策略达到所述纳什均衡状态时，分别确定双方智能体的均衡策略。 10.根据权利要求8或9所述的方法，其特征在于，所述目标智能体为供应方智能体；所述确定依据所述库存活动决策进行库存活动后目标智能体获得的环境反馈结果，包括：根据到货周期内的送货成本，和/或效益，确定依据所述库存活动决策进行库存活动后目标智能体获得的环境反馈结果。 11.根据权利要求8或9所述的方法，其特征在于，还包括：确定依据所述库存活动决策进行库存活动后目标智能体进入的下一环境状态；根据所述当前环境状态，所述库存活动决策，所述环境反馈结果，以及所述下一环境状态更新目标智能体的库存活动策略。 12.一种库存活动合约的处理方法，其特征在于，包括：轮流依次将库存活动合约双方的其中一方对应的智能体确定为目标智能体，另一方对应的智能体确定为关联智能体；在每一个轮次中，对所述目标智能体的库存活动决策进行推演；所述推演的过程包括：确定所述目标智能体相应的当前环境状态；确定所述关联智能体的历史策略，根据所述关联智能体的历史策略，确定当前轮次中所述目标智能体的库存活动策略；根据所述目标智能体的库存活动策略以及所述当前环境状态，从目标智能体的库存活动决策的动作空间中确定库存活动决策；根据各轮次获得的库存活动决策的推演结果，确定库存活动合约中目标智能体对应的合约方的合约处理。 13.一种电子设备，其特征在于，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至12任一项所述的方法的步骤。 14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至12任一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114445004 A 3

专利 库存活动决策的处理方法、装置及电子设备

专利库存活动决策的处理方法、装置及电子设备