专利 一种基于深度强化学习的校直行程预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211266288.8 (22)申请日 2022.10.17 (71)申请人浙江工业大学地址 310014 浙江省杭州市下城区朝晖六区 (72)发明人董辉　胡越　普晨旭　周祥清　吴祥　郭方洪　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师忻明年 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 111/04(2020.01)G06F 119/14(2020.01) (54)发明名称一种基于深度强化学习的校直行程预测方法 (57)摘要本发明公开了一种基于深度强化学习的校直行程预测方法，通过构建包括环境模型和DDPG 网络模型的校直行程预测模型，将工件的状态参数输入DDPG网络模型选出相应的动作，根据动作更新下一时刻的状态参数，并对当前时刻和下一时刻的状态参数进行约束条件判断，根据判断结果计算奖惩值反馈给DDPG网络模型，并将当前时刻的状态参数、动作、奖惩值和下一时刻的状态参数作为组合存储于记忆库， DDPG网络模型从记忆库提取参数进行学习以更新神经网络参数，通过循环训练获得最终DDPG网络模型，将待测工件的状态参数输入最终DDPG网络模型预测出对应的校直行程。该方法能够有效减少工件的校直次数，提高工件的校直精度和校直效率。权利要求书2页说明书7页附图2页 CN 115495993 A 2022.12.20 CN 115495993 A 1.一种基于深度强化学习的校直行程预测方法，其特征在于：所述基于深度强化学习的校直行程预测方法包括如下步骤： S1、建立校直行程预测模型并初始化，所述校直行程预测模型包括环境模型和DDPG网络模型，其中：所述环境模型的动作空间和状态空间构建如下：所述动作空间表示为a＝{at}，所述状态空间表示为S＝{δ,d,l1,l2,E,I,Rel}，其中， at 表示进行校直， δ为最大弯曲点的弯曲度， d为工件的直径， l1为最大弯曲点与其一相邻检测点的间距， l2为最大弯曲点与另一相邻检测点的间距， E为工件的弹性模量， I为工件的惯性模量， Rel 为工件的屈服强度；所述DDPG网络模型的目标函数和惩罚项满足如下公式： 1)所述目标函数δ∑： δ∑＝ δ +δw 式中， δ 为最大弯曲点的弯曲度， δw为工件最大弯曲点的反弯挠度；且满足如下约束条件： Emin≤E≤Emax Imin≤I≤Imax Relmin≤Rel≤Relmax δw＝ δf δmin≤ δ∑≤ δmax 式中， Emin、 Emax依次对应为工件的弹性模量E的下限值和上限值， Imin、 Imax依次对应为工件的惯性模量I的下限值和上限值， Relmin、 Relmax依次对应为工件的屈服强度Rel的下限值和上限值， δw为工件的反弯挠度， δf为工件的弾复挠度， δmin、 δmax依次对应为校直机压头行程的最小值和最大值； 2)所述惩罚项r： r＝β δ∑‑η 式中， β 、 η为惩罚系数，且均为正值； S2、获取工件的状态参数并输入所述DDPG网络模型，根据所述DDPG网络模型选择的动作at生成下一时刻的状态参数St+1，所述状态参数包括 δ、 d、 l1、 l2、 E、 I、 Rel； S3、分别判断当前时刻的状态参数St和下一时刻的状态参数St+1是否均满足约束条件，若是，则将当前时刻的目标函数δ∑作为校直行程，并记奖惩值为1反馈给所述DDPG网络模型，否则，计算惩罚项r作为奖惩值反馈给所述DDPG网络模型； S4、将当前时刻t的状态参数St、动作at、奖惩值rt和下一时刻的状态参数St+1作为组合 (St,at,rt,St+1)存储于记忆库； S5、从记忆库随机选取一个组合中的动作和状态参数输入所述DDPG网络模型进行学习以更新神经网络参数，并更新下一时刻的状态参数St+1作为工件的状态参数，返回执行步骤 S2，直至当前回合数j的时间结束； S6、判断当前回合数j是否达到最大回合数jmax，若是，输出最终DDPG网络模型，否则，更新当前回合数j下最后一个时刻的状态参数作为工件的状态参数，置j＝j+1，返回执行步骤 S2；权　利　要　求　书 1/2 页 2 CN 115495993 A 2S7、将待测工件的状态参数输入最终D DPG网络模型，预测出待测工件的校直行程。 2.如权利要求1所述的基于深度强化学习的校直行程预测方法，其特征在于：所述最大弯曲点的弯曲度 δ、最大弯曲点与其一相邻检测点的间距l1、最大弯曲点与另一相邻检测点的间距l2，获取如下：在工件上沿轴线方向等间隔标记若干个检测点，并将标记后的工件沿轴线转动，利用位移传感器采集不同转动角度下各检测点的采样值；将每个检测点的采样值的平均值作为对应检测点的基准值，并将每个检测点的各采样值分别与对应检测点的基准值作差，选取最大的差值作为对应检测点的弯曲度；比较各检测点的弯曲度，将最大的弯曲度对应的检测点视为最大弯曲点，则最大的弯曲度即为最大弯曲点的弯曲度 δ，并获得最大弯曲点与任一相邻检测点的间距。 3.如权利要求1所述的基于深度强化学习的校直行程预测方法，其特征在于：所述工件的弾复挠度 δf计算如下：其中，式中， δt为工件的极限挠度，为工件的弯矩比， Cf为工件的弾复曲率， C0为工件的初始曲率， ξ 为曲率比。 4.如权利要求3所述的基于深度强化学习的校直行程预测方法，其特征在于：所述工件的初始曲率满足C0＝0，表示工件校直时在不卸载压力的情况下弯曲度为0 。 5.如权利要求1所述的基于深度强化学习的校直行程预测方法，其特征在于：所述惩罚系数β ＝10 00， η＝0.1。权　利　要　求　书 2/2 页 3 CN 115495993 A 3

专利 一种基于深度强化学习的校直行程预测方法

专利一种基于深度强化学习的校直行程预测方法