(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211266288.8
(22)申请日 2022.10.17
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市下城区朝晖六
区
(72)发明人 董辉 胡越 普晨旭 周祥清
吴祥 郭方洪
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 忻明年
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 111/04(2020.01)G06F 119/14(2020.01)
(54)发明名称
一种基于深度强化学习的校直行程预测方
法
(57)摘要
本发明公开了一种基于深度强化学习的校
直行程预测方法, 通过构建包括环境模型和DDPG
网络模型的校直行程预测模型, 将 工件的状态参
数输入DDPG网络模型选出相应的动作, 根据动作
更新下一时刻的状态参数, 并对当前时刻和下一
时刻的状态 参数进行约束条件判断, 根据判断结
果计算奖惩值反馈给DDPG网络模型, 并将当前时
刻的状态参数、 动作、 奖惩值和下一时刻的状态
参数作为组合存储于记忆库, DDPG网络模型从记
忆库提取参数进行学习以更新神经网络参数, 通
过循环训练获得最终DDPG网络模型, 将待测工件
的状态参数输入最终DDPG网络模型预测出对应
的校直行程。 该方法能够有效减少工件的校直次
数, 提高工件的校直精度和校直效率。
权利要求书2页 说明书7页 附图2页
CN 115495993 A
2022.12.20
CN 115495993 A
1.一种基于深度强化学习的校直行程预测方法, 其特征在于: 所述基于深度强化学习
的校直行程预测方法包括如下步骤:
S1、 建立校直行程预测模型并初始化, 所述校直行程预测模型包括环境模型和DDPG网
络模型, 其中:
所述环境模型的动作空间和状态空间构建如下:
所述动作空间表示为a={at}, 所述状态 空间表示为S={δ,d,l1,l2,E,I,Rel}, 其中, at
表示进行校直, δ为最大弯曲点的弯曲度, d为工件的直径, l1为最大弯曲点与其一相邻检测
点的间距, l2为最大弯曲点与另一相邻检测点的间距, E为工件的弹性模量, I为工件的惯性
模量, Rel 为工件的屈服强度;
所述DDPG网络模型的目标函数和惩罚项满足如下公式:
1)所述目标函数δ∑:
δ∑= δ +δw
式中, δ 为最大弯曲点的弯曲度, δw为工件最大弯曲点的反弯挠度;
且满足如下约束条件:
Emin≤E≤Emax
Imin≤I≤Imax
Relmin≤Rel≤Relmax
δw= δf
δmin≤ δ∑≤ δmax
式中, Emin、 Emax依次对应为工件的弹性模量E的下限值和上限值, Imin、 Imax依次对应为工
件的惯性模量I的下限值和上限值, Relmin、 Relmax依次对应为工件的屈服强度Rel的下限值
和上限值, δw为工件的反弯挠度, δf为工件的弾复挠度, δmin、 δmax依次对应 为校直机压头行程
的最小值和最大值;
2)所述惩罚项r:
r=β δ∑‑η
式中, β 、 η为 惩罚系数, 且均为 正值;
S2、 获取工件的状态参数并输入所述DDPG网络模型, 根据所述DDPG网络模型选择的动
作at生成下一时刻的状态参数St+1, 所述状态参数包括 δ、 d、 l1、 l2、 E、 I、 Rel;
S3、 分别判断当前时刻的状态参数St和下一时刻的状态参数St+1是否均满足约束条件,
若是, 则将当前时刻的目标函数δ∑作为校直行程, 并记奖惩值为1反馈给所述DDPG网络模
型, 否则, 计算 惩罚项r作为奖惩 值反馈给 所述DDPG网络模型;
S4、 将当前时刻t的状态参数St、 动作at、 奖惩值rt和下一时刻的状态参数St+1作为组合
(St,at,rt,St+1)存储于记忆库;
S5、 从记忆库随机选取一个组合中的动作和状态参数输入所述DDPG网络模型进行学习
以更新神经网络参数, 并更新下一时刻的状态参数St+1作为工件的状态 参数, 返回执行步骤
S2, 直至当前回合数j的时间结束;
S6、 判断当前 回合数j是否达到最大回合数jmax, 若是, 输出最终DDPG网络模型, 否则, 更
新当前回合数j下最后一个时刻的状态参数作为工件的状态 参数, 置j=j+1, 返回执行步骤
S2;权 利 要 求 书 1/2 页
2
CN 115495993 A
2S7、 将待测工件的状态参数输入最终D DPG网络模型, 预测出待测工件的校直行程。
2.如权利要求1所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述最大
弯曲点的弯曲度 δ、 最大弯曲点与其一相邻检测点的间距l1、 最大弯曲点与另一相邻检测点
的间距l2, 获取如下:
在工件上沿轴线方向等间隔标记若干个检测点, 并将标记后的工件沿轴线转动, 利用
位移传感器采集 不同转动角度下 各检测点的采样值;
将每个检测点的采样值的平均值作为对应检测点的基准值, 并将每个检测点的各采样
值分别与对应 检测点的基准 值作差, 选取最大的差值作为对应 检测点的弯曲度;
比较各检测点的弯曲度, 将最大的弯曲度对应的检测点视为最大弯曲点, 则最大的弯
曲度即为 最大弯曲点的弯曲度 δ, 并获得最大弯曲点与任一相邻检测点的间距。
3.如权利要求1所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述工件
的弾复挠度 δf计算如下:
其中,
式中, δt为工件的极限挠度,
为工件的弯矩比, Cf为工件的弾复曲率, C0为工件的初始
曲率, ξ 为曲率比。
4.如权利要求3所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述工件
的初始曲率满足C0=0, 表示工件校直时在不卸载压力的情况 下弯曲度为0 。
5.如权利要求1所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述惩罚
系数β =10 00, η=0.1。权 利 要 求 书 2/2 页
3
CN 115495993 A
3
专利 一种基于深度强化学习的校直行程预测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:32上传分享