说明:收录全文最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211266288.8 (22)申请日 2022.10.17 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市下城区朝晖六 区 (72)发明人 董辉 胡越 普晨旭 周祥清  吴祥 郭方洪  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 忻明年 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 111/04(2020.01)G06F 119/14(2020.01) (54)发明名称 一种基于深度强化学习的校直行程预测方 法 (57)摘要 本发明公开了一种基于深度强化学习的校 直行程预测方法, 通过构建包括环境模型和DDPG 网络模型的校直行程预测模型, 将 工件的状态参 数输入DDPG网络模型选出相应的动作, 根据动作 更新下一时刻的状态参数, 并对当前时刻和下一 时刻的状态 参数进行约束条件判断, 根据判断结 果计算奖惩值反馈给DDPG网络模型, 并将当前时 刻的状态参数、 动作、 奖惩值和下一时刻的状态 参数作为组合存储于记忆库, DDPG网络模型从记 忆库提取参数进行学习以更新神经网络参数, 通 过循环训练获得最终DDPG网络模型, 将待测工件 的状态参数输入最终DDPG网络模型预测出对应 的校直行程。 该方法能够有效减少工件的校直次 数, 提高工件的校直精度和校直效率。 权利要求书2页 说明书7页 附图2页 CN 115495993 A 2022.12.20 CN 115495993 A 1.一种基于深度强化学习的校直行程预测方法, 其特征在于: 所述基于深度强化学习 的校直行程预测方法包括如下步骤: S1、 建立校直行程预测模型并初始化, 所述校直行程预测模型包括环境模型和DDPG网 络模型, 其中: 所述环境模型的动作空间和状态空间构建如下: 所述动作空间表示为a={at}, 所述状态 空间表示为S={δ,d,l1,l2,E,I,Rel}, 其中, at 表示进行校直, δ为最大弯曲点的弯曲度, d为工件的直径, l1为最大弯曲点与其一相邻检测 点的间距, l2为最大弯曲点与另一相邻检测点的间距, E为工件的弹性模量, I为工件的惯性 模量, Rel 为工件的屈服强度; 所述DDPG网络模型的目标函数和惩罚项满足如下公式: 1)所述目标函数δ∑: δ∑= δ +δw 式中, δ 为最大弯曲点的弯曲度, δw为工件最大弯曲点的反弯挠度; 且满足如下约束条件: Emin≤E≤Emax Imin≤I≤Imax Relmin≤Rel≤Relmax δw= δf δmin≤ δ∑≤ δmax 式中, Emin、 Emax依次对应为工件的弹性模量E的下限值和上限值, Imin、 Imax依次对应为工 件的惯性模量I的下限值和上限值, Relmin、 Relmax依次对应为工件的屈服强度Rel的下限值 和上限值, δw为工件的反弯挠度, δf为工件的弾复挠度, δmin、 δmax依次对应 为校直机压头行程 的最小值和最大值; 2)所述惩罚项r: r=β δ∑‑η 式中, β 、 η为 惩罚系数, 且均为 正值; S2、 获取工件的状态参数并输入所述DDPG网络模型, 根据所述DDPG网络模型选择的动 作at生成下一时刻的状态参数St+1, 所述状态参数包括 δ、 d、 l1、 l2、 E、 I、 Rel; S3、 分别判断当前时刻的状态参数St和下一时刻的状态参数St+1是否均满足约束条件, 若是, 则将当前时刻的目标函数δ∑作为校直行程, 并记奖惩值为1反馈给所述DDPG网络模 型, 否则, 计算 惩罚项r作为奖惩 值反馈给 所述DDPG网络模型; S4、 将当前时刻t的状态参数St、 动作at、 奖惩值rt和下一时刻的状态参数St+1作为组合 (St,at,rt,St+1)存储于记忆库; S5、 从记忆库随机选取一个组合中的动作和状态参数输入所述DDPG网络模型进行学习 以更新神经网络参数, 并更新下一时刻的状态参数St+1作为工件的状态 参数, 返回执行步骤 S2, 直至当前回合数j的时间结束; S6、 判断当前 回合数j是否达到最大回合数jmax, 若是, 输出最终DDPG网络模型, 否则, 更 新当前回合数j下最后一个时刻的状态参数作为工件的状态 参数, 置j=j+1, 返回执行步骤 S2;权 利 要 求 书 1/2 页 2 CN 115495993 A 2S7、 将待测工件的状态参数输入最终D DPG网络模型, 预测出待测工件的校直行程。 2.如权利要求1所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述最大 弯曲点的弯曲度 δ、 最大弯曲点与其一相邻检测点的间距l1、 最大弯曲点与另一相邻检测点 的间距l2, 获取如下: 在工件上沿轴线方向等间隔标记若干个检测点, 并将标记后的工件沿轴线转动, 利用 位移传感器采集 不同转动角度下 各检测点的采样值; 将每个检测点的采样值的平均值作为对应检测点的基准值, 并将每个检测点的各采样 值分别与对应 检测点的基准 值作差, 选取最大的差值作为对应 检测点的弯曲度; 比较各检测点的弯曲度, 将最大的弯曲度对应的检测点视为最大弯曲点, 则最大的弯 曲度即为 最大弯曲点的弯曲度 δ, 并获得最大弯曲点与任一相邻检测点的间距。 3.如权利要求1所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述工件 的弾复挠度 δf计算如下: 其中, 式中, δt为工件的极限挠度, 为工件的弯矩比, Cf为工件的弾复曲率, C0为工件的初始 曲率, ξ 为曲率比。 4.如权利要求3所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述工件 的初始曲率满足C0=0, 表示工件校直时在不卸载压力的情况 下弯曲度为0 。 5.如权利要求1所述的基于深度强化学习的校直行程预测方法, 其特征在于: 所述惩罚 系数β =10 00, η=0.1。权 利 要 求 书 2/2 页 3 CN 115495993 A 3

PDF文档 专利 一种基于深度强化学习的校直行程预测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的校直行程预测方法 第 1 页 专利 一种基于深度强化学习的校直行程预测方法 第 2 页 专利 一种基于深度强化学习的校直行程预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。