说明:收录全文最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110324746.8 (22)申请日 2021.03.26 (71)申请人 无锡江南计算 技术研究所 地址 214038 江苏省无锡市滨湖区山水东 路699号 (72)发明人 刘鑫 钱宇 宋长明 龚道永  李伟东 张宏宇 刁晓娜  (74)专利代理 机构 苏州创元专利商标事务所有 限公司 3210 3 代理人 王健 (51)Int.Cl. G06F 30/27(2020.01) G06F 119/02(2020.01) (54)发明名称 一种超级计算机 计算资源故障预测方法 (57)摘要 本发明公开一种超级计算机计算资源故障 预测方法, 包括以下步骤: S1、 每隔s秒采集一个 计算节点的特征信息, 记为x1s; N个s秒为时间窗 口T; S2、 经过m个时间 窗口T的数据 积累, 得到m个 总特征X作为输入样本; S3、 将S2中经数据处理后 的m个总特征X和对应状态Y按batch大小划分成 组; S4、 从 (m+1) 个时间 窗口T开始, 将采集到的最 新的总特征X_test和对应状态Y_test根据S2进 行数据处理; S5、 设置阈值并对比预测结果Y ’和 对应状态Y_test, 当偏差大于设定的阈值时, 将 训练模型进行调参重训练, 重复S4。 本发明解决 了超级计算机计算资源故障难以有效提前预测 的问题。 权利要求书1页 说明书4页 附图1页 CN 114218846 A 2022.03.22 CN 114218846 A 1.一种超级计算机计算资源故障预测方法, 其特 征在于, 包括以下步骤: S1、 每隔s秒采集 一个计算节点的特 征信息, 记为x1s  ; N个s秒为时间窗口T, 则在一个时间窗口T中累积的特征信息为X1: {x1s,x2s, …,xT}, 在一个间隔时间t之后的t ’时间区间内计算节点对应 状态为Y1: {y1t}; N个计算节点在一个时间窗口T中累积的总特征为X: {X1,X2, …,XN}, 在一个时间间隔t 之后的t’时间区间内计算节点对应 状态为Y: {Y1,Y2, …,YN}; S2、 经过m个时间窗口T的数据积累, 根据S1, 得到m个总特征X作为输入样本, m个对应状 态Y作为输出样 本, 分别对输入样本和输出样本依次进 行标准化处理和0 ‑1编码处理的数据 处理, 获得适用于训练的m个总特 征X和对应状态Y; S3、 将S2中经数据处理后的m个总特征X和对应状态Y按batch大小划分成组, 依次传入 卷积神经网络和长短期记 忆模型中进行调参迭代训练并生成预测模型; S4、 从 (m+1) 个时间窗口T开始, 将采集到的最新 的总特征X_test和对应状态Y_test根 据S2进行数据处理, 然后按batch大小划分成组, 将X_test传入S3中生成 的预测模型中, 输 出以概率大小表示的预测结果Y ’; S5、 设置阈值并对比预测结果Y ’和对应状态Y_test, 当偏差大于设定的阈值时, 将训练 模型进行调参重训练, 重复S4。权 利 要 求 书 1/1 页 2 CN 114218846 A 2一种超级计算机计算资源故障预测方 法 技术领域 [0001]本发明涉及一种超级计算机计算资源故障预测方法, 属于故障预测技 术领域。 背景技术 [0002]计算资源是超级计算机系统资源的主要组成。 在计算故障发生前提前预测潜在的 资源故障可有助于进行预防性的前瞻式容错, 为在故障发生前 的前置式处理赢得时间, 从 而降低甚至避免潜在故障的破坏性影响, 从而提高系统的可用性。 [0003]当前, 超级计算机系统的故障预测方法主要有贝叶斯条件预测、 统计预测、 人工建 模预测等。 人工 建模预测工作量大, 且 无法适应系统生命周期内不断变化的故障模型; 条件 预测速度快, 但是准确性差; 统计预测 计算量大, 且对故障发生规律的变化不敏感, 准确率 难以有效提高。 现有预测方法无论在故障预测的时效性、 准确 率和适应性上都无法满足现 有超级计算机系统的故障预测需求。 [0004]随着超级计算机运算资源规模的不断扩大, 系统平均无故障时间持续降低, 可靠 性和可用性问题日益 突出, 系统突发性故障将对应用运行造成破坏性影响。 发明内容 [0005]本发明的目的是提供一种超级计算机计算资源 故障预测方法, 以解决超级计算机 计算资源故障难以有效提前 预测的问题。 [0006]为达到上述目的, 本发明采用的技术方案是: 提供一种超级计算机计算资源故障 预测方法, 包括以下步骤: S1、 每隔s秒采集 一个计算节点的特 征信息, 记为x1s  ; N个s秒为时间窗口T, 则在一个时间窗口T中累积的特征信息为X1: {x1s,x2s, …, xT}, 在一个间隔时间t之后的t ’时间区间内计算节点对应 状态为Y1: {y1t}; N个计算节点在一个时间窗口T中累积的总 特征为X: {X1,X2, …,XN}, 在一个时间 间隔t之后的t ’时间区间内计算节点对应 状态为Y: {Y1,Y2, …,YN}; S2、 经过m个时间窗 口T的数据积累, 根据S1, 得到m个总特征X作为输入样本, m个对 应状态Y作为输出样本, 分别对输入样 本和输出样 本依次进 行标准化处理和0 ‑1编码处理的 数据处理, 获得适用于训练的m个总特 征X和对应状态Y; S3、 将S2中经数据 处理后的m个总 特征X和对应状态Y按batch大小划分成组, 依 次 传入卷积神经网络和长短期记 忆模型中进行调参迭代训练并生成预测模型; S4、 从 (m+1) 个时间窗口T开始, 将采集到的最新的总特征X_test和对应状态Y_ test根据S2进行数据处理, 然后按batch大小划分成组, 将X_test传入S3中生 成的预测模型 中, 输出以概 率大小表示的预测结果Y ’; S5、 设置阈值并对比预测结果Y ’和对应状态Y_t est, 当偏差大于设定的阈值时, 将 训练模型进行调参重训练, 重复S4。 。 [0007]由于上述 技术方案的运用, 本发明与现有技 术相比具有下列优点:说 明 书 1/4 页 3 CN 114218846 A 3

.PDF文档 专利 一种超级计算机计算资源故障预测方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种超级计算机计算资源故障预测方法 第 1 页 专利 一种超级计算机计算资源故障预测方法 第 2 页 专利 一种超级计算机计算资源故障预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:21:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。