(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202110324746.8
(22)申请日 2021.03.26
(71)申请人 无锡江南计算 技术研究所
地址 214038 江苏省无锡市滨湖区山水东
路699号
(72)发明人 刘鑫 钱宇 宋长明 龚道永
李伟东 张宏宇 刁晓娜
(74)专利代理 机构 苏州创元专利商标事务所有
限公司 3210 3
代理人 王健
(51)Int.Cl.
G06F 30/27(2020.01)
G06F 119/02(2020.01)
(54)发明名称
一种超级计算机 计算资源故障预测方法
(57)摘要
本发明公开一种超级计算机计算资源故障
预测方法, 包括以下步骤: S1、 每隔s秒采集一个
计算节点的特征信息, 记为x1s; N个s秒为时间窗
口T; S2、 经过m个时间 窗口T的数据 积累, 得到m个
总特征X作为输入样本; S3、 将S2中经数据处理后
的m个总特征X和对应状态Y按batch大小划分成
组; S4、 从 (m+1) 个时间 窗口T开始, 将采集到的最
新的总特征X_test和对应状态Y_test根据S2进
行数据处理; S5、 设置阈值并对比预测结果Y ’和
对应状态Y_test, 当偏差大于设定的阈值时, 将
训练模型进行调参重训练, 重复S4。 本发明解决
了超级计算机计算资源故障难以有效提前预测
的问题。
权利要求书1页 说明书4页 附图1页
CN 114218846 A
2022.03.22
CN 114218846 A
1.一种超级计算机计算资源故障预测方法, 其特 征在于, 包括以下步骤:
S1、 每隔s秒采集 一个计算节点的特 征信息, 记为x1s ;
N个s秒为时间窗口T, 则在一个时间窗口T中累积的特征信息为X1: {x1s,x2s, …,xT},
在一个间隔时间t之后的t ’时间区间内计算节点对应 状态为Y1: {y1t};
N个计算节点在一个时间窗口T中累积的总特征为X: {X1,X2, …,XN}, 在一个时间间隔t
之后的t’时间区间内计算节点对应 状态为Y: {Y1,Y2, …,YN};
S2、 经过m个时间窗口T的数据积累, 根据S1, 得到m个总特征X作为输入样本, m个对应状
态Y作为输出样 本, 分别对输入样本和输出样本依次进 行标准化处理和0 ‑1编码处理的数据
处理, 获得适用于训练的m个总特 征X和对应状态Y;
S3、 将S2中经数据处理后的m个总特征X和对应状态Y按batch大小划分成组, 依次传入
卷积神经网络和长短期记 忆模型中进行调参迭代训练并生成预测模型;
S4、 从 (m+1) 个时间窗口T开始, 将采集到的最新 的总特征X_test和对应状态Y_test根
据S2进行数据处理, 然后按batch大小划分成组, 将X_test传入S3中生成 的预测模型中, 输
出以概率大小表示的预测结果Y ’;
S5、 设置阈值并对比预测结果Y ’和对应状态Y_test, 当偏差大于设定的阈值时, 将训练
模型进行调参重训练, 重复S4。权 利 要 求 书 1/1 页
2
CN 114218846 A
2一种超级计算机计算资源故障预测方 法
技术领域
[0001]本发明涉及一种超级计算机计算资源故障预测方法, 属于故障预测技 术领域。
背景技术
[0002]计算资源是超级计算机系统资源的主要组成。 在计算故障发生前提前预测潜在的
资源故障可有助于进行预防性的前瞻式容错, 为在故障发生前 的前置式处理赢得时间, 从
而降低甚至避免潜在故障的破坏性影响, 从而提高系统的可用性。
[0003]当前, 超级计算机系统的故障预测方法主要有贝叶斯条件预测、 统计预测、 人工建
模预测等。 人工 建模预测工作量大, 且 无法适应系统生命周期内不断变化的故障模型; 条件
预测速度快, 但是准确性差; 统计预测 计算量大, 且对故障发生规律的变化不敏感, 准确率
难以有效提高。 现有预测方法无论在故障预测的时效性、 准确 率和适应性上都无法满足现
有超级计算机系统的故障预测需求。
[0004]随着超级计算机运算资源规模的不断扩大, 系统平均无故障时间持续降低, 可靠
性和可用性问题日益 突出, 系统突发性故障将对应用运行造成破坏性影响。
发明内容
[0005]本发明的目的是提供一种超级计算机计算资源 故障预测方法, 以解决超级计算机
计算资源故障难以有效提前 预测的问题。
[0006]为达到上述目的, 本发明采用的技术方案是: 提供一种超级计算机计算资源故障
预测方法, 包括以下步骤:
S1、 每隔s秒采集 一个计算节点的特 征信息, 记为x1s ;
N个s秒为时间窗口T, 则在一个时间窗口T中累积的特征信息为X1: {x1s,x2s, …,
xT}, 在一个间隔时间t之后的t ’时间区间内计算节点对应 状态为Y1: {y1t};
N个计算节点在一个时间窗口T中累积的总 特征为X: {X1,X2, …,XN}, 在一个时间
间隔t之后的t ’时间区间内计算节点对应 状态为Y: {Y1,Y2, …,YN};
S2、 经过m个时间窗 口T的数据积累, 根据S1, 得到m个总特征X作为输入样本, m个对
应状态Y作为输出样本, 分别对输入样 本和输出样 本依次进 行标准化处理和0 ‑1编码处理的
数据处理, 获得适用于训练的m个总特 征X和对应状态Y;
S3、 将S2中经数据 处理后的m个总 特征X和对应状态Y按batch大小划分成组, 依 次
传入卷积神经网络和长短期记 忆模型中进行调参迭代训练并生成预测模型;
S4、 从 (m+1) 个时间窗口T开始, 将采集到的最新的总特征X_test和对应状态Y_
test根据S2进行数据处理, 然后按batch大小划分成组, 将X_test传入S3中生 成的预测模型
中, 输出以概 率大小表示的预测结果Y ’;
S5、 设置阈值并对比预测结果Y ’和对应状态Y_t est, 当偏差大于设定的阈值时, 将
训练模型进行调参重训练, 重复S4。 。
[0007]由于上述 技术方案的运用, 本发明与现有技 术相比具有下列优点:说 明 书 1/4 页
3
CN 114218846 A
3
专利 一种超级计算机计算资源故障预测方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:21:58上传分享