【復旧済】SLURMコマンド応答不可
2021/10/15 15:00 追記
【障害およびメンテナンス期間】
2021/10/09(土) 5:16 〜 10/11(月) 20:36
【経緯】
2021/10/09(土)
05:16 管理システムにてネットワーク基幹サーバ1台のダウンを検知
2021/10/11(月)
09:00 対応/調査開始
10:16 緊急メンテナンス開始
新規ログイン停止
11:00 既存ログインユーザを強制ログアウト
20:36 緊急メンテナンス完了
ログイン許可、各システム提供再開(Wシステム, HPCIプリポストシステム以外)
2021/10/12(火)
10:33 Wシステム提供再開
16:37 HPCIプリポストシステム提供再開
【原因】
・ネットワーク関連のサービスの一部を担っていたサーバがメモリ故障によりダウン
・該当サーバは冗長構成をとっていたが、Standby機への切替に失敗
【事象】
・SLURM管理機能停止
・ネットワーク経路不全による演算ノードからストレージシステムへのアクセス不可
【影響】
・SLURMコマンド応答不可
・障害発生期間のジョブの完了不全
・メンテナンス実施のためのログイン停止
【対応】
・該当サーバで担っていたネットワーク関連サービスを複数の別サーバへ移行
・移行したネットワーク関連サービスの冗長機能および冗長動作を確認
ユーザの皆様に大変ご迷惑をおかけし誠に申し訳ございません。
今後、これまで以上に安定稼働、安定運用に努めてまいります。
引き続きFOCUSスパコンをご利用いただきますようお願い申し上げます。
---------------------------------------------------------------------------------------------------
2021/10/12 9:10 追記
2021/10/11(月) 20:36 本障害は解消いたしました。
後日、原因/対応内容について本ページにてお知らせいたします。
---------------------------------------------------------------------------------------------------
現在、ジョブ管理システムSLURMコマンドを実行した際、 応答がないという現象が発生しており、対応/調査中です。
現在、SLURMコマンド(sbatch, scancel, squeue 等)の利用はできません。
このため、新規ジョブ投入やジョブ状態の確認ができない状態です。
復旧いたしましたら、改めてお知らせいたします。
ご迷惑おかけしており申し訳ありません。
いましばらくお待ちいただきますようお願いいたします。
本件に関するお問い合わせ先
FOCUSスパコンお問合せ窓口 OKBIZ. からお問い合わせください