メニュー

【復旧済】SLURMコマンド応答不可

(2021.10.11) 

 
2021/10/15 15:00 追記
 
【障害およびメンテナンス期間】
2021/10/09(土) 5:16 〜 10/11(月) 20:36

【経緯】
2021/10/09(土)
 05:16 管理システムにてネットワーク基幹サーバ1台のダウンを検知
2021/10/11(月)
 09:00 対応/調査開始
 10:16 緊急メンテナンス開始
新規ログイン停止
 11:00 既存ログインユーザを強制ログアウト
 20:36 緊急メンテナンス完了
    ログイン許可、各システム提供再開(Wシステム, HPCIプリポストシステム以外)
2021/10/12(火)
 10:33 Wシステム提供再開
 16:37 HPCIプリポストシステム提供再開

【原因】
・ネットワーク関連のサービスの一部を担っていたサーバがメモリ故障によりダウン
・該当サーバは冗長構成をとっていたが、Standby機への切替に失敗

【事象】
・SLURM管理機能停止
・ネットワーク経路不全による演算ノードからストレージシステムへのアクセス不可

【影響】
・SLURMコマンド応答不可
・障害発生期間のジョブの完了不全
・メンテナンス実施のためのログイン停止

【対応】
・該当サーバで担っていたネットワーク関連サービスを複数の別サーバへ移行
・移行したネットワーク関連サービスの冗長機能および冗長動作を確認


ユーザの皆様に大変ご迷惑をおかけし誠に申し訳ございません。
今後、これまで以上に安定稼働、安定運用に努めてまいります。
引き続きFOCUSスパコンをご利用いただきますようお願い申し上げます。
 
---------------------------------------------------------------------------------------------------
  
2021/10/12 9:10 追記
 
2021/10/11(月) 20:36 本障害は解消いたしました。
後日、原因/対応内容について本ページにてお知らせいたします。

---------------------------------------------------------------------------------------------------

現在、ジョブ管理システムSLURMコマンドを実行した際、 応答がないという現象が発生しており、対応/調査中です。

現在、SLURMコマンド(sbatch, scancel, squeue 等)の利用はできません。
このため、新規ジョブ投入やジョブ状態の確認ができない状態です。

復旧いたしましたら、改めてお知らせいたします。
ご迷惑おかけしており申し訳ありません。

いましばらくお待ちいただきますようお願いいたします。
 

本件に関するお問い合わせ先

FOCUSスパコンお問合せ窓口 OKBIZ. からお問い合わせください


  • 産業用スパコン利用相談センター
  • 賛助会員募集中
  • 「富岳」 利用研究課題の募集
  • ファーストタッチオプション「富岳」
  • 計算科学研究センター (R-CCS)