メニュー

障害復旧についてのお知らせ

(2020.12.02)
 
  

2020/12/02 17:35 追記    

既報のとおり、昨日(12/1)夕刻発生の障害については復旧しており、 現在通常どおりログイン、ジョブ実行等可能です。

本障害についての概要を以下にて報告いたします。

経緯

2020/12/01(火)
16:20頃~ /home1 NASサーバにおいてNFSサービスへのアクセスが集中・高負荷状態となる
16:42 NFSサービスの再起動が発生、自動起動に失敗
    /home1アクセス不可、ログイン不可
17:49 ジョブ新規実行不可設定実施
      ログインノード・共用フロントエンドへのSSHログイン制限実施
      NFSサービスへの高負荷が検知されたため、実行中ジョブをシステムにより強制終了※1
18:55 NFSサービス起動(home1へのアクセス(NFS)再開)
22:38 復旧(ログイン可能、ジョブ新規実行再開)

※1 NFSサービス再開時に障害発生時と同様の高負荷が発生することを避けるため実施いたしました。
    強制終了したジョブの実行ユーザ/課題連絡責任者に別途メールにて連絡いたします。
 

原因

/home1 NASサーバにおけるNFSサービスが高負荷状態となり、NFSサービスの再起動が発生。
その後のNFSサービスプロセスの自動起動復旧に失敗しており、NFSサービスが停止したため /home1 への
アクセス障害に至った。
 

影響

・  /home1アクセス不可※2
・  新規ログイン不可、既存ログイン強制排除
・  実行中ジョブの強制終了(NFSサービス再開時に障害発生時と同様の高負荷が発生することを避けるため)

※2 本障害の影響を受けたジョブの実行ユーザ/課題連絡責任者に別途メールにて連絡いたします。
 

対策

原因について解析を進め、対策について再検討いたします。

なお、/home1へのI/O高負荷が今回の原因のひとつとして挙げられます。
/home1へのアクセス頻度の高いジョブについては/home3をご利用いただきますようお願い申し上げます。

昨年度末通知の内容ですが、ストレージ領域選択の参考としてください。
/home1へのI/O高負荷ジョブ実行はお控えください
 
 
このたびはご迷惑おかけし申し訳ございません。
安定稼働のため、原因の解析および対策実施について進めてまいります。
 
 

---------------------------------------------------------------------------------------------------

昨日(12/1)夕刻発生の障害については復旧しており、現在通常どおりログイン、ジョブ実行等可能です。
経緯等については改めてご報告いたします。
 

本件に関するお問い合わせ

OKBizからお問い合わせください


  • スーパーコンピュータ・ソリューションセミナー2024
  • スパコン利用講習会
  • 産業用スパコン利用相談センター
  • 賛助会員募集中
  • 「富岳」 利用研究課題の募集
  • ファーストタッチオプション「富岳」
  • 計算科学研究センター (R-CCS)