メニュー

【復旧済】 home1アクセス障害の発生について

(2025.2.25)

 
2月21日(金)15:03にhome1のアクセス障害に起因した、ログイン不可、およびN,Sシステムにおいて実行ジョブ障害が発生いたしました。
現在は対応完了し、通常どおり利用可能です。
本事象について以下のとおり報告いたします。
 

【期間】
2025/02/21 15:03 〜 21:50

【事象】
home1へのアクセス不可

【影響】

  • SSH鍵認証によるログイン・フロントエンドサーバへのログイン不可
  • N,Sシステムにてhome1領域へのI/O不可
  • N,SシステムのSLURM動作不良によるジョブ実行の不具合
  • Gaussian、PHITS等の利用申請を要するアプリケーションの実行不可

 
【経緯および対応】

15:03 冗長化されているhome1ストレージサーバがサービス停止を誤検知し、待機サーバへの自動切替(フェイルオーバー)を実行。しかし、待機サーバの設定不備により【影響】の各不具合が発生
16:15 ログイン・フロントエンドサーバでhome1を強制再マウントし、SSH鍵認証ログイン(WinSCP含む)が復旧
17:03 ネットワーク設定、home1領域のNFSの設定不備を修正し、N,Sシステムのhome1領域へのI/O不可が復旧
18:31 SLURM関連領域のNFSの設定不備を修正し、N,SシステムのSLURMによるジョブ実行が復旧
19:50 ユーザの問い合わせにより、Gaussian等の利用不可が判明
21:26 home1ストレージサーバの手動テイクオーバーによる切り戻しを実行
21:40 全ノードでhome1の強制再マウントを実施
21:50 動作確認を実施し全システムを復旧

 
【原因】

  • 非定型作業実施時にサービス停止誤検知が発生
  • 待機サーバの設定不備

 
【対応】
改めて冗長構成機器の設定を見直し、設定を完了しました。
18:31までの障害の影響を受けたN,Sシステムで実行のジョブは課金除外とし、個別連絡いたします。
また、お手数ですが、障害発生期間に実行していたジョブについてご確認いただき、不具合が発生していた場合は、以下内容をヘルプデスクもしくはメールにてお知らせください。
確認のうえ課金除外といたします。

  • ジョブID
  • (可能であれば)エラーメッセージや状況等

 
このたびはご不便おかけし申し訳ございませんでした。
安定運用に向け改めて設定等を確認し、改良を重ねてまいります。
 

本件に関するお問い合わせ先

FOCUSヘルプデスク


  • スパコン利用講習会
  • 産業用スパコン利用相談センター
  • 賛助会員募集中
  • 「富岳」 利用研究課題の募集
  • ファーストタッチオプション「富岳」
  • 計算科学研究センター (R-CCS)