メニュー

ストレージ領域アクセス不良(実行ジョブ確認願)および先日のSLURM障害について

(2022.8.1) 

 
先日のSLURM障害についてご不便をおかけし申し訳ございませんでした。
以下2点についてお知らせいたします。
 
1. ストレージ領域(home1, home3) へのアクセス不良について(実行ジョブ確認のお願い)
2. 7月23日(土)発生のSLURM障害についての報告
 

===========================

1. ストレージ領域(home1, home3) へのアクセス不良について(実行ジョブ確認のお願い)

SLURM障害の前後にストレージ領域(home1, home3)へのアクセスが不安定であったことを確認いたしました。現在は解消しております。
以下の期間にジョブを実行されている場合は、影響を受けている可能性がありますので、ご確認いただきますようお願いします。

【期間】
2022/07/23(土) 07:20 〜 2022/07/26(火) 09:56

【原因】
ネットワークを構成する部品の断続的な障害

【対応】
ネットワーク上の該当する経路をシステムから切り離し、その後エラーが収束したことを確認

【影響】
・H以外のシステムからhome1へのアクセスに失敗している場合があります
・Hシステムからhome3へのアクセスに失敗している場合があります

【実行ジョブのご確認のお願い】
期間中に実行されていたジョブについてご確認いただき、警告/エラー等の出力があったり逆に出力されているべき内容が出力されていなかったりしている場合は、お手数ですが、OKBIZ.またはメール(unyo[at]j-focus.or.jp([at]を@に変更してください))で該当のジョブIDとともに入出力領域(home1/home3)、出力内容やその他設定されていた環境などの状況をお書き添えのうえ、2022年8月12日(金) までにご連絡いただきますようお願い申し上げます。

【影響ジョブの対応について】
大変申し訳ございませんが、7月利用分請求については課金除外判定を実施できない状態での請求になりますことご了承願います。
課金除外が確定した場合の返金対応については別途個別に連絡いたします。
 

2. 7月23日(土) 発生のSLURM障害についての報告

先日のSLURM障害について以下のとおり報告いたします。

【障害期間】
2022/07/23(土) 07:27 〜 2022/07/25(月) 11:40

【原因】
・ネットワーク障害(1.にて報告のとおり)を原因とするSLURM管理プロセスのハングアップ
・冗長化はされていたものの予備機への自動切替に失敗

【対応】
・該当プロセスの再起動
・原因となる事象の解析と修正対応の実施(1.にて報告のとおり)
・予備機への切替処理の見直しと検証の実施

【影響】
・期間中SLURMコマンドの実行不可(sbatch, squeue 等)このため新規ジョブ実行ができない状態でした。
・期間中に終了したジョブの正常な終了時刻の取得不可
該当のジョブについては実際の請求では過剰請求とならないよう調整いたします。
ただし、uacctやthismonthコマンドの出力は修正前の情報となりますことご了承願います。
また、1.の影響があることも考えられますため、ジョブのご確認をお願いいたします。

このたびはご不便おかけしましたことお詫び申し上げます。
今後も安定運用に努めてまいります。

本件に関するお問い合わせ先

FOCUSスパコンお問合せ窓口 OKBIZ. からお問い合わせください


  • スーパーコンピュータ・ソリューションセミナー2024
  • スパコン利用講習会
  • 産業用スパコン利用相談センター
  • 賛助会員募集中
  • 「富岳」 利用研究課題の募集
  • ファーストタッチオプション「富岳」
  • 計算科学研究センター (R-CCS)