【復旧済】ログイン・ジョブ実行不可(経過等報告追記)
(2021.2.1)
2021/03/01 追記
既報のとおり、1/30(土)発生の障害については2/1(月)に復旧しており、現在通常どおりログイン、ジョブ実行等可能です。
本障害についての概要を以下にてご報告いたします。
・経緯
2021/01/31(土)
04:00頃〜 /home1 NASサーバにおいてNFSサービスへのアクセスが集中し、高負荷状態となる
04:17 NFSサービスの再起動が行われたが、自動起動に失敗し、この時点から/home1アクセスおよび
SSHログインが不可となる
2021/02/01(月)
09:00 発生障害を確認、復旧対応を開始
10:02 ジョブ新規実行の不可設定を実施
ログインノード・共用フロントエンドへのSSHログイン制限を実施
NFSサービスへの高負荷が検知されたため、実行中および待機中のジョブをシステムにより
強制終了(※1)
13:16 NFSサービス起動(home1へのアクセス(NFS)再開)
20:24 復旧(SSHログイン可能、ジョブ新規実行再開)
(※1) NFSサービス再開時に障害発生時と同様の高負荷が発生することを避けるため実施いたしました。
強制強制終了したジョブの実行ユーザ/課題連絡責任者に別途メールにてご連絡いたします。
・原因
/home1 NASサーバにおいてNFSサービスへのアクセスが集中して高負荷状態となり、NFSサービスの再起動が発生した。その後、NFSサービスプロセスの自動起動復旧が行われたが、これに失敗しており、NFSサービスが停止したため/home1 へのアクセス障害に至った。
・影響
- /home1アクセス不可(※2)
- 新規ログイン不可、既存ログイン強制排除
- 実行中および待機中のジョブの強制終了
(NFSサービス再開時に障害発生時と同様の高負荷が発生することを避けるため)
(※2) 本障害の影響を受けたジョブの実行ユーザ/課題連絡責任者に別途メールにて連絡しております。
・対策
- I/O高負荷の原因となるソフトウェアの抽出と一時提供停止
(Gaussian Lindaバイナリ)(※3)
- /home1 高負荷回避についてユーザへ重ねてお願い (※4)
- システムバックアップ領域の縮小
- 高負荷に備えた機器設定/構成の検討(4月メンテナンスにて対応予定)
(※3) 今回特にGaussianのLinda並列ジョブによるI/O高負荷を確認したため、Gaussian Lindaバイナリの
利用を停止しています。
Gaussianはノード内並列にて実行いただきますようお願いいたします。
【停止対象バイナリ】
・/home1/share/g09*/g09/*.exel
・/home1/share/g16*/g16/*.exel
(Lindaの運用を見直し、2021年度メンテナンス後に提供再開の予定です)
(※4) 今回の障害は home1へのI/O高負荷が原因のひとつと考えられます。
複数のプロセスから home1 へ書き込むジョブを多数同時に投入・実行される方は、/home3 を
ご利用いただきますようお願い申し上げます。
昨年度末に通知した内容ですが、ストレージ領域選択の参考としてください。
「/home1へのI/O高負荷ジョブ実行はお控えください」
このたびはご迷惑おかけし申し訳ございません。
安定稼働のため、ユーザのみなさまにご協力いただきますとともに、原因の解析および対策実施について進めてまいります。
---------------------------------------------------------------------------------------------------
2021/02/02 9:16 追記
本件2021/02/01 20:24 に復旧し、通常どおりご利用可能です。
---------------------------------------------------------------------------------------------------
現在、1月30日(土) AM4:17にhome1にて発生した障害の影響で、FOCUSスパコン全体でログインおよびジョブ実行等できない状態が続いており、ただいま復旧のため緊急メンテナンスを実施しております。
復旧いたしましたら、メール等にて通知いたします。
ご迷惑おかけしており誠に申し訳ありません。いましばらくお待ちいただきますようお願いいたします。
本件に関するお問い合わせ先
OKBizからお問い合わせください