障害およびSLURM修正パッチ適用に関する報告
FOCUSスパコン利用者各位
平素はFOCUSスパコンをご利用いただき誠にありがとうございます。
以下2点について報告申し上げます。
1. 障害報告
2. SLURM修正パッチ適用作業完了報告
1. 障害報告
先日発生いたしましたNASサーバおよびログインサーバ障害について報告いたします。
【障害発生通知】https://www.j-focus.or.jp/focus/focus_information/entry-1828.html
【障害解消通知】https://www.j-focus.or.jp/focus/focus_information/entry-1829.html
i) NAS2:/home1 利用不可
(期間) 平成30年6月16日(土)07:45~6月18日(月)15:59
(原因) 入出力の継続的な負荷によりNFSサービスが停止
(事象) NAS2サーバへのアクセスがダウン。
ホーム領域がNAS2を経由している課題ユーザ(全体の半分のユーザ)の ログイン不可および該当ユーザのジョブの
実行不能(NAS2:/home1へのアクセス不可のため)。
(対応) NAS2サーバの再起動を実施
(影響ジョブ)本障害の影響を受けたジョブについては課金免除とし、個別連絡いたしました。
ii) SSH ログイン不可
(期間) 平成30年6月16日(土)07:45~6月18日(月)15:59
(原因) NAS2サーバのサービス停止により
ログインサーバ(login1/login2)の大量プロセス滞留
(影響事象)ログインサーバへのアクセスがダウン。
SSH鍵交換によるログイン経路からのアクセスが不可。
(対応) NAS2サーバの復旧による滞留プロセス解消で復旧
(影響ジョブ)なし
今回の障害に関してユーザの皆様にご迷惑をおかけし、申し訳ありませんでした。
home1 については、今年度に入り2回目の障害発生となっており、財団としましては
運用方法、増強等見直しを実施しております。
また、ユーザ各位におかれましてもストレージの利用については文末の「各種ストレージ利用の注意」を
ご参照のうえ、/work もしくは /home2 を利用いただくようお願い申し上げます。
2. SLURM修正パッチ適用作業完了報告
延期としておりましたSLURMのパッチ適用作業を実施しました。
【作業予告通知】https://www.j-focus.or.jp/focus/focus_information/entry-1831.html
(作業完了日時)平成30年6月18日(月) 16:19
(作業内容) ジョブ管理システムSLURMの修正パッチ適用および再起動
(影響ジョブ) なし
利用者の皆様にはご迷惑をおかけしたことをお詫び申し上げます。
安定した運用に日々努めてまいりますので、今後ともよろしくお願いいたします。
===========================
<本件に関するお問い合わせ先>
OKBizよりお問い合わせください
https://secure.okbiz.okwave.jp/focus/
=================================
「各種ストレージ利用の注意」
=================================
ホーム領域(/home1)は全課題に200GB提供されており、全ユーザが利用しています。
個々の軽微な入出力が蓄積し、高負荷になる場合があります。
このため、ジョブ実行時の入出力はできる限り /work, /home2 を
ご利用いただきますようお願い申し上げます。
■演算ノードから利用可能なストレージ領域のI/O性能
・/work (演算ノードローカルストレージ):バンド幅を実行ジョブにて占有
・/home2(分散ファイルシステム) :システム全体で11GB/s、プロセスあたり1GB/s
・/home1(NASストレージシステム) :システム全体で500MB/s
各ストレージの書込み性能については、クイックリファレンスにまとめて
おりますのでこちらもご参照ください。
http://www.j-focus.jp/quickreference/qref201601/#005
上記特性をご理解いただき、入出力領域を選択してください。
■/work利用の推奨と注意点
大規模I/Oが発生するジョブについては、可能な限り/workをご利用ください。
保存領域および通信領域は実行ジョブにて占有するため、他ユーザ、他ジョブの 影響を受けないとともに影響を与えることもありません。
利用の際は以下の点をご留意ください。
/workはジョブ終了時に中のデータが全て削除されますので、結合後のファイル等必要なデータがある場合はジョブスクリプト内で/home2等への転送が必要となります。
キューの最長実行時間に達してしまい、データの転送が完了する前にジョブが 終了してしまうと計算結果のデータが失われてしまいますので、余裕を持って 送時間を確保することを推奨します。
■/home2利用の推奨と注意点
/workの利用が困難な場合、つまり、
ジョブ実行中に複数ノードから共通のデータにアクセスする必要がある場合は、
I/O性能の高い/home2をご利用ください。
(料金:月あたり600円/10GB。利用の際はOKBizからご連絡ください。)