障害およびSLURM修正パッチ適用に関する報告
FOCUSスパコン利用者各位 
平素はFOCUSスパコンをご利用いただき誠にありがとうございます。 
以下2点について報告申し上げます。 
1. 障害報告 
2. SLURM修正パッチ適用作業完了報告 
1. 障害報告 
先日発生いたしましたNASサーバおよびログインサーバ障害について報告いたします。 
【障害発生通知】https://www.j-focus.or.jp/focus/focus_information/entry-1828.html 
【障害解消通知】https://www.j-focus.or.jp/focus/focus_information/entry-1829.html 
i)  NAS2:/home1 利用不可 
(期間)      平成30年6月16日(土)07:45~6月18日(月)15:59 
(原因)      入出力の継続的な負荷によりNFSサービスが停止 
(事象)      NAS2サーバへのアクセスがダウン。 
            ホーム領域がNAS2を経由している課題ユーザ(全体の半分のユーザ)の ログイン不可および該当ユーザのジョブの
            実行不能(NAS2:/home1へのアクセス不可のため)。 
(対応)      NAS2サーバの再起動を実施 
(影響ジョブ)本障害の影響を受けたジョブについては課金免除とし、個別連絡いたしました。 
ii) SSH ログイン不可 
(期間)      平成30年6月16日(土)07:45~6月18日(月)15:59 
(原因)      NAS2サーバのサービス停止により 
              ログインサーバ(login1/login2)の大量プロセス滞留 
(影響事象)ログインサーバへのアクセスがダウン。 
             SSH鍵交換によるログイン経路からのアクセスが不可。 
(対応)      NAS2サーバの復旧による滞留プロセス解消で復旧 
(影響ジョブ)なし 
今回の障害に関してユーザの皆様にご迷惑をおかけし、申し訳ありませんでした。 
home1 については、今年度に入り2回目の障害発生となっており、財団としましては 
運用方法、増強等見直しを実施しております。 
また、ユーザ各位におかれましてもストレージの利用については文末の「各種ストレージ利用の注意」を 
ご参照のうえ、/work もしくは /home2 を利用いただくようお願い申し上げます。 
2. SLURM修正パッチ適用作業完了報告 
延期としておりましたSLURMのパッチ適用作業を実施しました。 
【作業予告通知】https://www.j-focus.or.jp/focus/focus_information/entry-1831.html 
(作業完了日時)平成30年6月18日(月) 16:19 
(作業内容)    ジョブ管理システムSLURMの修正パッチ適用および再起動 
(影響ジョブ)  なし 
利用者の皆様にはご迷惑をおかけしたことをお詫び申し上げます。 
安定した運用に日々努めてまいりますので、今後ともよろしくお願いいたします。 
===========================
<本件に関するお問い合わせ先>
OKBizよりお問い合わせください
https://secure.okbiz.okwave.jp/focus/
================================= 
「各種ストレージ利用の注意」 
================================= 
ホーム領域(/home1)は全課題に200GB提供されており、全ユーザが利用しています。 
個々の軽微な入出力が蓄積し、高負荷になる場合があります。 
このため、ジョブ実行時の入出力はできる限り /work, /home2 を 
ご利用いただきますようお願い申し上げます。 
■演算ノードから利用可能なストレージ領域のI/O性能 
・/work (演算ノードローカルストレージ):バンド幅を実行ジョブにて占有 
・/home2(分散ファイルシステム)    :システム全体で11GB/s、プロセスあたり1GB/s 
・/home1(NASストレージシステム)     :システム全体で500MB/s 
各ストレージの書込み性能については、クイックリファレンスにまとめて 
おりますのでこちらもご参照ください。 
http://www.j-focus.jp/quickreference/qref201601/#005 
上記特性をご理解いただき、入出力領域を選択してください。 
■/work利用の推奨と注意点 
大規模I/Oが発生するジョブについては、可能な限り/workをご利用ください。 
保存領域および通信領域は実行ジョブにて占有するため、他ユーザ、他ジョブの 影響を受けないとともに影響を与えることもありません。 
利用の際は以下の点をご留意ください。 
/workはジョブ終了時に中のデータが全て削除されますので、結合後のファイル等必要なデータがある場合はジョブスクリプト内で/home2等への転送が必要となります。 
キューの最長実行時間に達してしまい、データの転送が完了する前にジョブが 終了してしまうと計算結果のデータが失われてしまいますので、余裕を持って 送時間を確保することを推奨します。 
■/home2利用の推奨と注意点 
/workの利用が困難な場合、つまり、 
ジョブ実行中に複数ノードから共通のデータにアクセスする必要がある場合は、 
I/O性能の高い/home2をご利用ください。 
(料金:月あたり600円/10GB。利用の際はOKBizからご連絡ください。) 












