障害およびSLURM修正パッチ適用に関する報告

(2018.6.22) 

FOCUSスパコン利用者各位

平素はFOCUSスパコンをご利用いただき誠にありがとうございます。

以下2点について報告申し上げます。

1. 障害報告
2. SLURM修正パッチ適用作業完了報告



1. 障害報告
先日発生いたしましたNASサーバおよびログインサーバ障害について報告いたします。

【障害発生通知】https://www.j-focus.or.jp/focus/focus_information/entry-1828.html
【障害解消通知】https://www.j-focus.or.jp/focus/focus_information/entry-1829.html

i)  NAS2:/home1 利用不可
(期間)      平成30年6月16日(土)07:45~6月18日(月)15:59
(原因)      入出力の継続的な負荷によりNFSサービスが停止
(事象)      NAS2サーバへのアクセスがダウン。
             ホーム領域がNAS2を経由している課題ユーザ(全体の半分のユーザ)の ログイン不可および該当ユーザのジョブの
             実行不能(NAS2:/home1へのアクセス不可のため)。
(対応)      NAS2サーバの再起動を実施
(影響ジョブ)本障害の影響を受けたジョブについては課金免除とし、個別連絡いたしました。

ii) SSH ログイン不可
(期間)      平成30年6月16日(土)07:45~6月18日(月)15:59
(原因)      NAS2サーバのサービス停止により
               ログインサーバ(login1/login2)の大量プロセス滞留
(影響事象)ログインサーバへのアクセスがダウン。
              SSH鍵交換によるログイン経路からのアクセスが不可。
(対応)      NAS2サーバの復旧による滞留プロセス解消で復旧
(影響ジョブ)なし

今回の障害に関してユーザの皆様にご迷惑をおかけし、申し訳ありませんでした。
home1 については、今年度に入り2回目の障害発生となっており、財団としましては
運用方法、増強等見直しを実施しております。
また、ユーザ各位におかれましてもストレージの利用については文末の「各種ストレージ利用の注意」を
ご参照のうえ、/work もしくは /home2 を利用いただくようお願い申し上げます。


2. SLURM修正パッチ適用作業完了報告
延期としておりましたSLURMのパッチ適用作業を実施しました。

【作業予告通知】https://www.j-focus.or.jp/focus/focus_information/entry-1831.html

(作業完了日時)平成30年6月18日(月) 16:19
(作業内容)    ジョブ管理システムSLURMの修正パッチ適用および再起動
(影響ジョブ)  なし


利用者の皆様にはご迷惑をおかけしたことをお詫び申し上げます。
安定した運用に日々努めてまいりますので、今後ともよろしくお願いいたします。

===========================

<本件に関するお問い合わせ先>
OKBizよりお問い合わせください
https://secure.okbiz.okwave.jp/focus/

=================================
「各種ストレージ利用の注意」
=================================
ホーム領域(/home1)は全課題に200GB提供されており、全ユーザが利用しています。
個々の軽微な入出力が蓄積し、高負荷になる場合があります。
このため、ジョブ実行時の入出力はできる限り /work, /home2 を
ご利用いただきますようお願い申し上げます。

■演算ノードから利用可能なストレージ領域のI/O性能
・/work (演算ノードローカルストレージ):バンド幅を実行ジョブにて占有
・/home2(分散ファイルシステム)    :システム全体で11GB/s、プロセスあたり1GB/s
・/home1(NASストレージシステム)     :システム全体で500MB/s

各ストレージの書込み性能については、クイックリファレンスにまとめて
おりますのでこちらもご参照ください。
http://www.j-focus.jp/quickreference/qref201601/#005

上記特性をご理解いただき、入出力領域を選択してください。

■/work利用の推奨と注意点
大規模I/Oが発生するジョブについては、可能な限り/workをご利用ください。
保存領域および通信領域は実行ジョブにて占有するため、他ユーザ、他ジョブの 影響を受けないとともに影響を与えることもありません。
利用の際は以下の点をご留意ください。
/workはジョブ終了時に中のデータが全て削除されますので、結合後のファイル等必要なデータがある場合はジョブスクリプト内で/home2等への転送が必要となります。
キューの最長実行時間に達してしまい、データの転送が完了する前にジョブが 終了してしまうと計算結果のデータが失われてしまいますので、余裕を持って 送時間を確保することを推奨します。

■/home2利用の推奨と注意点
/workの利用が困難な場合、つまり、
ジョブ実行中に複数ノードから共通のデータにアクセスする必要がある場合は、
I/O性能の高い/home2をご利用ください。
(料金:月あたり600円/10GB。利用の際はOKBizからご連絡ください。)


  • 利用講習会@東京
  • 利用講習会@名古屋
  • 利用講習会@つくば
  • 産業用スパコン利用相談センター
  • 「京」 利用研究課題の募集
  • 計算科学研究センター (R-CCS)