繁忙期におけるご利用について
FOCUSスパコン利用者各位 平素よりFOCUSスパコンシステムをご利用いただきありがとうございます。 FOCUSスパコン繁忙期に入り、従量利用にて実行可能な空きノード数が少ない状態が続いています。 3月末までは高利用率の状況が継続する見込みですので、以下の情報を参照の上、計画的にFOCUSスパコンをご利用ください。 1) 早期計算資源予約の推奨 2) 新システム(F,Hシステム)の利用推奨 3) 長時間キューの割当ノード数の縮小について 4) 演算ノードでのメモリ利用 5) その他
1) 早期計算資源予約の推奨
繁忙期に入り、従量利用にて実行可能な空きノード数が減少しています。
予約状況を確認の上、FOCUSスパコン利用ポータルサイト( https://portal.j-focus.jp/ )よりご予約をお願い致します。
※要SSL-VPN接続
各システムの予約状況はポータルサイト及びwebページ( http://www.j-focus.jp/reservation_cal/ )より確認できます。
なお、利用日直前に予約頂いた場合、ノードの利用状況により承ることが出来ない場合があります。
ご予約の際は利用開始予定日4日前の9時までに予約いただくことを推奨しています。
【参考】平成28年2月、3月の計算資源利用状況
■期間占有(予約)による利用率 ■従量利用による利用率
※ジョブスケジューラ(SLURM)のスケジューリングによる実行待ち状態は利用率に加算されていません。例えば、10ノードの空きがあり次に11ノードのジョブが投入されれば、11ノード以上の空きが発生するまで10ノードは実行待ち状態であり、利用率算出上は利用なし状態として算出しています。つまり、100%−「利用率(合計)」=「従量利用可能」とはなりません。
2) 新システム(F,Hシステム)の利用推奨
平成28年10月から共用を開始しました新システム(F,Hシステム)は、平成28年10月から平成29年1月の実績ベースでは
比較的空きに余裕があります。
理論ベースでのコストパフォーマンス(Aシステム:Hシステム比、Dシステム:Fシステム比)は約2倍程度となっておりますので、
F,Hシステムの利用もご検討ください。
|
CPUクロック |
コア数 |
1クロック |
理論演算性能 |
ノード時間 |
理論演算性能 |
Fシステム |
2.2GHz |
40コア |
16 |
1152GFLOPS |
500円 |
230.4GFLOPS |
Hシステム |
2.1GHz |
8コア |
16 |
204.8GFLOPS |
100円 |
204.8GFLOPS |
Dシステム |
2.5GHz |
20コア |
8 |
400GFLOPS |
300円 |
133.3GFLOPS |
Aシステム |
2.26GHz |
12コア |
4 |
108.48GFLOPS |
100円 |
108.48GFLOPS |
※A,D,F,HシステムでのOpenFOAMベンチマーク結果につきましては下記URLをご参照ください。
http://www.j-focus.jp/benchmark/openFOAM_benchmark.html
3) 長時間キューの割当ノード数の縮小について
繁忙期のため、Aシステム及びDシステムの長時間キューにおいて実行可能な最大ノード数を下記のとおり縮小しています。
a096h 0ノード (通常100ノード)
d072h 16ノード (通常 40ノード)
(注)平成29年1月11日現在、最大ノード数は計算資源の予約状況により変動します。
上記設定以上のノード数にて24時間以上実行を希望される場合は、期間占有(日単位/月単位)にてご予約ください。
また、縮小に伴い長時間キュー投入ジョブの待ち時間が長くなってきています。
16ノード以下であっても24時間以上のジョブ実行についても期間占有をご検討ください。
各キューにて利用可能なノード数は、squeues コマンドを実行し、MAXNODES欄をご確認ください。
squeues コマンドではキュー毎のジョブの実行状況を確認できます。
「FREE」(実行可能なノード数)
「PEND」(実行待ちのジョブが要求しているノード数) から混み具合を判断してください。
(squeuesコマンド実行例) $ squeues QUEUE_NAME TIMELIMIT STATUS MAXNODES NNODES DEPEND PEND RUN FREE a024h 1-00:00:00 up 14 102 0 88 14 0 a096h 4-00:00:00 up 0 0 0 0 0 0 b024h 1-00:00:00 up 2 0 0 0 0 2 b096h 4-00:00:00 up 1 0 0 0 0 1 c024h 1-00:00:00 up 16 0 0 0 0 13 c096h 4-00:00:00 up 4 3 0 0 3 1 c168h 7-00:00:00 up 16 2 0 0 2 14 c006m 6:00 up 2 0 0 0 0 2 d024h 1-00:00:00 up 63 14 0 0 14 49 d072h 3-00:00:00 up 15 14 0 14 0 9 e024h 1-00:00:00 up 40 12 0 0 12 19 e072h 3-00:00:00 up 12 9 0 0 9 3 e024h_phi 1-00:00:00 up 4 0 0 0 0 4 f024h 1-00:00:00 up 12 7 0 0 7 5 g024h 1-00:00:00 up 4 0 0 0 0 4 h024h 1-00:00:00 up 64 14 0 0 14 50 ※「MAXNODES」がゼロの場合は該当キューへの割当ノードがゼロのためジョブの投入もできません。 ※「FREE」がゼロで無くても先にFREEのノード数より多くのノード数を利用する他のジョブが次に 実行される優先度で待っている場合は、FREE以下のノード数のジョブを投入しても直ちに実行 されませんのでご注意ください。
4) 演算ノードでのメモリ利用
物理メモリと仮想メモリ(スワップ領域)を使い切り、Linuxカーネルの仕組みである OOM Killer(Out of Memory Killer)によりプロセスを強制終了されるジョブが散見されます。 強制終了された場合、以下のメッセージが出力されます。 APPLICATION TERMINATED WITH THE EXIT STRING: Terminated (signal 9 or 15) OSや並列ライブラリが利用する分がありますので、プログラムが使用するメモリ量は物理搭載メモリの80%以下に抑制するよう お願いいたします。 なお、メモリ枯渇によって強制終了されたジョブは課金対象です。下記の各システムのメモリ容量をご参照のうえ、メモリ容量 の大きなシステムを利用する、またはノードあたりの利用コア数を減らしてコアあたりメモリ容量を確保するなどの対策をとっ てください。
【参考】システム別メモリ容量
システム名 |
メモリ容量 |
コア数 |
コアあたり |
Aシステム |
48GB |
12コア |
4GB |
Bシステム |
512GB |
16コア |
32GB |
Cシステム |
48GB |
12コア |
4GB |
Dシステム |
64GB |
20コア |
3.2GB |
Eシステム |
128GB |
20コア |
6.4GB |
Fシステム |
128GB |
40コア |
3.2GB |
Gシステム |
64GB |
12コア |
5.3GB |
Hシステム |
64GB |
8コア |
8 GB |
※コアあたりメモリ容量はノード内の全コアを利用した場合の物理容量です。
5) その他