メニュー

【復旧済】管理系スイッチ不具合による一部システム提供停止

(2025.10.28) 

 

管理系スイッチの障害より、一部のシステムでジョブ管理の異常による提供停止が発生しましたことをお知らせいたします。
  

提供停止システムおよび期間

F(GPU搭載/非搭載)システム 2025年10月24日(金) 21:33ごろ 〜 10月27日(月) 18:44
HPCIプリポストシステム    2025年10月24日(金) 21:33ごろ 〜 10月27日(月) 19:01
Nシステム         2025年10月25日(土) 11:25ごろ 〜 10月27日(月) 14:25
 

障害事象

上記システムにおいて以下の事象を確認

[Fシステム]
・実行を終了したジョブが完了中(CG:Completing)のまま完了状態へ遷移しない
・待機中のジョブが実行状態へ遷移しない
・実行中、完了中のジョブをキャンセル(cancel)できない

[HPCIプリポストシステム]
・ログイン不可

[Nシステム]
・管理系スイッチ障害影響を受けて、ジョブ管理システムによりノードがダウンしていると誤検知 

原因

管理ネットワーク経路上のスイッチがダウン
 

対応

代替スイッチに変更し、管理系ネットワークが回復したことを確認
 

実行ジョブ確認のお願い

該当システム(FシステムおよびNシステム)にて上記期間中に実行中、終了したジョブがある場合は、ジョブの出力等をご確認ください。
実行、終了に問題があった場合は、下記の内容をヘルプデスクもしくはメールにて11/5(水)までにお知らせください。確認のうえ課金除外といたします。
 ・ジョブID
 ・(可能であれば)エラーメッセージや状況等
 

上記期間に終了したジョブについて

ステータスが「CG:Completing」状態の時間は課金されません。
本不具合により完了時間の調整がある場合は別途個別に連絡いたします。
 

不具合発生時に待機中および期間に投入されたジョブについて

これらのジョブは期間中待機状態(PD:Pending)となっておりましたが、復旧後、ジョブ管理を再開し、順次実行状態に遷移しております。
  

このたびはご不便おかけし、申し訳ございませんでした。
  

本件に関するお問い合わせ先

FOCUSヘルプデスク


  • スパコン利用講習会
  • 産業用スパコン利用相談センター
  • FOCUS賛助会員募集中
  • メールマガジン申込み
  • IaaS・PaaS事業者認定サービス
  • HPCI High Performance Computing Infrastructure
  • 「富岳」利用研究課題の募集
  • 「富岳」ファーストタッチオプション
  • HPCI 伴走型利用支援
  • 理化学研究所 計算科学研究センター (R-CCS)