バージニア州立工科大学:ハイコストパフォーマンスのスーパーコンピューティング
スケジューリング

Déjà vu:滞りのないパフォーマンス
バージニア工科大が構築した新しいスーパーコンピュータは、透過性と耐障害性を確保する際の問題を業界で初めて解決したモデルとなりました。これは、並列コンピューティングにおいて十年来の課題だったのです。例えば、たった1つのコンポーネントに障害が発生しただけでも、大規模システムで数日間や数週間、あるいは数カ月間続けて実行されるジョブが完了できなくなってしまいます。あるノードに不具合が生じると、2週間ずっと実行され続けていたプロジェクトでも、障害から回復するためには完全な再起動が必要となります。しかし、バラダラジャン博士と彼が開発した新しいDéjà vuソフトウェアのおかげで、バージニア工科大やその他のスーパーコンピュータセンターは、貴重な処理時間を無駄にすることが極めて少なくなりました。

Déjà vuは、ピッツバーグ・スーパーコンピューティングセンター(PSC)の協力を得て、全米科学財団(NSF)の資金援助を受けて開発されました。このソフトウェアにより、IT専門家たちは、ジョブ実行中のさまざまな“チェックポイント”を確認するためのパラメータやオプションを設定できるようになりました。システム上のあるノードに障害が発生した場合、ソフトウェアは別のノードを自動検出して、最後に確認した安全なチェックポイントの状態にジョブを戻すことができます。必要ならば、このソフトウェアは、現在実行中のあらゆるジョブを同様のアーキテクチャを持つ別のリソースに移植することも可能です。

バージニア州立工科大学
功労者
サイエンス
アーキテクチャ
現場の戦略 相互接続 冷却設備
スケジューリング 最適化 広がる展望


「これらすべての作業が1000分の1秒で終わります」と、ロックハートは明かす。「ということはジョブに障害が生じても、瞬時に再起動するのです。この機能は、大規模コンピューティングにとって大切なことです−このような強固な耐障害性を備えているということだけでなく、ジョブを実行中に、最初からやり直さずに先に進めることができるからです! Déjà vuソフトウェアのおかげで、開発者たちはコンパイル時にテクノロジーを直接アプリケーションに統合でき、処理時間を無駄にしなくてもよくなりました。」

Previous Page Next Page