ゼファーネットのロゴ

アクセラレーションされたシステムにスケールアウトファイルストレージを導入する場合は、データを最優先してください

日付:

スポンサー あらゆる種類のハイパフォーマンスコンピューティングワークロードでのコンピューティングと相互接続について考えるのに多くの時間を費やすのは簡単です。そして、そのワークロードをサポートするストレージについて考えるのと同じくらい多くの時間を費やさないのは難しいです。 これらのアプリケーションにフィードされるデータの種類と量について考えることは特に重要です。これは、他のどの要因よりも、組織のニーズを満たす上でそのワークロードの成功または失敗を決定するためです。

最近では、ITインフラストラクチャに関して「クラウドファースト」の考え方が流行していますが、組織が本当に必要としているのは「データファースト」の姿勢であり、クラウドは価格設定スキームを備えた単なる展開モデルであり、おそらく–多くの組織が慣れているよりも深いリソースのプール。 しかし、これらの深いプールにはコストがかかります。 データをクラウドに移動するか、そこで生成して保持するのはかなり安価です。 ただし、クラウドからデータを移動して他の場所で使用できるようにするには、非常にコストがかかる可能性があります。

大規模に実行される機械学習トレーニングやデータ分析などの新しいクラスのHPCアプリケーションは、大規模なデータセットをフィードまたは作成する傾向があるため、システムを設計する際には、このデータを最初に使用することが重要です。 やりたくないことのXNUMXつは、概念実証と本番の間のどこかで、ストレージが間違っていることを確認することです。さらに悪いことに、新しいワークロードが発生すると、ストレージがデータに追いついていないことを確認します。生産と大成功です。

「現在および将来の要件に関する十分に検討された戦略なしに、ストレージハードウェアを迅速な修正として追加すると、問題が発生することがよくあります」と、DellTechnologiesの非構造化データストレージ製品マーケティングのディレクターであるBrianHenderson氏は言います。 「組織はいくつかのサーバーを購入し、いくつかのストレージを接続し、プロジェクトを立ち上げ、それがどのように進行するかを確認します。 このタイプのアプローチは、スケールの問題、パフォーマンスの問題、データの共有の問題につながることがよくあります。 これらの組織が必要としているのは、柔軟なスケールアウトファイルストレージソリューションです。これにより、さまざまなデータをすべて格納し、それらすべてを接続して、利害関係者とアプリケーションがすべて迅速かつ簡単にデータにアクセスして共有できるようになります。」

したがって、コンピューティングコンポーネントとネットワークコンポーネントを発注書にまとめる前に、いくつかの重要なデータストレージ要件を検討することが重要です。

最初に考慮すべきことはスケールです。最初からスケールを想定してから、小さく始めても、データを格納し、異なるシステムやデータ型を提供するのに十分な大きさに成長できるシステムを見つける必要があります。

システムまたはクラスターに接続された内部ストレージまたはストレージの寄せ集めに依存することはおそらく可能ですが、HPCおよびAIのワークロードは、NVIDIAのGPUによって加速されることがよくあります。 ワークロードとデータセットが増大および増殖するにつれて、コンピューティング、ストレージ、およびネットワーキングを拡張する必要があると想定するのが最善です。 考慮すべきさまざまな成長ベクトルがあり、それらのいずれかを忘れると、将来的に容量とパフォーマンスの問題が発生する可能性があります。

そして、このストレージ規模の問題には、考慮すべきさらに微妙な要素があります。 データは、HPCシステムとAIシステムの両方についてアーカイブされます。 HPCアプリケーションは少量の初期条件を取り、現実世界について何かを明らかにする大規模なシミュレーションと視覚化を作成しますが、AIシステムは大量の情報(通常は構造化データと非構造化データの混合)を取り、それを次のようなモデルに抽出します。現実の世界を分析したり、それに反応したりするために使用されます。 これらの初期データセットとそのモデルは、ビジネス上の理由だけでなく、データガバナンスと規制コンプライアンスのために保存する必要があります。

あなたがしたい場合でも、このデータを捨てることはできません

「必要な場合でも、このデータを破棄することはできません」と、DellTechnologiesの非構造化データソリューションチームのAIおよび分析のグローバルビジネス開発マネージャーであるThomasHensonは述べています。 「自動車、ヘルスケア、運輸、金融サービスなどの業種に関係なく、アルゴリズムに欠陥があり、訴訟が問題になる可能性があります。 欠陥のある結果を生成したアルゴリズムに入力されたデータを表示するか、そうでないことを証明する必要があります。 ある程度、そのアルゴリズムの値は、それに供給されたデータです。 そして、それはほんの一例です。」

したがって、ハイブリッドCPU-GPUシステムの場合、マシン上のローカルストレージでは不十分であり、非構造化データを大量に保持できる外部ストレージが必要になると想定するのがおそらく最善です。 経済的な理由から、AIおよび一部のHPCプロジェクトはまだ概念実証段階にあるため、小規模から始めて、必要に応じて、容量とパフォーマンスを独立したベクトルで高速に拡張できると便利です。

Dell TechnologiesのOneFSファイルシステムを実行するPowerScaleオールフラッシュアレイは、このストレージプロファイルに適合します。 基本システムは、最大11 TBのrawストレージと250桁未満の手頃な価格の、96ノード構成で提供され、最大XNUMXPBを保持できる共有ストレージクラスター内の最大XNUMXノードのラボでテストされています。データの。 ちなみに、Dell Technologiesには、これよりもはるかに大規模なPowerScaleアレイを実行しているお客様がいますが、多くの場合、停止の潜在的な爆発領域を減らすために、別々のクラスタを生成します。 これは非常にまれです。

PowerScaleはオンプレミスに展開することも、マルチクラウドまたはネイティブクラウド統合オプションを使用して多数のパブリッククラウドに拡張することもでき、顧客は追加のコンピューティングまたはその他のネイティブクラウドサービスを利用できます。

パフォーマンスは、企業が考慮する必要のあるスケールのもうXNUMXつの部分であり、これは、システムがGPUによって高速化されている場合に特に重要です。 GPUコンピューティングの初期の頃から、NVIDIAは、CPUとそのメモリを邪魔にならないようにし、GPUがシミュレーションを実行したりモデルを構築したりするときにGPUがデータを共有することを妨げるボトルネックにならないように取り組んできました。これにより、GPUがストレージに非常に高速にアクセスするのを防ぎます(GPUDirectストレージ)。

このようなGPUアクセラレーションシステムに外部ストレージが必要な場合(XNUMXつまたはXNUMXつのGPUを備えたサーバーが、ほとんどのHPCおよびAIアプリケーションが処理するデータセットを保持するのに十分なストレージを持つ方法はありません)、そのストレージが何であれ、それが何であれ、話さなければならないことは明らかです。 GPUDirectストレージとそれを速く話します。

以前の記録保持者は、2.2PBストレージアレイをテストしたPavilionDataでした。 ファイルモードで100GB /秒の新しい「Ampere」A100GPUに基づくDGX-A191システムにデータを読み込むことができました。 ラボでは、Dell TechnologiesがPowerScaleアレイで実行されているGPUDirectStorageベンチマークテストの仕上げを行っており、パフォーマンスを大幅に向上させ、少なくとも252GB /秒にできると述べています。 また、PowerScaleは単一の名前空間で252ノードに拡張できるため、それだけでなく、必要に応じてそれをはるかに超えて拡張できます。

「重要なのは、これらのGPUコンピューティング環境向けに最適化する方法を知っているということです」とヘンダーソン氏は言います。 そして、AIワークロードを実行するGPUアクセラレーションシステムのパフォーマンスと、PowerScaleストレージのパフォーマンスに関するより一般的なステートメントを次に示します。

さまざまな種類のシステムのサポートの幅広さは、ハイブリッドCPU-GPUシステムを設計する際に考慮すべきもう250つのことです。 共有ストレージの本質は共有されることであり、共有ストレージ上のデータを他のアプリケーションに使用できることが重要です。 PowerScaleアレイは、15,000を超えるアプリケーションと統合されており、さまざまな種類のシステムでサポートされていることが認定されています。 これが、IsilonおよびPowerScaleストレージに世界中でXNUMXを超える顧客がいる理由のXNUMXつです。

ハイパフォーマンスコンピューティングは、特にリソースが制約され、システムとデータを制御することが絶対的に重要であるエンタープライズ環境では、パフォーマンス以上のものです。 したがって、GPUアクセラレーションシステムのストレージを設計する際に考慮しなければならない次のことは、ストレージ管理です。

工具で

この面で、DellTechnologiesは多くのツールをパーティーにもたらします。 最初は インサイトIQ、PowerScaleとその前身であるIsilonストレージアレイの非常に具体的で詳細なストレージ監視とレポートを実行します。

別のツールは呼ばれます クラウドIQは、機械学習と予測分析技術を使用して、PowerStore、PowerMax、PowerScale、PowerVault、Unity XT、XtremIO、SCシリーズ、PowerEdgeサーバー、コンバージドおよびハイパーコンバージドなど、デルテクノロジーズのインフラストラクチャ製品の全範囲を監視および管理します。 VxBlock、VxRail、PowerFlexなどのプラットフォーム。

そして最後に、 データIQ、非構造化データ用のストレージ監視およびデータセット管理ソフトウェア。PowerScale、PowerMax、およびPowerStoreアレイ全体の非構造化データセットと、大規模なパブリッククラウドからのクラウドストレージの統合ビューを提供します。 DataIQは、非構造化データセットを表示するだけでなく、それらがどのように使用されているかを追跡し、オンプレミスファイルシステムやクラウドベースのオブジェクトストレージなどの最も適切なストレージに移動します。

最後の考慮事項は、信頼性とデータ保護です。これらは、エンタープライズグレードのストレージプラットフォームと密接に関連しています。 PowerScaleアレイは、IsilonとそのOneFSファイルシステムにその伝統があり、長い間存在しており、企業、政府、および学術のHPC機関で99.9999年にわたって信頼されてきました。 OneFSとその基盤となるPowerScaleハードウェアは、最大99.9%の可用性を提供するように設計されていますが、非構造化データを処理するほとんどのクラウドストレージサービスは、31%の可用性に関するサービス契約を結んでいます。 前者は年間46秒のダウンタイムがあり、後者はXNUMX時間XNUMX分オフラインです。

さらに、PowerScaleは、コンポーネントの障害後にストレージクラスター内の一部のノードがメンテナンスまたは修復のためにダウンしている場合でも、優れたパフォーマンスを提供し、データアクセスを維持するように設計されています。 (結局のところ、すべてのIT機器でコンポーネントの障害は避けられません。)

しかし、最近ますます重要になっている別の種類の回復力があります。それは、ランサムウェア攻撃からの回復です。

「APIに統合されたランサムウェア保護があります パワースケール これにより、OneFSファイルシステムでの疑わしい動作が検出され、管理者に警告されます」とヘンダーソン氏は言います。 「そして、多くのお客様は、すべてのデータの個別のコピーを維持するために、物理的に個別のエアギャップクラスターセットアップを実装しています。 サイバー攻撃が発生した場合は、本番ストレージをシャットダウンするだけでデータを取得でき、バックアップやアーカイブから復元しようとはしません。特にクラウドアーカイブから復元する場合は、数日から数週間かかることがあります。 ペタバイトのデータについて話していると、数か月かかる場合があります。

「非常に高速なストレージレプリケーション速度で、迅速に復元できます。 また、パブリッククラウドを活用してサイバーイベントからデータを回復できるマルチクラウド環境でランサムウェアディフェンダーソリューションをホストするオプションがあります。」

デルが後援。

PlatoAi。 Web3の再考。 増幅されたデータインテリジェンス。
アクセスするには、ここをクリックしてください。

出典:https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

スポット画像

最新のインテリジェンス

スポット画像