マシンとディープラーニングのアルゴリズムを採用するワークロードがより頻繁に構築および展開されている現在、組織は、AIモデルのトレーニングに使用される高価なGPUリソースをこれらのワークロードが費用効果的に共有できるように、I / Oスループットを最適化する必要があります。 好例:ピサ大学は、AI研究者がアクセスできるようにするGPUの数を着実に拡大しています。 緑のデータセンター ハイパフォーマンスコンピューティング(HPC)アプリケーション向けに最適化されています。
ピサ大学のCTOであるMaurizioDavini氏は、AIを導入する際に大学が直面した課題は、機械学習とディープラーニングのアルゴリズムが従来のHPCアプリケーションよりも多数の小さなファイルに対してより頻繁にI / Oリクエストを行う傾向があることです。 これに対応するために、大学はNVMeshソフトウェアを エクセレロ 140,000秒あたりXNUMXを超える小さなファイルにアクセスできます NVIDIA DGX A100 GPUサーバー。
Davini氏は、一般的にAIアプリケーションを単なる別のタイプのHPCワークロードと見なしていると述べましたが、AIワークロードがコンピューティングリソースとストレージリソースにアクセスする方法には、特殊なアプローチが必要です。 NVMeshソフトウェアは、ますます頻繁になるI / O要求をオフロードし、AIモデルをトレーニングするためにNvidiaサーバー上の追加のコンピューティングリソースを解放することで、このアプローチに対処しているとDavini氏は述べています。
「私たちはAI研究者により良い体験を提供したかったのです」とDaviniは言いました。
Exceleroは、ITチームがAIモデルで大量のデータを利用できるようにするときに遭遇するI / Oの課題に対処するために動いている企業のXNUMXつです。 組織が構築および維持するAIモデルの数が増え始めると、レガシーストレージシステムは追いつくことができなくなります。 ピサ大学は、AI研究者の全体的なITエクスペリエンスを満足のいくものに保つために、Exceleroを導入したとDavini氏は述べています。
もちろん、I / Oを管理するためのより効率的なアプローチは、独自のAIモデルを構築する組織が直面するデータ管理の問題を解決し始めるだけです。 ITチームは、データの作成に使用されるアプリケーションの拡張としてデータを管理する傾向があります。 このアプローチが、企業全体に非常に多くのデータサイロが散在している主な理由です。
さらに問題なのは、これらのサイロ内のデータの多くが競合するという事実です。これは、アプリケーションが異なれば、会社名の表示が異なるか、最新のトランザクションデータで更新されていない可能性があるためです。 特定の時点での顧客またはイベントに関する信頼できる唯一の情報源を持つことは、とらえどころのないままです。
ただし、AIモデルを適切にトレーニングするには、大量の正確なデータが必要です。 そうしないと、機械学習アルゴリズムが公開されたデータに一貫性がないか信頼性が低いため、AIモデルは不正確な仮定に基づく推奨事項を生成します。 IT組織は、最初に大規模な投資を行うことで、この問題に取り組んでいます。 データ湖 すべてのデータを正規化してから適用する データ運用 に概説されているように、最良のプロセス マニフェスト これは、可能な限り多くのデータ準備および管理タスクを自動化する方法を説明しています。
手動のコピーアンドペーストプロセスに基づいてデータを管理するためのレガシーアプローチは、AIモデルの構築に非常に長い時間がかかる主な理由のXNUMXつです。 データサイエンスチームは、XNUMX年にXNUMXつのAIモデルを展開できれば幸運です。 アマゾンウェブサービス(AWS)などのクラウドサービスプロバイダーは、次のような製品を提供しています アマゾンセージメーカー AIモデルの構築を自動化し、今後数か月でAIモデルが作成される速度を高めます。
ただし、すべての組織がクラウドでAIモデルを構築することを約束するわけではありません。 そのためには、外部プラットフォームにデータを保存する必要があります。これにより、回避する可能性のあるさまざまな潜在的なコンプライアンスの問題が発生します。 たとえば、ピサ大学は、外部クラウドへのアクセスを許可するよりも、ローカルデータセンターに予算を割り当てるように職員を説得する方が簡単だとDavini氏は述べています。
最終的には、アプリケーションの開発と展開を合理化するために広く採用されているDevOpsのベストプラクティスと本質的に類似した一連のDataOpsプロセスを採用することにより、ITで長い間悩まされてきたデータ管理の摩擦を排除することが目標です。 ただし、基盤となるストレージプラットフォームが遅すぎて追いつかない場合は、世界のすべてのベストプラクティスで大きな違いはありません。
VentureBeatの
VentureBeatの使命は、技術的な意思決定者が革新的なテクノロジーと取引についての知識を習得するためのデジタルタウンスクエアになることです。 私たちのサイトは、あなたが組織を率いるときにあなたを導くためのデータ技術と戦略に関する重要な情報を提供します。 以下にアクセスして、コミュニティのメンバーになることをお勧めします。
- あなたが興味を持っている主題に関する最新情報
- ニュースレター
- ゲート付きのソートリーダーコンテンツと、Transformなどの貴重なイベントへの割引アクセス
- ネットワーク機能など