ゼファーネットのロゴ

LLM と GenAI の台頭によりデータ ストレージへの新しいアプローチが必要な理由 – DATAVERSITY

日付:

データを大量に消費する機械学習 (ML) および生成 AI (GenAI) 主導の運用およびセキュリティ ソリューションの新たな波により、企業がデータ ストレージに対する新しいアプローチを採用する緊急性が高まっています。これらのソリューションでは、モデルのトレーニングと可観測性のために膨大な量のデータにアクセスする必要があります。ただし、ML パイプラインが成功するには、長期の「ホット」データ ストレージ (クエリやトレーニングの実行のためにすべてのデータにすぐにアクセスできる) をコールド ストレージ価格で提供するデータ プラットフォームを使用する必要があります。

残念ながら、多くのデータ プラットフォームは大規模なデータ保持には高価すぎます。毎日テラバイト規模のデータを取り込む企業は、多くの場合、コストを削減するために、そのデータをすぐにコールド ストレージに移動するか、完全に破棄する必要があります。このアプローチは決して理想的なものではありませんでしたが、AI の時代ではそのデータが貴重なトレーニングの実行に使用される可能性があるため、この状況はさらに問題となっています。

この記事では、企業が使用するデータ ストレージ インフラストラクチャの戦略的見直しの緊急性を強調しています。 大規模な言語モデル (LLM) および ML。ストレージ ソリューションは、スケーラビリティやパフォーマンスを犠牲にすることなく、既存のものより少なくとも 1 桁安価でなければなりません。また、ますます人気が高まっているイベント駆動型のクラウドベースのアーキテクチャを使用するように構築する必要もあります。 

ML と GenAI のデータ需要

原理は簡単です。利用可能なデータの質が高ければ高いほど、ML モデルと関連製品の効果も高まります。トレーニング データセットが大規模になると、一般化の精度、つまり新しい未知のデータに対して正確な予測を行うモデルの能力が向上する傾向があります。より多くのデータにより、トレーニング、検証、テスト セット用のセットを作成できます。特に一般化は、サイバー脅威が急速に変化するセキュリティの状況では不可欠であり、効果的な防御はこれらの変化を認識することにかかっています。同じパターンは、デジタル広告や石油・ガス探査などの多様な業界にも当てはまります。

ただし、大規模なデータ量を処理できることだけがストレージ ソリューションの要件ではありません。モデルの構築とトレーニングの実験的かつ反復的な性質をサポートするには、データに簡単かつ繰り返しアクセスできる必要があります。これにより、新しいデータやフィードバックから学習しながらモデルを継続的に改良および更新できるようになり、パフォーマンスと信頼性が徐々に向上します。言い換えれば、ML と GenAI のユースケースには長期的な「ホット」データが必要です。

ML と GenAI にホット データが必要な理由 

セキュリティ情報およびイベント管理 (SIEM) および可観測性ソリューションは通常、データをホット層とコールド層にセグメント化して、顧客にとって法外な出費となる費用を削減します。コールド ストレージはホット ストレージよりもコスト効率がはるかに優れていますが、クエリにはすぐに利用できません。ホット ストレージは、顧客データベース、リアルタイム分析、CDN パフォーマンス ログなど、高速なクエリ応答時間で頻繁にアクセスする必要がある日常業務に不可欠なデータに不可欠です。逆に、コールド ストレージは、パフォーマンスを犠牲にしてコスト効率の高いアーカイブとして機能します。コールド データへのアクセスとクエリが遅い。ホット層に戻すには数時間から数日かかることが多く、ML 対応アプリケーションの構築に伴う実験的および反復的なプロセスには適していません。

データ サイエンス チームは、探索的分析、特徴エンジニアリングとトレーニング、デプロイされたモデルの保守などのフェーズを通じて作業します。各フェーズには継続的な改良と実験が含まれます。コールド ストレージからのデータの取得など、遅延や運用上の摩擦が発生すると、高品質の AI 対応製品の開発にかかる時間とコストが増加します。

高いストレージコストによるトレードオフ

Splunk のようなプラットフォームは価値がありますが、高価であると認識されています。 AWS Marketplace の価格に基づくと、2.19 ギガバイトのホット データを 3 か月間保持するには約 0.023 ドルの費用がかかります。これを AWS S30 オブジェクト ストレージと比較してください。コストは 90 GB あたり 24 ドルから始まります。これらのプラットフォームはインデックス作成やその他のプロセスを通じてデータに価値を付加しますが、これらのプラットフォームのストレージが高価であるという根本的な問題が残ります。コストを管理するために、多くのプラットフォームは積極的なデータ保持ポリシーを採用しており、データをホット ストレージに XNUMX ~ XNUMX 日間 (多くの場合、最短で XNUMX 日間) 保持してから、削除またはコールド ストレージに転送します (取得には最大 XNUMX 時間かかる場合があります)。

データがコールド ストレージに移動されると、通常はダーク データ、つまり保存されたまま忘れ去られるデータになります。しかし、さらに悪いことはデータの完全な破壊です。ベスト プラクティスとして推奨されることが多く、これにはサンプリング、要約、特徴 (またはフィールド) の破棄が含まれますが、これらはすべてトレーニング ML モデルと比較してデータの価値を低下させます。

新しいデータ ストレージ モデルの必要性

現在の可観測性、SIEM、およびデータ ストレージ サービスは現代のビジネス運営にとって不可欠であり、企業予算のかなりの部分を正当化します。膨大な量のデータがこれらのプラットフォームを通過し、後に失われますが、LLM および GenAI プロジェクトのために保持する必要があるユースケースが数多くあります。ただし、ホット データ ストレージのコストが大幅に削減されない場合、LLM および GenAI 対応製品の将来の開発が妨げられることになります。ストレージを分離および分離する新しいアーキテクチャにより、コンピューティングとストレージの独立したスケーリングが可能になり、重要な高いクエリ パフォーマンスが提供されます。これらのアーキテクチャは、オブジェクト ストレージに近い価格でソリッド ステート ドライブと同様のパフォーマンスを提供します。 

結論として、この移行における主な課題は技術的なものではなく、経済的なものです。可観測性、SIEM、およびデータ ストレージ ソリューションの既存ベンダーは、AI 製品ロードマップに対する財務上の障壁を認識し、次世代のデータ ストレージ テクノロジを自社のインフラストラクチャに統合する必要があります。ビッグデータの経済学を変革することは、AI 主導のセキュリティと可観測性の可能性を実現するのに役立ちます。

スポット画像

最新のインテリジェンス

スポット画像