LLM と GenAI の台頭によりデータストレージへの新しいアプローチが必要な理由 - DATAVERSITY

データを大量に消費する機械学習 (ML) および生成 AI (GenAI) 主導の運用およびセキュリティソリューションの新たな波により、企業がデータストレージに対する新しいアプローチを採用する緊急性が高まっています。これらのソリューションでは、モデルのトレーニングと可観測性のために膨大な量のデータにアクセスする必要があります。ただし、ML パイプラインが成功するには、長期の「ホット」データストレージ (クエリやトレーニングの実行のためにすべてのデータにすぐにアクセスできる) をコールドストレージ価格で提供するデータプラットフォームを使用する必要があります。

残念ながら、多くのデータプラットフォームは大規模なデータ保持には高価すぎます。毎日テラバイト規模のデータを取り込む企業は、多くの場合、コストを削減するために、そのデータをすぐにコールドストレージに移動するか、完全に破棄する必要があります。このアプローチは決して理想的なものではありませんでしたが、AI の時代ではそのデータが貴重なトレーニングの実行に使用される可能性があるため、この状況はさらに問題となっています。

この記事では、企業が使用するデータストレージインフラストラクチャの戦略的見直しの緊急性を強調しています。大規模な言語モデル (LLM) および ML。ストレージソリューションは、スケーラビリティやパフォーマンスを犠牲にすることなく、既存のものより少なくとも 1 桁安価でなければなりません。また、ますます人気が高まっているイベント駆動型のクラウドベースのアーキテクチャを使用するように構築する必要もあります。

ML と GenAI のデータ需要

原理は簡単です。利用可能なデータの質が高ければ高いほど、ML モデルと関連製品の効果も高まります。トレーニングデータセットが大規模になると、一般化の精度、つまり新しい未知のデータに対して正確な予測を行うモデルの能力が向上する傾向があります。より多くのデータにより、トレーニング、検証、テストセット用のセットを作成できます。特に一般化は、サイバー脅威が急速に変化するセキュリティの状況では不可欠であり、効果的な防御はこれらの変化を認識することにかかっています。同じパターンは、デジタル広告や石油・ガス探査などの多様な業界にも当てはまります。

ただし、大規模なデータ量を処理できることだけがストレージソリューションの要件ではありません。モデルの構築とトレーニングの実験的かつ反復的な性質をサポートするには、データに簡単かつ繰り返しアクセスできる必要があります。これにより、新しいデータやフィードバックから学習しながらモデルを継続的に改良および更新できるようになり、パフォーマンスと信頼性が徐々に向上します。言い換えれば、ML と GenAI のユースケースには長期的な「ホット」データが必要です。

ML と GenAI にホットデータが必要な理由

セキュリティ情報およびイベント管理 (SIEM) および可観測性ソリューションは通常、データをホット層とコールド層にセグメント化して、顧客にとって法外な出費となる費用を削減します。コールドストレージはホットストレージよりもコスト効率がはるかに優れていますが、クエリにはすぐに利用できません。ホットストレージは、顧客データベース、リアルタイム分析、CDN パフォーマンスログなど、高速なクエリ応答時間で頻繁にアクセスする必要がある日常業務に不可欠なデータに不可欠です。逆に、コールドストレージは、パフォーマンスを犠牲にしてコスト効率の高いアーカイブとして機能します。コールドデータへのアクセスとクエリが遅い。ホット層に戻すには数時間から数日かかることが多く、ML 対応アプリケーションの構築に伴う実験的および反復的なプロセスには適していません。

データサイエンスチームは、探索的分析、特徴エンジニアリングとトレーニング、デプロイされたモデルの保守などのフェーズを通じて作業します。各フェーズには継続的な改良と実験が含まれます。コールドストレージからのデータの取得など、遅延や運用上の摩擦が発生すると、高品質の AI 対応製品の開発にかかる時間とコストが増加します。

高いストレージコストによるトレードオフ

Splunk のようなプラットフォームは価値がありますが、高価であると認識されています。 AWS Marketplace の価格に基づくと、2.19 ギガバイトのホットデータを 3 か月間保持するには約 0.023 ドルの費用がかかります。これを AWS S30 オブジェクトストレージと比較してください。コストは 90 GB あたり 24 ドルから始まります。これらのプラットフォームはインデックス作成やその他のプロセスを通じてデータに価値を付加しますが、これらのプラットフォームのストレージが高価であるという根本的な問題が残ります。コストを管理するために、多くのプラットフォームは積極的なデータ保持ポリシーを採用しており、データをホットストレージに XNUMX ～ XNUMX 日間 (多くの場合、最短で XNUMX 日間) 保持してから、削除またはコールドストレージに転送します (取得には最大 XNUMX 時間かかる場合があります)。

データがコールドストレージに移動されると、通常はダークデータ、つまり保存されたまま忘れ去られるデータになります。しかし、さらに悪いことはデータの完全な破壊です。ベストプラクティスとして推奨されることが多く、これにはサンプリング、要約、特徴 (またはフィールド) の破棄が含まれますが、これらはすべてトレーニング ML モデルと比較してデータの価値を低下させます。

新しいデータストレージモデルの必要性

現在の可観測性、SIEM、およびデータストレージサービスは現代のビジネス運営にとって不可欠であり、企業予算のかなりの部分を正当化します。膨大な量のデータがこれらのプラットフォームを通過し、後に失われますが、LLM および GenAI プロジェクトのために保持する必要があるユースケースが数多くあります。ただし、ホットデータストレージのコストが大幅に削減されない場合、LLM および GenAI 対応製品の将来の開発が妨げられることになります。ストレージを分離および分離する新しいアーキテクチャにより、コンピューティングとストレージの独立したスケーリングが可能になり、重要な高いクエリパフォーマンスが提供されます。これらのアーキテクチャは、オブジェクトストレージに近い価格でソリッドステートドライブと同様のパフォーマンスを提供します。

結論として、この移行における主な課題は技術的なものではなく、経済的なものです。可観測性、SIEM、およびデータストレージソリューションの既存ベンダーは、AI 製品ロードマップに対する財務上の障壁を認識し、次世代のデータストレージテクノロジを自社のインフラストラクチャに統合する必要があります。ビッグデータの経済学を変革することは、AI 主導のセキュリティと可観測性の可能性を実現するのに役立ちます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://www.dataversity.net/why-the-rise-of-llms-and-genai-requires-a-new-approach-to-data-storage/

生成的データインテリジェンス

LLM と GenAI の台頭によりデータストレージへの新しいアプローチが必要な理由 – DATAVERSITY

ML と GenAI のデータ需要

ML と GenAI にホットデータが必要な理由

高いストレージコストによるトレードオフ

新しいデータストレージモデルの必要性

リップルは最新の提携によるXRPLでさらに日本に進出

リップルは最新の提携によるXRPLでさらに日本に進出

最新のインテリジェンス

ロジャー・バー氏、司法省が米国で脱税容疑で告訴後、スペインで逮捕

ロジャー・バー氏、司法省が米国で脱税容疑で告訴後、スペインで逮捕

初期の仮想通貨パイオニアがスペインで逮捕

ビットコインテストネットへの痛ましい攻撃により、1週間で3年分のブロックが生成される

ビットコインテストネットへの痛ましい攻撃により、1週間で3年分のブロックが生成される

Newconomics ポッドキャストが開始され、ブロックチェーンと Web3 の将来に関する洞察に富んだディスカッションが行われます

LLM と GenAI の台頭によりデータ ストレージへの新しいアプローチが必要な理由 – DATAVERSITY

ML と GenAI のデータ需要

ML と GenAI にホット データが必要な理由

高いストレージコストによるトレードオフ

新しいデータ ストレージ モデルの必要性

最新のインテリジェンス

LLM と GenAI の台頭によりデータストレージへの新しいアプローチが必要な理由 – DATAVERSITY

ML と GenAI にホットデータが必要な理由

新しいデータストレージモデルの必要性