Zephyrnet-Logo

Warum der Aufstieg von LLMs und GenAI einen neuen Ansatz zur Datenspeicherung erfordert – DATAVERSITY

Datum:

Die neue Welle datenintensiver Betriebs- und Sicherheitslösungen, die auf maschinellem Lernen (ML) und generativer KI (GenAI) basieren, hat für Unternehmen die Dringlichkeit erhöht, neue Ansätze für die Datenspeicherung einzuführen. Diese Lösungen benötigen Zugriff auf große Datenmengen für das Modelltraining und die Beobachtbarkeit. Um jedoch erfolgreich zu sein, müssen ML-Pipelines Datenplattformen nutzen, die eine langfristige „heiße“ Datenspeicherung – bei der alle Daten für Abfragen und Trainingsläufe leicht zugänglich sind – zu kalten Speicherpreisen bieten.

Leider sind viele Datenplattformen für eine groß angelegte Datenspeicherung zu teuer. Unternehmen, die täglich Terabytes an Daten aufnehmen, sind oft gezwungen, diese Daten schnell in den Cold Storage zu verschieben – oder sie ganz zu verwerfen – um Kosten zu senken. Dieser Ansatz war nie ideal, aber im Zeitalter der KI ist die Situation umso problematischer, da diese Daten für wertvolle Trainingsläufe verwendet werden können.

Dieser Artikel unterstreicht die Dringlichkeit einer strategischen Überarbeitung der Datenspeicherinfrastruktur für die Nutzung durch große Sprachmodelle (LLMs) und ML. Speicherlösungen müssen mindestens eine Größenordnung günstiger sein als etablierte Anbieter, ohne Einbußen bei Skalierbarkeit oder Leistung. Sie müssen auch für die Verwendung zunehmend beliebter ereignisgesteuerter, cloudbasierter Architekturen ausgelegt sein. 

ML und GenAIs Datenbedarf

Das Prinzip ist einfach: Je mehr Qualitätsdaten verfügbar sind, desto effektiver werden ML-Modelle und zugehörige Produkte. Größere Trainingsdatensätze korrelieren tendenziell mit einer verbesserten Generalisierungsgenauigkeit – der Fähigkeit eines Modells, genaue Vorhersagen für neue, unsichtbare Daten zu treffen. Durch mehr Daten können Sätze für Trainings-, Validierungs- und Testsätze erstellt werden. Insbesondere die Generalisierung ist in Sicherheitskontexten von entscheidender Bedeutung, in denen Cyber-Bedrohungen schnell mutieren und eine wirksame Verteidigung davon abhängt, diese Veränderungen zu erkennen. Das gleiche Muster gilt auch für so unterschiedliche Branchen wie digitale Werbung und Öl- und Gasexploration.

Allerdings ist die Fähigkeit, große Datenmengen zu bewältigen, nicht die einzige Voraussetzung für Speicherlösungen. Die Daten müssen leicht und wiederholt zugänglich sein, um den experimentellen und iterativen Charakter der Modellbildung und des Modelltrainings zu unterstützen. Dadurch wird sichergestellt, dass die Modelle kontinuierlich verfeinert und aktualisiert werden können, während sie aus neuen Daten und Rückmeldungen lernen, was zu einer zunehmend besseren Leistung und Zuverlässigkeit führt. Mit anderen Worten: ML- und GenAI-Anwendungsfälle erfordern langfristige „heiße“ Daten.

Warum ML und GenAI Hot Data erfordern 

Security Information and Event Management (SIEM) und Observability-Lösungen segmentieren Daten in der Regel in Hot- und Cold-Tiers, um die ansonsten unerschwinglichen Kosten für Kunden zu reduzieren. Obwohl Cold Storage deutlich kostengünstiger ist als Hot Storage, steht es für Abfragen nicht ohne weiteres zur Verfügung. Hot Storage ist für Daten unerlässlich, die für den täglichen Betrieb von wesentlicher Bedeutung sind und einen häufigen Zugriff mit schnellen Antwortzeiten auf Abfragen erfordern, wie z. B. Kundendatenbanken, Echtzeitanalysen und CDN-Leistungsprotokolle. Umgekehrt fungiert Cold Storage als kostengünstiges Archiv auf Kosten der Leistung. Der Zugriff auf und die Abfrage kalter Daten ist langsam. Die Rückübertragung auf die heiße Ebene dauert oft Stunden oder Tage, sodass sie für die experimentellen und iterativen Prozesse beim Erstellen ML-fähiger Anwendungen ungeeignet ist.

Data-Science-Teams durchlaufen Phasen, darunter explorative Analysen, Feature-Engineering und Schulung sowie die Wartung bereitgestellter Modelle. Jede Phase erfordert ständige Verfeinerung und Experimente. Jede Verzögerung oder betriebliche Reibung, wie z. B. das Abrufen von Daten aus einem Kühlspeicher, erhöht den Zeit- und Kostenaufwand für die Entwicklung hochwertiger KI-fähiger Produkte.

Die Kompromisse aufgrund hoher Lagerkosten

Plattformen wie Splunk sind zwar wertvoll, werden aber als kostspielig empfunden. Basierend auf den Preisen auf dem AWS Marketplace kann die Speicherung eines Gigabytes an Hot Data für einen Monat etwa 2.19 US-Dollar kosten. Vergleichen Sie das mit AWS S3-Objektspeicher, wo die Kosten bei 0.023 $ pro GB beginnen. Obwohl diese Plattformen den Daten durch Indizierung und andere Prozesse einen Mehrwert verleihen, bleibt das grundlegende Problem bestehen: Die Speicherung auf diesen Plattformen ist teuer. Um die Kosten zu senken, wenden viele Plattformen strenge Richtlinien zur Datenaufbewahrung an und bewahren die Daten 30 bis 90 Tage lang – oft sogar nur sieben Tage – im Hot Storage auf, bevor sie gelöscht oder in den Cold Storage übertragen werden, wo der Abruf bis zu 24 Stunden dauern kann.

Wenn Daten in einen Cold Storage verschoben werden, werden sie typischerweise zu Dark Data – Daten, die gespeichert und dann vergessen werden. Aber noch schlimmer ist die völlige Zerstörung von Daten. Diese werden oft als Best Practices angepriesen und umfassen die Stichprobenentnahme, Zusammenfassung und das Verwerfen von Merkmalen (oder Feldern), die alle den Wert der Daten gegenüber dem Training von ML-Modellen verringern.

Die Notwendigkeit eines neuen Datenspeichermodells

Aktuelle Observability-, SIEM- und Datenspeicherdienste sind für moderne Geschäftsabläufe von entscheidender Bedeutung und rechtfertigen einen erheblichen Teil der Unternehmensbudgets. Eine enorme Datenmenge durchläuft diese Plattformen und geht später verloren. Es gibt jedoch viele Anwendungsfälle, in denen sie für LLM- und GenAI-Projekte aufbewahrt werden sollten. Wenn die Kosten für die Speicherung heißer Daten jedoch nicht deutlich gesenkt werden, werden sie die zukünftige Entwicklung von LLM- und GenAI-fähigen Produkten behindern. Neue Architekturen, die Speicher trennen und entkoppeln, ermöglichen eine unabhängige Skalierung von Rechenleistung und Speicher und bieten eine hohe Abfrageleistung, was von entscheidender Bedeutung ist. Diese Architekturen bieten eine Leistung, die mit Solid-State-Laufwerken vergleichbar ist, zu Preisen, die denen von Objektspeichern nahekommen. 

Zusammenfassend lässt sich sagen, dass die größte Herausforderung bei diesem Übergang nicht technischer, sondern wirtschaftlicher Natur ist. Etablierte Anbieter von Observability-, SIEM- und Datenspeicherlösungen müssen die finanziellen Hürden für ihre KI-Produkt-Roadmaps erkennen und Datenspeichertechnologien der nächsten Generation in ihre Infrastruktur integrieren. Die Transformation der Ökonomie von Big Data wird dazu beitragen, das Potenzial der KI-gesteuerten Sicherheit und Beobachtbarkeit auszuschöpfen.

spot_img

Neueste Intelligenz

spot_img