Zephyrnet-logo

Waarom de opkomst van LLM's en GenAI een nieuwe benadering van gegevensopslag vereist: DATAVERSITY

Datum:

De nieuwe golf van data-hongerige machine learning (ML) en generatieve AI (GenAI)-gestuurde operaties en beveiligingsoplossingen heeft de urgentie voor bedrijven vergroot om nieuwe benaderingen van dataopslag te adopteren. Deze oplossingen hebben toegang nodig tot enorme hoeveelheden gegevens voor modeltraining en observatie. Om succesvol te zijn, moeten ML-pijplijnen echter gebruik maken van dataplatforms die ‘hot’ dataopslag op lange termijn bieden – waarbij alle data direct toegankelijk zijn voor bevraging en trainingsruns – tegen prijzen voor koude opslag.

Helaas zijn veel dataplatforms te duur voor grootschalige dataretentie. Bedrijven die dagelijks terabytes aan gegevens verwerken, zijn vaak gedwongen om die gegevens snel naar de koude opslag te verplaatsen – of helemaal weg te gooien – om de kosten te verlagen. Deze aanpak is nooit ideaal geweest, maar het is een situatie die in het tijdperk van AI des te problematischer wordt omdat die gegevens kunnen worden gebruikt voor waardevolle trainingsruns.

Dit artikel benadrukt de urgentie van een strategische herziening van de dataopslaginfrastructuur voor gebruik door grote taalmodellen (LLM's) en ML. Opslagoplossingen moeten op zijn minst een orde van grootte goedkoper zijn dan de gevestigde exploitanten, zonder dat dit ten koste gaat van de schaalbaarheid of de prestaties. Ze moeten ook worden gebouwd om gebruik te maken van de steeds populairder wordende, gebeurtenisgestuurde, cloudgebaseerde architecturen. 

ML en GenAI's vraag naar gegevens

Het principe is eenvoudig: hoe meer kwaliteitsgegevens beschikbaar zijn, hoe effectiever ML-modellen en bijbehorende producten worden. Grotere trainingsdatasets correleren vaak met een verbeterde generalisatienauwkeurigheid: het vermogen van een model om nauwkeurige voorspellingen te doen op basis van nieuwe, onzichtbare gegevens. Met meer gegevens kunnen sets worden gemaakt voor training, validatie en testsets. Met name generalisatie is van cruciaal belang in veiligheidscontexten waar cyberdreigingen snel muteren, en een effectieve verdediging afhangt van het onderkennen van deze veranderingen. Hetzelfde patroon geldt ook voor sectoren die zo divers zijn als digitale reclame en olie- en gasexploratie.

De mogelijkheid om datavolumes op schaal te verwerken is echter niet de enige vereiste voor opslagoplossingen. De gegevens moeten gemakkelijk en herhaaldelijk toegankelijk zijn om het experimentele en iteratieve karakter van modelbouw en training te ondersteunen. Dit zorgt ervoor dat de modellen voortdurend kunnen worden verfijnd en bijgewerkt terwijl ze leren van nieuwe gegevens en feedback, wat leidt tot steeds betere prestaties en betrouwbaarheid. Met andere woorden: ML- en GenAI-gebruiksscenario's vereisen 'hot'-gegevens op de lange termijn.

Waarom ML en GenAI hot data vereisen 

Beveiligingsinformatie- en gebeurtenisbeheer (SIEM) en observatieoplossingen segmenteren gegevens doorgaans in warme en koude lagen om de kosten voor klanten die anders onbetaalbaar zouden zijn, te verminderen. Hoewel koude opslag veel kosteneffectiever is dan warme opslag, is deze niet direct beschikbaar voor bevraging. Hot storage is essentieel voor gegevens die een integraal onderdeel vormen van de dagelijkse bedrijfsvoering en waarvoor frequente toegang nodig is met snelle responstijden voor vragen, zoals klantendatabases, realtime analyses en CDN-prestatielogboeken. Omgekeerd fungeert koude opslag als een kosteneffectief archief dat ten koste gaat van de prestaties. Toegang tot en opvragen van koude gegevens is traag. Het terugbrengen naar de hot-tier duurt vaak uren of dagen, waardoor het ongeschikt is voor de experimentele en iteratieve processen die betrokken zijn bij het bouwen van ML-compatibele applicaties.

Datawetenschapsteams doorlopen fases, waaronder verkennende analyses, feature-engineering en training, en het onderhouden van geïmplementeerde modellen. Elke fase impliceert voortdurende verfijning en experimenten. Elke vertraging of operationele wrijving, zoals het ophalen van gegevens uit koude opslag, verhoogt de tijd en kosten van het ontwikkelen van hoogwaardige AI-producten.

De afwegingen vanwege hoge opslagkosten

Platforms als Splunk zijn weliswaar waardevol, maar worden als kostbaar ervaren. Op basis van hun prijzen op de AWS Marketplace kan het vasthouden van één gigabyte aan hot data voor een maand ongeveer $ 2.19 kosten. Vergelijk dat eens met AWS S3-objectopslag, waar de kosten beginnen bij $ 0.023 per GB. Hoewel deze platforms via indexering en andere processen waarde aan de gegevens toevoegen, blijft het fundamentele probleem bestaan: opslag op deze platforms is duur. Om de kosten te beheersen hanteren veel platforms een agressief beleid voor het bewaren van gegevens, waarbij gegevens 30 tot 90 dagen (en vaak slechts zeven dagen) in de hot storage worden bewaard voordat ze worden verwijderd of naar een koude opslag worden overgebracht, waar het ophalen tot 24 uur kan duren.

Wanneer gegevens naar de koude opslag worden verplaatst, worden het doorgaans donkere gegevens: gegevens die worden opgeslagen en vergeten. Maar nog erger is de regelrechte vernietiging van gegevens. Deze worden vaak gepromoot als best practices en omvatten steekproeven, samenvattingen en het weggooien van functies (of velden), die allemaal de waarde van de gegevens verminderen ten opzichte van trainings-ML-modellen.

De behoefte aan een nieuw gegevensopslagmodel

De huidige observatie-, SIEM- en dataopslagdiensten zijn van cruciaal belang voor de moderne bedrijfsvoering en rechtvaardigen een aanzienlijk deel van de bedrijfsbudgetten. Een enorme hoeveelheid gegevens passeert deze platforms en gaat later verloren, maar er zijn veel gebruiksscenario's waarin deze gegevens moeten worden bewaard voor LLM- en GenAI-projecten. Als de kosten van hot data-opslag echter niet significant worden verlaagd, zullen ze de toekomstige ontwikkeling van LLM- en GenAI-compatibele producten belemmeren. Opkomende architecturen die opslag scheiden en ontkoppelen, maken onafhankelijke schaling van computergebruik en opslag mogelijk en bieden hoge queryprestaties, wat cruciaal is. Deze architecturen bieden prestaties die vergelijkbaar zijn met solid-state drives, tegen prijzen die dicht bij die van objectopslag liggen. 

Concluderend kan worden gezegd dat de belangrijkste uitdaging bij deze transitie niet van technische aard is, maar van economische aard. Gevestigde leveranciers van observatie-, SIEM- en dataopslagoplossingen moeten de financiële barrières voor hun AI-productroadmaps onderkennen en de volgende generatie dataopslagtechnologieën in hun infrastructuur integreren. Het transformeren van de economie van big data zal helpen het potentieel van AI-gestuurde beveiliging en waarneembaarheid te verwezenlijken.

spot_img

Laatste intelligentie

spot_img