Logotip Zephyrnet

Zakaj vzpon LLM in GenAI zahteva nov pristop k shranjevanju podatkov – DATAVERSITY

Datum:

Nov val podatkovno željnega strojnega učenja (ML) in generativnih AI (GenAI) operacij in varnostnih rešitev je povečal nujnost podjetij, da sprejmejo nove pristope k shranjevanju podatkov. Te rešitve potrebujejo dostop do ogromnih količin podatkov za usposabljanje modela in opazovanje. Da pa bi bili uspešni, morajo cevovodi ML uporabljati podatkovne platforme, ki ponujajo dolgoročno »vroče« shranjevanje podatkov – kjer so vsi podatki takoj dostopni za poizvedovanje in izvajanje usposabljanja – po cenah hladnega shranjevanja.

Na žalost je veliko podatkovnih platform predragih za obsežno hrambo podatkov. Podjetja, ki vsak dan zaužijejo terabajte podatkov, so pogosto prisiljena te podatke hitro premakniti v hladilnico – ali jih v celoti zavreči –, da zmanjšajo stroške. Ta pristop nikoli ni bil idealen, vendar je to stanje v dobi umetne inteligence še toliko bolj problematično, ker se ti podatki lahko uporabijo za dragocene treninge.

Ta članek poudarja nujnost strateške prenove infrastrukture za shranjevanje podatkov za uporabo veliki jezikovni modeli (LLM) in ML. Rešitve za shranjevanje morajo biti vsaj za red velikosti cenejše od prvotnih, ne da bi pri tem žrtvovali razširljivost ali zmogljivost. Zgrajeni morajo biti tudi za uporabo vse bolj priljubljenih arhitektur, ki temeljijo na dogodkih in v oblaku. 

Zahteva ML in GenAI po podatkih

Načelo je preprosto: več kakovostnih podatkov kot je na voljo, učinkovitejši postanejo modeli ML in povezani izdelki. Večji nabori podatkov za usposabljanje so ponavadi povezani z izboljšano natančnostjo posploševanja – zmožnostjo modela, da daje natančne napovedi na podlagi novih, še nevidenih podatkov. Več podatkov lahko ustvari nize za usposabljanje, validacijo in testne nize. Posploševanje je zlasti bistvenega pomena v varnostnih kontekstih, kjer kibernetske grožnje hitro spreminjajo, učinkovita obramba pa je odvisna od prepoznavanja teh sprememb. Enak vzorec velja tudi za tako raznolike industrije, kot sta digitalno oglaševanje in iskanje nafte in plina.

Vendar zmožnost ravnanja s količino podatkov v velikem obsegu ni edina zahteva za rešitve za shranjevanje. Podatki morajo biti zlahka in vedno znova dostopni, da podpirajo eksperimentalno in ponavljajočo se naravo gradnje in usposabljanja modela. To zagotavlja, da je mogoče modele nenehno izpopolnjevati in posodabljati, ko se učijo iz novih podatkov in povratnih informacij, kar vodi k postopno boljši učinkovitosti in zanesljivosti. Z drugimi besedami, primeri uporabe ML in GenAI zahtevajo dolgoročne "vroče" podatke.

Zakaj ML in GenAI zahtevata Hot Data 

Varnostne informacije in upravljanje dogodkov (SIEM) ter rešitve za opazovanje običajno segmentirajo podatke v vroče in hladne ravni, da zmanjšajo stroške, ki bi sicer bili za stranke previsoki. Medtem ko je hladno shranjevanje veliko bolj stroškovno učinkovito kot vroče skladiščenje, ni na voljo za poizvedovanje. Vroče shranjevanje je bistvenega pomena za podatke, ki so sestavni del vsakodnevnih operacij, ki potrebujejo pogost dostop s hitrimi odzivnimi časi na poizvedbe, kot so podatkovne baze strank, analitika v realnem času in dnevniki delovanja CDN. Nasprotno pa hladilnica deluje kot stroškovno učinkovit arhiv na račun učinkovitosti. Dostopanje in poizvedovanje po hladnih podatkih je počasno. Prenos nazaj na vročo raven pogosto traja ure ali dneve, zaradi česar je neprimeren za eksperimentalne in ponavljajoče se postopke, vključene v gradnjo aplikacij, ki podpirajo ML.

Skupine za podatkovno znanost delajo skozi faze, vključno z raziskovalno analizo, inženiringom funkcij in usposabljanjem ter vzdrževanjem razporejenih modelov. Vsaka faza vključuje nenehno izpopolnjevanje in eksperimentiranje. Kakršna koli zamuda ali operativna trenja, kot je pridobivanje podatkov iz hladilnice, povečajo čas in stroške razvoja visokokakovostnih izdelkov, ki podpirajo AI.

Kompromisi zaradi visokih stroškov shranjevanja

Čeprav so platforme, kot je Splunk, dragocene, veljajo za drage. Glede na njihove cene na AWS Marketplace lahko hramba enega gigabajta vročih podatkov za en mesec stane približno 2.19 USD. Primerjajte to s shranjevanjem objektov AWS S3, kjer se stroški začnejo pri 0.023 USD na GB. Čeprav te platforme dodajajo vrednost podatkom z indeksiranjem in drugimi procesi, temeljna težava ostaja: shranjevanje na teh platformah je drago. Za obvladovanje stroškov številne platforme sprejmejo agresivne politike hrambe podatkov, tako da hranijo podatke v vročem pomnilniku od 30 do 90 dni – in pogosto le sedem dni – preden jih izbrišejo ali prenesejo v hladno shranjevanje, kjer lahko priklic traja do 24 ur.

Ko se podatki premaknejo v hladno shrambo, običajno postanejo temni podatki – podatki, ki so shranjeni in pozabljeni. Toda še hujše je popolno uničenje podatkov. Te se pogosto promovirajo kot najboljše prakse in vključujejo vzorčenje, povzemanje in zavrženje funkcij (ali polj), ki vse zmanjšajo vrednost podatkov v primerjavi z modeli ML za usposabljanje.

Potreba po novem modelu shranjevanja podatkov

Trenutna opazljivost, SIEM in storitve shranjevanja podatkov so ključnega pomena za sodobno poslovanje in upravičujejo pomemben del proračunov podjetij. Ogromna količina podatkov gre skozi te platforme in se pozneje izgubijo, vendar obstaja veliko primerov uporabe, kjer bi jih bilo treba obdržati za projekte LLM in GenAI. Če pa se stroški vročega shranjevanja podatkov ne bodo občutno zmanjšali, bodo ovirali prihodnji razvoj LLM in izdelkov, ki podpirajo GenAI. Nastajajoče arhitekture, ki ločujejo in ločujejo shranjevanje, omogočajo neodvisno skaliranje računalništva in shranjevanja ter zagotavljajo visoko zmogljivost poizvedb, kar je ključnega pomena. Te arhitekture ponujajo zmogljivost, podobno pogonom SSD po cenah, ki so blizu cenam za shranjevanje objektov. 

Skratka, glavni izziv pri tem prehodu ni tehnični, ampak ekonomski. Uveljavljeni prodajalci rešitev za opazovanje, SIEM in shranjevanje podatkov morajo prepoznati finančne ovire za svoje načrte izdelkov umetne inteligence in v svojo infrastrukturo vključiti tehnologije za shranjevanje podatkov naslednje generacije. Preoblikovanje ekonomije velikih podatkov bo pripomoglo k izpolnitvi potenciala varnosti in opazljivosti, ki ju vodi umetna inteligenca.

spot_img

Najnovejša inteligenca

spot_img