Logo Zephyrnet

Gestionarea datelor lipsă în Analytics – DATAVERSITY

Data:

Astăzi, consiliile de conducere și directorii corporativi înțeleg importanța datelor și a analizei pentru îmbunătățirea performanței afacerii. Cu toate acestea, majoritatea datelor din întreprinderi sunt de calitate slabă, prin urmare, majoritatea datelor și a analizelor eșuează. Pentru a îmbunătăți calitatea datelor, mai mult de 80% din munca în proiectele de analiză a datelor se referă la ingineria datelor. Ingineria datelor este extragerea, curățarea, îmbogățirea, transformarea, validarea și ingerarea (și guvernarea) datelor de calitate în sistemul consolidat, cunoscut în mod obișnuit ca depozit de date (sau data mart sau data lake). Datele din depozitul de date sunt adesea sistemul de înregistrare din care oamenii de știință obțin informații. Activitățile tipice de inginerie a datelor includ curățarea duplicatelor și a valorilor inutile, ingerarea de noi înregistrări și atribute, transformarea valorilor datelor – inclusiv normalizarea și standardizarea – și, în final, gestionarea datelor lipsă.

Procesul de inginerie a datelor

Datele lipsă sunt definite ca valoarea care nu este capturată și stocată pentru o anumită variabilă de date, atribut sau câmp. Datele lipsă, pierdute sau incomplete prezintă diverse probleme afacerii, cum ar fi: 

  • Reducerea utilității și relevanței datelor pentru operațiuni, conformitate și analiză.
  • Reducerea puterii statistice a insight-urilor derivate. Puterea statistică sau sensibilitatea este probabilitatea ca un test de semnificație să detecteze un efect atunci când există unul.
  • Cauzând părtinire în perspectivele derivate. Prejudicierea datelor apare atunci când setul de date este inexact și nu reușește să reprezinte întreaga populație. Acest lucru, la rândul său, poate duce la răspunsuri incomplete și rezultate distorsionate. 

Categorii de date lipsă

Datele lipsă, cunoscute din punct de vedere tehnic ca NULL, indică lipsa unei valori. Datele lipsă se pot încadra în trei categorii principale:

  1. Lipsesc complet la întâmplare (MCAR): aici, datele lipsesc din toate observațiile. De exemplu, adresa de e-mail a clientului lipsește din toate evidențele clienților.
  2. Lipsă nu la întâmplare (MNAR): datele lipsă au o structură sau un model definit. De exemplu, valorile veniturilor lipsesc pentru categoria de studenți a înregistrărilor clienților.
  3. Lipsă la întâmplare (MAR): Aici, datele lipsesc în raport cu datele observate. Datele lipsesc aleatoriu și nu există niciun model pentru datele lipsă. De exemplu, data nașterii clientului lipsește în 12% din evidențele clienților.

Soluții pentru datele lipsă din Analytics

Deci, care sunt soluțiile pentru abordarea categoriilor de date care lipsesc MCAR, MNAR și MAR? Practic, soluția pentru datele lipsă se poate încadra în trei categorii principale:

  1. Pentru a rezolva problemele legate de MCAR, soluția este digitizarea îmbunătățită, inclusiv implementarea tehnologiilor de captare a datelor, cum ar fi recunoașterea optică a caracterelor (OCR), procesarea inteligentă a documentelor (IDP), codurile de bare, codurile QR, scrapingul web și multe altele. Cu toate acestea, toate soluțiile digitale trebuie să fie completate de instruirea utilizatorilor pentru o mai bună adoptare.
  2. Pentru a rezolva problemele legate de MNAR, soluția este soluții îmbunătățite de gestionare a datelor, cum ar fi Master Data Management (MDM), metode de integrare a datelor, cum ar fi ETL (extras/transformare/încărcare) și EAI (integrarea aplicațiilor de întreprindere), guvernarea datelor și multe altele . Scopul managementului datelor este îmbunătățirea fiabilității, acurateței, securității și conformității și reducerea costurilor.
  3. Pentru abordarea problemelor legate de MAR, soluțiile pot implica metode de imputare a datelor. Imputarea este procesul de înlocuire a datelor lipsă cu valori substituite. Metodele comune de imputare a datelor includ interpolarea lui Langrage, algoritmii de interpolare înainte și înapoi ai lui Gregory Newton și regresia.

Tehnici de imputare a datelor MAR

Lipsa la întâmplare (MAR) este o situație foarte frecventă de date lipsă întâlnită de oamenii de știință de date și inginerii de învățare automată. Acest lucru se datorează în principal pentru că problemele legate de MCAR și MNAR sunt gestionate de departamentul IT, iar problemele de date sunt abordate de echipa de date. Imputarea datelor MAR este o metodă de înlocuire a datelor lipsă cu o valoare adecvată. Unele metode frecvent utilizate de imputare a datelor pentru MAR sunt:

  • În imputarea hot-deck, o valoare lipsă este imputată dintr-o înregistrare selectată aleatoriu provenind dintr-un grup de înregistrări de date similare. În imputarea hot-deck, probabilitățile de selectare a datelor sunt presupuse egale datorită funcției aleatorii utilizate pentru a imputa datele. 
  • În imputarea cold-deck, funcția aleatorie nu este utilizată pentru a imputa valoarea. În schimb, sunt utilizate alte funcții, cum ar fi media aritmetică, mediana și modul.
  • Cu imputarea datelor de regresie, de exemplu, regresia liniară multiplă (MLR), valorile variabilelor independente sunt utilizate pentru a prezice valorile lipsă din variabila dependentă utilizând un model de regresie. Aici, mai întâi este derivat modelul de regresie, apoi modelul este validat, iar în final noile valori, adică valorile lipsă, sunt prezise și imputate.
  • Interpolarea este o tehnică de imputare a datelor utilizată pentru a prezice valoarea variabilei dependente pentru o variabilă independentă care se află între datele date. Tehnicile cheie de interpolare a datelor includ tehnica de interpolare înainte a lui Gregory Newton, tehnica de interpolare înapoi a lui Gregory Newton, tehnica de interpolare a lui LaGrange și multe altele.
  • Extrapolarea este imputarea unei valori extinse dintr-un set cunoscut de valori. Este estimarea a ceva prin presupunerea că tendințele existente vor continua. Tehnicile populare de extrapolare a datelor sunt linia de tendință și extrapolarea Lagrange. În timp ce tehnicile de interpolare obțin o valoare între două puncte dintr-un set de date, tehnicile de extrapolare estimează o valoare care se află în afara setului de date. 

Strategia de gestionare a datelor care lipsesc MAR în analiza datelor este ilustrată în imaginea de mai jos.

Categorii de date, soluții și tehnici lipsă

Deși imputarea datelor poate îmbunătăți calitatea datelor, trebuie avut grijă să alegeți o tehnică adecvată de imputare a datelor. Unele tehnici de imputare a datelor nu păstrează relația dintre variabile, unele pot distorsiona distribuția de date subiacentă, unele pot fi dependente de un anumit tip de date și așa mai departe. Deci, în loc să se bazeze pe o singură tehnică de imputare a datelor, strategia ar trebui să fie utilizarea mai multor tehnici pentru a imputa valoarea. În acest sens, tehnicile de ansamblu pot fi valorificate prin adoptarea de algoritmi multipli de imputare a datelor pentru a produce un model optim pentru o performanță mai bună.

spot_img

Ultimele informații

spot_img