Zephyrnet-logo

Kan data governance de AI-vermoeidheid aanpakken? – KDnuggets

Datum:

Kan data governance de AI-vermoeidheid aanpakken?
Afbeelding door auteur
 

Data Governance en AI-moeheid klinken als twee verschillende concepten, maar er bestaat een intrinsiek verband tussen beide. Om het beter te begrijpen, laten we beginnen met hun definitie. 

Het is al lange tijd de kernfocus van de data-industrie.

Kopen Google Reviews zegt het goed: “Databeheer is alles wat u doet om ervoor te zorgen dat gegevens veilig, privé, accuraat, beschikbaar en bruikbaar zijn. Het gaat om het vaststellen van interne normen – databeleid – die van toepassing zijn op de manier waarop gegevens worden verzameld, opgeslagen, verwerkt en verwijderd.”

Zoals deze definitie benadrukt, gaat data governance over het beheren van data – precies de motor die AI-modellen aandrijft.

Nu de eerste tekenen van het verband tussen data governance en AI zichtbaar zijn, kunnen we dit in verband brengen met AI-moeheid. Hoewel de naam het al verklapt, zorgt het benadrukken van de redenen die tot dergelijke vermoeidheid leiden ervoor dat deze term in de hele post consistent wordt gebruikt.  

AI-moeheid treedt op als gevolg van de tegenslagen en uitdagingen waarmee organisaties, ontwikkelaars of teams worden geconfronteerd, wat vaak leidt tot een mislukte waarderealisatie of implementatie van AI-systemen.

Het begint meestal met onrealistische verwachtingen van waartoe AI in staat is. Voor geavanceerde technologieën zoals AI moeten de belangrijkste belanghebbenden niet alleen rekening houden met de mogelijkheden en mogelijkheden van AI, maar ook met de beperkingen en risico's ervan.

Over risico’s gesproken: ethiek wordt vaak als een bijzaak beschouwd die leidt tot het schrappen van niet-conforme AI-initiatieven.

Je vraagt ​​je vast af welke rol data governance speelt bij het veroorzaken van AI-vermoeidheid – het uitgangspunt van dit bericht.

Dat is waar we naartoe gaan. 

AI-moeheid kan grofweg worden gecategoriseerd als pre-implementatie en post-implementatie. Laten we ons eerst concentreren op de pre-implementatie.

Pre-implementatie

Verschillende factoren dragen bij aan het behalen van een Proof of Concept (PoC) naar implementatie, zoals:

  • Wat proberen we op te lossen?
  • Waarom is het een dwingend probleem om nu prioriteit te geven?
  • Welke gegevens zijn beschikbaar?
  • Is het überhaupt ML-oplosbaar?
  • Hebben gegevens een patroon?
  • Is het fenomeen herhaalbaar?
  • Welke aanvullende gegevens zouden de modelprestaties verbeteren?

 

Kan data governance de AI-vermoeidheid aanpakken?
Afbeelding van Freepik 
 

Nadat we hebben geëvalueerd dat het probleem het beste kan worden opgelost met behulp van ML-algoritmen, voert het data science-team een ​​verkennende data-analyse uit. In dit stadium worden veel onderliggende datapatronen blootgelegd, waardoor wordt benadrukt of de gegeven data rijk aan signaal zijn. Het helpt ook bij het creëren van technische functies om het leerproces van het algoritme te versnellen.

Vervolgens bouwt het team het eerste basismodel, waarbij vaak wordt vastgesteld dat het niet op het acceptabele niveau presteert. Een model waarvan de output zo goed is als een muntje, voegt geen waarde toe. Dit is een van de eerste tegenslagen, ook wel lessen genoemd, bij het bouwen van ML-modellen.

Organisaties kunnen van het ene bedrijfsprobleem naar het andere overgaan, wat vermoeidheid veroorzaakt. Maar als de onderliggende gegevens geen rijk signaal bevatten, kan geen enkel AI-algoritme daarop voortbouwen. Het model moet de statistische associaties uit de trainingsgegevens leren om te generaliseren op basis van onzichtbare gegevens.

Post-implementatie

Ondanks dat het getrainde model veelbelovende resultaten laat zien op de validatieset, in lijn met de kwalificerende bedrijfscriteria, zoals 70% nauwkeurigheid, kan er nog steeds vermoeidheid optreden als het model er niet in slaagt adequaat te presteren in de productieomgeving.

Dit type AI-vermoeidheid wordt de post-implementatiefase genoemd. 

Er zijn talloze redenen die kunnen leiden tot verslechterde prestaties, waarbij een slechte datakwaliteit het meest voorkomende probleem is waar het model mee kampt. Het beperkt het vermogen van het model om de doelrespons nauwkeurig te voorspellen bij afwezigheid van cruciale kenmerken. 

Stel je voor dat een van de essentiële kenmerken, die slechts 10% ontbrak in de trainingsgegevens, nu 50% van de tijd nul wordt in de productiegegevens, wat tot foutieve voorspellingen leidt. Dergelijke iteraties en inspanningen om te zorgen voor consistent presterende modellen zorgen voor vermoeidheid bij de datawetenschappers en zakelijke teams, waardoor het vertrouwen in de datapijplijnen wordt uitgehold en de investeringen in het project in gevaar komen.

Robuuste maatregelen voor databeheer zijn van cruciaal belang bij het aanpakken van beide soorten AI-moeheid. Aangezien de data de kern vormen van ML-modellen, zijn signaalrijke, foutloze en hoogwaardige data een must voor het succes van een ML-project. Het aanpakken van AI-moeheid vereist een sterke focus op databeheer. We moeten dus rigoureus werken om de juiste datakwaliteit te garanderen, en de basis leggen voor het bouwen van state-of-the-art modellen en het leveren van betrouwbare zakelijke inzichten.

Datakwaliteit

Datakwaliteit, de sleutel tot bloeiend databeheer, is een kritische succesfactor voor machine learning-algoritmen. Organisaties moeten investeren in datakwaliteit, zoals het publiceren van rapporten voor de dataconsumenten. Bedenk bij datawetenschapsprojecten wat er gebeurt als de gegevens van slechte kwaliteit in de modellen terechtkomen, wat tot slechte prestaties kan leiden.

Alleen tijdens de foutenanalyse zouden de teams de problemen met de gegevenskwaliteit kunnen identificeren, die, wanneer ze stroomopwaarts worden verzonden om te worden opgelost, uiteindelijk vermoeidheid bij de teams veroorzaken.

Het is duidelijk dat het niet alleen gaat om de moeite die het kost, maar dat er veel tijd verloren gaat totdat de juiste gegevens binnenkomen.

Daarom wordt altijd geadviseerd om gegevensproblemen bij de bron op te lossen om dergelijke tijdrovende iteraties te voorkomen. Uiteindelijk verwijzen de gepubliceerde datakwaliteitsrapporten naar het datawetenschapsteam (of andere downstreamgebruikers en dataconsumenten) met inzicht in de aanvaardbare kwaliteit van de binnenkomende data.

Zonder datakwaliteit en beheersmaatregelen zouden datawetenschappers overbelast raken met dataproblemen, wat ertoe zou bijdragen dat onsuccesvolle modellen AI-moeheid veroorzaken. 

In het artikel worden de twee fasen belicht waarin AI-moeheid optreedt en wordt gepresenteerd hoe maatregelen op het gebied van databeheer, zoals rapporten over de datakwaliteit, een faciliterende rol kunnen spelen bij het bouwen van betrouwbare en robuuste modellen.

Door een solide basis te leggen via data governance kunnen organisaties een routekaart opstellen voor succesvolle en naadloze AI-ontwikkeling en adoptie, waardoor enthousiasme wordt gewekt.

Om ervoor te zorgen dat dit artikel een holistisch overzicht geeft van verschillende manieren om AI-moeheid aan te pakken, benadruk ik ook de rol van de organisatiecultuur, die, in combinatie met andere best practices zoals data governance, data science-teams in staat zal stellen en in staat zal stellen om sneller zinvolle AI-bijdragen te bouwen en sneller.
 
 

Vidhi Chugh is een AI-strateeg en leider op het gebied van digitale transformatie en werkt op het snijvlak van product, wetenschap en engineering om schaalbare machine learning-systemen te bouwen. Ze is een bekroonde innovatieleider, een auteur en een internationale spreker. Ze is op een missie om machine learning te democratiseren en het jargon te doorbreken zodat iedereen deel kan uitmaken van deze transformatie.

spot_img

Laatste intelligentie

spot_img