Zephyrnet-logo

Drift van machine learning-modellen aanpakken

Datum:

Drift van machine learning-modellen aanpakken
Illustratie: © IoT For All

De meeste mensen kennen kunstmatige intelligentie (AI), maar minder mensen zijn goed thuis in het concept van machinaal leren (ML). Er is veel te weten over dit hightech proces en het lijkt erop dat er altijd nieuwe dingen over te leren zijn; bijvoorbeeld machine learning-modelafwijking.

Een nadeel van het gebruik van een ML-model is dat het na verloop van tijd opnieuw moet worden getraind. De nauwkeurigheid van de voorspellingen van een ML-model neemt af naarmate de bedrijfsresultaten, de economie en de verwachtingen van de klant veranderen, een concept dat 'modelafwijking' wordt genoemd. 

Wanneer treedt ML-modelafwijking op en hoe kunnen beoefenaars dit aanpakken?

Wat is machine learning-modelafwijking?

AI en ML worden steeds populairdere technologieën in de digitale wereld van vandaag. Enkele van de grootste bedrijven maken gebruik van ML om producten en diensten te leveren. Neem bijvoorbeeld Netflix. De streamingdienst gebruikt ML-modellen om verschillende redenen, zoals het formuleren van aanbevelingen of het leren welke kenmerken inhoud succesvol maken.

Bedrijven investeren in AI-oplossingen, consumenten betalen voor door ML beheerde inhoud en technici vinden nieuwe toepassingen in verschillende sectoren. Het meest essentiële onderdeel van elke AI- of ML-oplossing is gestructureerde en ongestructureerde data. Het is complex en kan in de loop van de tijd veranderen, en informatie die wordt gebruikt voor ML-modeltraining is daarop geen uitzondering. 

ML-modellen hebben last van modelafwijking wanneer ze minder nauwkeurige voorspellingen geven. Modelafwijking of -verval kan het model onstabiel maken, waardoor de voorspellingen steeds onjuister worden.

Een kernprincipe van ML is dat gegevens van hoge kwaliteit zijn levert nauwkeurige voorspellingen op. Wat het oorspronkelijke model moest bereiken, kan echter irrelevant of achterhaald worden. ML-engineers en -specialisten moeten het proces van omscholing en herimplementatie van het model doorlopen, waarbij ze ervoor moeten zorgen dat ze de nieuwste beschikbare trainingsgegevens gebruiken. Als dit niet het geval is, blijft het model voorspellingen doen met een lage nauwkeurigheid.

Er zijn twee soorten modelafwijking: concept en data.

Begrip drift

Conceptafwijking treedt op wanneer een model doel of statistische eigenschappen verandering. Tijdens de trainingsperiode van een model leert het een functie die de doelvariabele in kaart brengt. De tijd verstrijkt echter en uiteindelijk leert het model die patronen af ​​of kan het ze niet gebruiken in een nieuwe omgeving. Dit type drift kan seizoensgebonden, geleidelijk of plotseling optreden, waardoor het een uitdaging is om te anticiperen wanneer het zal gebeuren.

Gegevensdrift

Data drift - of covariate drift - treedt op wanneer ML-trainingsinformatie verandert. Alle invoerwijzigingen in een model hebben invloed op de uiteindelijke voorspellingen. De verdeling van de variabelen zal anders zijn, dus gebruikers moeten zich bewust zijn van deze discrepantie. 

Modelafwijking aanpakken

ML-experts vaak driftdetectietools gebruiken, die modelbewaking automatiseren. Er zijn echter andere manieren waarop datawetenschappers en ML-experts gevallen van drift kunnen behandelen.

Hier zijn de stappen die u zou moeten nemen om modelafwijking aan te pakken. 

Analyseer de drift

Het is van vitaal belang om de distributies van gedrifte kenmerken in kaart te brengen met als uiteindelijk doel te bepalen wat er is veranderd om de drift te veroorzaken. Komt het overeen met de basislijn van het statische ML-model? Verrassend genoeg zijn sommige driften minder betekenisvol dan andere, dus experts moeten ze zorgvuldig analyseren en beslissen of het de moeite waard is om ze aan te pakken.

Controleer de gegevenskwaliteit

Organisaties die drift detecteren, moeten eerst de invoergegevens van het model controleren. Er is iets veranderd, maar wat? Is het model nog steeds relevant aan de doelstellingen van het project? Gegevenskwaliteit moet altijd de eerste verdachte zijn in gevallen van drift.

Gebruikers kunnen ervoor kiezen om de drift aan te pakken of niets te doen. Het ontvangen van een waarschuwing kan een vals alarm zijn, of misschien zijn mensen tevreden met de invloed van de drift op de voorspellingen. Soms is verandering echter nodig.

Train het model opnieuw

Aangezien gegevensdistributies in de loop van de tijd verschuiven, is het van cruciaal belang om het model opnieuw te trainen nadat drift is gedetecteerd. Het implementeren van een ML-model is geen eenmalig project, maar een doorlopend project. 

De belangrijkste reden waarom het cruciaal is om een ​​model met drift opnieuw te trainen, is dat het aan blijft top van opkomende trends tussen invoer- en uitvoergegevens. Controleer het model het hele jaar door om de paar weken of maanden om er zeker van te zijn dat het werkt met de nieuwste trainingsinformatie.

Controleer op problemen

Zodra het model leert van de nieuwe trainingsgegevens, moet u in de gaten houden hoe de drift werd beïnvloed. Periodieke updates zijn verstandig, en door het model na de omscholing te controleren, kunnen datawetenschappers en andere professionals zien of de drift nog steeds optreedt.

Als drift wordt gedetecteerd, volgt u de bovenstaande stappen. Driftdetectietools zijn de moeite waard om te investeren, omdat ze de extra verantwoordelijkheid en tijd wegnemen die nodig zijn om correcties uit te voeren.

Pas op voor drift in ML-projecten

Drift is iets waar elke datawetenschapper, onderzoeker en ingenieur zich bewust van moet zijn, vooral in de huidige competitieve bedrijfssector. Een van de meest opvallende kenmerken van ML is de mogelijkheid om historische gegevens te gebruiken om toekomstige resultaten te voorspellen. 

Uitkomsten worden onnauwkeurig wanneer drift optreedt. Alle zakelijke beslissingen die op basis van deze informatie worden genomen, kunnen de organisatie schade toebrengen. Pas op voor concept- en datadrift, aangezien dit grote invloed heeft op de prestaties van het model.

spot_img

Laatste intelligentie

spot_img