Zephyrnet-logotyp

5 sätt att hantera bristen på data i maskininlärning

Datum:

5 sätt att hantera bristen på data i maskininlärning
Bild av redaktör
 

I många projekt jag genomförde visar företag, trots att de har fantastiska AI-affärsidéer, en tendens att långsamt bli frustrerade när de inser att de inte har tillräckligt med data... Men lösningar finns! Syftet med den här artikeln är att kortfattat introducera dig till några av dem (de som har visat sig vara effektiva i min praktik) snarare än att lista alla befintliga lösningar.

Problemet med databrist är mycket viktigt eftersom data är kärnan i alla AI-projekt. Storleken på en datauppsättning är ofta ansvarig för dåliga prestationer i ML-projekt.

För det mesta är datarelaterade frågor den främsta anledningen till att stora AI-projekt inte kan genomföras. I vissa projekt kommer man fram till att det saknas relevant data eller så är insamlingsprocessen för svår och tidskrävande.

Övervakade maskininlärningsmodeller används framgångsrikt för att svara på en hel rad affärsutmaningar. Dessa modeller är dock datahungriga och deras prestanda är mycket beroende av storleken på tillgänglig träningsdata. I många fall är det svårt att skapa träningsdatauppsättningar som är tillräckligt stora.

En annan fråga jag skulle kunna nämna är att projektanalytiker tenderar att underskatta mängden data som krävs för att hantera vanliga affärsproblem. Jag minns att jag kämpade för att samla in stora träningsdatauppsättningar. Det är ännu mer komplicerat att samla in data när man arbetar för ett stort företag.

Hur mycket data behöver jag?

Tja, du behöver ungefär 10 gånger så många exempel som det finns grader av frihet i din modell. Ju mer komplex modellen är, desto mer benägen är du att överanpassa, men det kan undvikas genom validering. Men mycket färre data kan användas baserat på användningsfallet.

Överanpassning: hänvisar till en modell som modellerar träningsdata för väl. Det händer när en modell lär sig detaljerna och bruset i träningsdatan i en sådan utsträckning att det negativt påverkar modellens prestanda på nya data.

Det är också värt att diskutera frågan om att hantera de saknade värdena. Speciellt om antalet saknade värden i din data är tillräckligt stort (över 5%).

Återigen kommer hanteringen av saknade värden att bero på vissa "framgångskriterier". Dessutom varierar dessa kriterier för olika datauppsättningar och till och med för olika tillämpningar, såsom igenkänning, segmentering, förutsägelse och klassificering (med samma datauppsättning) även för olika tillämpningar (igenkänning, segmentering, förutsägelse, klassificering).

Det är viktigt att förstå att det inte finns något perfekt sätt att hantera saknad data.

Det finns olika lösningar, men det beror på typen av problem — tidsserieanalys, ML, regression, etc.

När det gäller prediktiva tekniker ska de endast användas när saknade värden inte observeras helt slumpmässigt, och variablerna valdes för att imputera sådana saknade värden har något samband med det, annars kan det ge oprecisa uppskattningar.

I allmänhet kan olika maskininlärningsalgoritmer användas för att bestämma de saknade värdena. Detta fungerar genom att omvandla saknade funktioner till själva etiketterna och nu använda kolumner utan saknade värden för att förutsäga kolumner med saknade värden.

Baserat på min erfarenhet kommer du att konfronteras med brist på data eller saknad data någon gång om du bestämmer dig för att bygga en AI-driven lösning, men lyckligtvis finns det sätt att vända det minuset till ett plus.

 

 

Som nämnts ovan är det omöjligt att exakt uppskatta den minsta mängd data som krävs för ett AI-projekt. Uppenbarligen kommer själva naturen av ditt projekt att avsevärt påverka mängden data du behöver. Till exempel kräver texter, bilder och videor vanligtvis mer data. Men många andra faktorer bör beaktas för att göra en korrekt uppskattning.

  • Antal kategorier som ska förutsägas
    Vad är den förväntade effekten av din modell? I grund och botten, desto minst antal eller kategorier desto bättre.
  • Modellprestanda
    Om du planerar att få en produkt i produktion behöver du mer. En liten datauppsättning kan vara tillräckligt bra för ett proof of concept, men i produktionen behöver du mycket mer data.

I allmänhet kräver små datamängder modeller som har låg komplexitet (eller hög partiskhet) att undvika överanpassning modellen till data.

 

 

Innan vi utforskar tekniska lösningar, låt oss analysera vad vi kan göra för att förbättra din datauppsättning. Det kan låta självklart, men innan du börjar med AI, försök att skaffa så mycket data som möjligt genom att utveckla dina externa och interna verktyg med datainsamling i åtanke. Om du känner till uppgifterna som en maskininlärningsalgoritm förväntas utföra, kan du skapa en datainsamlingsmekanism i förväg.

Försök att etablera en riktig datakultur inom din organisation.

För att initiera ML-körning kan du lita på data med öppen källkod. Det finns mycket data tillgängligt för ML, och vissa företag är redo att ge bort det.

Om du behöver extern data för ditt projekt kan det vara fördelaktigt att bilda partnerskap med andra organisationer för att få relevant data. Att bilda partnerskap kommer uppenbarligen att kosta dig lite tid, men den egenutvecklade informationen kommer att bygga en naturlig barriär för alla rivaler.

 

plats_img

Senaste intelligens

plats_img