Omdat organisaties grotere datasets verzamelen met potentiële inzichten in bedrijfsactiviteiten, is het detecteren van afwijkende gegevens of uitschieters in deze datasets essentieel voor het ontdekken van inefficiënties, zeldzame gebeurtenissen, de hoofdoorzaak van problemen of mogelijkheden voor operationele verbeteringen. Maar wat is een anomalie en waarom is het detecteren ervan belangrijk?
Soorten afwijkingen variëren per onderneming en bedrijfsfunctie. Onregelmatigheidsdetectie betekent eenvoudigweg het definiëren van “normale” patronen en meetgegevens – gebaseerd op bedrijfsfuncties en -doelen – en het identificeren van datapunten die buiten het normale gedrag van een operatie vallen. Een hoger dan gemiddeld verkeer op een website of applicatie gedurende een bepaalde periode kan bijvoorbeeld wijzen op een internetveiligheid bedreiging, in welk geval u een systeem wilt dat automatisch waarschuwingen voor fraudedetectie kan activeren. Het kan ook gewoon een teken zijn dat een bepaald marketinginitiatief werkt. Afwijkingen zijn niet per definitie slecht, maar u ervan bewust zijn en over gegevens beschikken om ze in context te plaatsen, is een integraal onderdeel van het begrijpen en beschermen van uw bedrijf.
De uitdaging voor IT-afdelingen die zich bezighouden met datawetenschap is het begrijpen van groeiende en steeds veranderende datapunten. In deze blog bespreken we hoe machine learning-technieken, mogelijk gemaakt door kunstmatige intelligentie, worden ingezet om afwijkend gedrag te detecteren via drie verschillende methoden voor het detecteren van afwijkingen: begeleide afwijkingsdetectie, ongecontroleerde afwijkingsdetectie en semi-gecontroleerde afwijkingsdetectie.
Leren onder toezicht
Technieken voor begeleid leren maken gebruik van reële invoer- en uitvoergegevens om afwijkingen op te sporen. Bij dit soort anomaliedetectiesystemen moet een data-analist datapunten labelen als normaal of abnormaal om als trainingsgegevens te kunnen worden gebruikt. Een machine learning-model dat is getraind met gelabelde gegevens zal uitschieters kunnen detecteren op basis van de gegeven voorbeelden. Dit type machine learning is nuttig bij het detecteren van bekende uitschieters, maar is niet in staat onbekende afwijkingen te ontdekken of toekomstige problemen te voorspellen.
Veelgebruikte machine learning-algoritmen voor begeleid leren zijn onder meer:
- K-dichtstbijzijnde buuralgoritme (KNN).: Dit algoritme is een op dichtheid gebaseerde classificatie- of regressiemodelleringstool die wordt gebruikt voor het detecteren van afwijkingen. Regressiemodellering is een statistisch hulpmiddel dat wordt gebruikt om de relatie tussen gelabelde gegevens en variabele gegevens te vinden. Het werkt vanuit de veronderstelling dat vergelijkbare gegevenspunten dicht bij elkaar worden gevonden. Als een datapunt verder weg lijkt van een dichte sectie punten, wordt dit als een anomalie beschouwd.
- Lokale uitbijterfactor (LOF): De lokale uitbijterfactor is vergelijkbaar met KNN omdat het een op dichtheid gebaseerd algoritme is. Het belangrijkste verschil is dat terwijl KNN aannames doet op basis van datapunten die het dichtst bij elkaar liggen, LOF de punten gebruikt die het verst uit elkaar liggen om zijn conclusies te trekken.
Niet-gecontroleerd leren
Voor leertechnieken zonder toezicht zijn geen gelabelde gegevens nodig en kunnen ze complexere datasets verwerken. Onbegeleid leren wordt mogelijk gemaakt door diepgaand leren en neurale netwerken of automatische encoders die de manier nabootsen waarop biologische neuronen naar elkaar signaleren. Deze krachtige tools kunnen patronen uit invoergegevens vinden en aannames doen over welke gegevens als normaal worden ervaren.
Deze technieken kunnen een grote bijdrage leveren aan het ontdekken van onbekende afwijkingen en het verminderen van het handmatig doorzoeken van grote datasets. Datawetenschappers moeten echter de resultaten monitoren die zijn verzameld via onbewaakt leren. Omdat deze technieken aannames doen over de gegevens die worden ingevoerd, is het mogelijk dat ze afwijkingen verkeerd labelen.
machine learning algoritmen voor ongestructureerde gegevens zijn onder meer:
K-betekent: Dit algoritme is een datavisualisatietechniek die datapunten verwerkt via een wiskundige vergelijking met de bedoeling vergelijkbare datapunten te clusteren. ‘Gemiddelden’ of gemiddelde gegevens verwijzen naar de punten in het midden van het cluster waaraan alle andere gegevens zijn gerelateerd. Door middel van data-analyse kunnen deze clusters worden gebruikt om patronen te vinden en conclusies te trekken over gegevens die ongewoon blijken te zijn.
Isolatie bos: Dit type algoritme voor anomaliedetectie maakt gebruik van gegevens zonder toezicht. In tegenstelling tot technieken voor het detecteren van afwijkingen onder toezicht, die werken vanuit gelabelde normale datapunten, probeert deze techniek als eerste stap afwijkingen te isoleren. gelijk aan een “willekeurig bos”, creëert het ‘beslissingsbomen’, die de datapunten in kaart brengen en willekeurig een gebied selecteren om te analyseren. Dit proces wordt herhaald en elk punt krijgt een anomaliescore tussen 0 en 1, gebaseerd op de locatie ten opzichte van de andere punten; waarden onder 5 worden over het algemeen als normaal beschouwd, terwijl waarden die deze drempel overschrijden waarschijnlijker abnormaal zijn. Isolatiebosmodellen zijn te vinden in de gratis machine learning-bibliotheek voor Python, scikit-leren.
Ondersteuningsvectormachine van één klasse (SVM): Deze techniek voor het detecteren van afwijkingen maakt gebruik van trainingsgegevens om grenzen te stellen rond wat als normaal wordt beschouwd. Geclusterde punten binnen de gestelde grenzen worden als normaal beschouwd en punten daarbuiten worden als afwijkingen bestempeld.
Semi-begeleid leren
Semi-gecontroleerde anomaliedetectiemethoden combineren de voordelen van de vorige twee methoden. Ingenieurs kunnen leermethoden zonder toezicht toepassen om het leren van functies te automatiseren en met ongestructureerde gegevens te werken. Door het echter te combineren met menselijk toezicht, hebben ze de mogelijkheid om te monitoren en te controleren welke soorten patronen het model leert. Dit helpt meestal om de voorspellingen van het model nauwkeuriger te maken.
Lineaire regressie: Deze voorspellende machine learning-tool maakt gebruik van zowel afhankelijke als onafhankelijke variabelen. De onafhankelijke variabele wordt gebruikt als basis om de waarde van de afhankelijke variabele te bepalen via een reeks statistische vergelijkingen. Deze vergelijkingen gebruiken gelabelde en ongelabelde gegevens om toekomstige resultaten te voorspellen wanneer slechts een deel van de informatie bekend is.
Gebruiksscenario's voor afwijkingsdetectie
Anomaliedetectie is een belangrijk hulpmiddel voor het behouden van bedrijfsfuncties in verschillende sectoren. Het gebruik van gecontroleerde, niet-gecontroleerde en semi-gecontroleerde leeralgoritmen zal afhangen van het soort gegevens dat wordt verzameld en de operationele uitdaging die moet worden opgelost. Voorbeelden van gebruiksscenario's voor anomaliedetectie zijn:
Gebruiksscenario's voor begeleid leren:
Retail
Het gebruik van gelabelde gegevens uit de verkooptotalen van een vorig jaar kan helpen bij het voorspellen van toekomstige verkoopdoelen. Het kan ook helpen bij het vaststellen van benchmarks voor specifieke verkoopmedewerkers op basis van hun prestaties uit het verleden en de algemene bedrijfsbehoeften. Omdat alle verkoopgegevens bekend zijn, kunnen patronen worden geanalyseerd op inzicht in producten, marketing en seizoensinvloeden.
Weersvoorspelling
Door gebruik te maken van historische gegevens kunnen begeleide leeralgoritmen helpen bij het voorspellen van weerpatronen. Door recente gegevens met betrekking tot barometrische druk, temperatuur en windsnelheden te analyseren, kunnen meteorologen nauwkeurigere voorspellingen maken die rekening houden met veranderende omstandigheden.
Gebruiksscenario's voor leren zonder toezicht:
Intrusion detection system
Dit soort systemen zijn verkrijgbaar in de vorm van software of hardware, die het netwerkverkeer controleren op tekenen van beveiligingsschendingen of kwaadwillige activiteiten. Machine learning-algoritmen kunnen worden getraind om potentiële aanvallen op een netwerk in realtime te detecteren, waardoor gebruikersinformatie en systeemfuncties worden beschermd.
Deze algoritmen kunnen een visualisatie van normale prestaties creëren op basis van tijdreeksgegevens, waarbij gegevenspunten met vaste intervallen gedurende langere tijd worden geanalyseerd. Pieken in het netwerkverkeer of onverwachte patronen kunnen worden gemarkeerd en onderzocht als potentiële inbreuken op de beveiliging.
Productie
Ervoor zorgen dat machines goed functioneren is van cruciaal belang voor de productie van producten, het optimaliseren van de kwaliteitsborging en het onderhouden van toeleveringsketens. Ongecontroleerde leeralgoritmen kunnen worden gebruikt voor voorspellend onderhoud door ongelabelde gegevens te verzamelen van sensoren die op apparatuur zijn aangesloten en voorspellingen te doen over mogelijke storingen of defecten. Hierdoor kunnen bedrijven reparaties uitvoeren voordat zich een kritieke storing voordoet, waardoor de stilstand van de machine wordt verminderd.
Gebruiksscenario's voor semi-begeleid leren:
MEDISCHE
Met behulp van machine learning-algoritmen kunnen medische professionals afbeeldingen labelen die bekende ziekten of aandoeningen bevatten. Omdat de beelden echter van persoon tot persoon verschillen, is het onmogelijk om alle mogelijke redenen tot bezorgdheid te benoemen. Eenmaal getraind kunnen deze algoritmen patiëntinformatie verwerken, conclusies trekken uit niet-gelabelde beelden en mogelijke redenen tot bezorgdheid signaleren.
Fraude detectie
Voorspellende algoritmen kunnen semi-gecontroleerd leren gebruiken, waarbij zowel gelabelde als ongelabelde gegevens nodig zijn om fraude te detecteren. Omdat de creditcardactiviteit van een gebruiker wordt gelabeld, kan deze worden gebruikt om ongebruikelijke bestedingspatronen te detecteren.
Oplossingen voor fraudedetectie zijn echter niet uitsluitend afhankelijk van transacties die voorheen als fraude werden bestempeld; ze kunnen ook aannames doen op basis van gebruikersgedrag, waaronder de huidige locatie, het inlogapparaat en andere factoren waarvoor ongelabelde gegevens nodig zijn.
Waarneembaarheid bij detectie van afwijkingen
Afwijkingsdetectie wordt mogelijk gemaakt door oplossingen en tools die prestatiegegevens beter waarneembaar maken. Deze tools maken het mogelijk om snel afwijkingen te identificeren en zo problemen te voorkomen en te verhelpen. IBM® Instana™ Observability maakt gebruik van kunstmatige intelligentie en machinaal leren om alle teamleden een gedetailleerd en gecontextualiseerd beeld van prestatiegegevens te geven, waardoor fouten nauwkeurig kunnen worden voorspeld en proactief kunnen worden opgelost.
IBM watsonx.ai™ biedt een krachtige generatieve AI-tool die grote datasets kan analyseren om betekenisvolle inzichten te verkrijgen. Door middel van snelle en uitgebreide analyses kan IBM watson.ai patronen en trends identificeren die kunnen worden gebruikt om huidige afwijkingen op te sporen en voorspellingen te doen over toekomstige uitschieters. Watson.ai kan in verschillende sectoren worden gebruikt voor uiteenlopende zakelijke behoeften.
Ontdek IBM Instana Observability
Meer van Automatisering
IBM-nieuwsbrieven
Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.
Abonneer nu
Meer nieuwsbrieven
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://www.ibm.com/blog/anomaly-detection-machine-learning/