Anomaliedetectie bij machinaal leren: uitschieters vinden voor optimalisatie van bedrijfsfuncties - IBM Blog

Anomaliedetectie bij machinaal leren: uitschieters vinden voor de optimalisatie van bedrijfsfuncties – IBM Blog

Omdat organisaties grotere datasets verzamelen met potentiële inzichten in bedrijfsactiviteiten, is het detecteren van afwijkende gegevens of uitschieters in deze datasets essentieel voor het ontdekken van inefficiënties, zeldzame gebeurtenissen, de hoofdoorzaak van problemen of mogelijkheden voor operationele verbeteringen. Maar wat is een anomalie en waarom is het detecteren ervan belangrijk?

Soorten afwijkingen variëren per onderneming en bedrijfsfunctie. Onregelmatigheidsdetectie betekent eenvoudigweg het definiëren van “normale” patronen en meetgegevens – gebaseerd op bedrijfsfuncties en -doelen – en het identificeren van datapunten die buiten het normale gedrag van een operatie vallen. Een hoger dan gemiddeld verkeer op een website of applicatie gedurende een bepaalde periode kan bijvoorbeeld wijzen op een internetveiligheid bedreiging, in welk geval u een systeem wilt dat automatisch waarschuwingen voor fraudedetectie kan activeren. Het kan ook gewoon een teken zijn dat een bepaald marketinginitiatief werkt. Afwijkingen zijn niet per definitie slecht, maar u ervan bewust zijn en over gegevens beschikken om ze in context te plaatsen, is een integraal onderdeel van het begrijpen en beschermen van uw bedrijf.

De uitdaging voor IT-afdelingen die zich bezighouden met datawetenschap is het begrijpen van groeiende en steeds veranderende datapunten. In deze blog bespreken we hoe machine learning-technieken, mogelijk gemaakt door kunstmatige intelligentie, worden ingezet om afwijkend gedrag te detecteren via drie verschillende methoden voor het detecteren van afwijkingen: begeleide afwijkingsdetectie, ongecontroleerde afwijkingsdetectie en semi-gecontroleerde afwijkingsdetectie.

Leren onder toezicht

Technieken voor begeleid leren maken gebruik van reële invoer- en uitvoergegevens om afwijkingen op te sporen. Bij dit soort anomaliedetectiesystemen moet een data-analist datapunten labelen als normaal of abnormaal om als trainingsgegevens te kunnen worden gebruikt. Een machine learning-model dat is getraind met gelabelde gegevens zal uitschieters kunnen detecteren op basis van de gegeven voorbeelden. Dit type machine learning is nuttig bij het detecteren van bekende uitschieters, maar is niet in staat onbekende afwijkingen te ontdekken of toekomstige problemen te voorspellen.

Veelgebruikte machine learning-algoritmen voor begeleid leren zijn onder meer:

K-dichtstbijzijnde buuralgoritme (KNN).: Dit algoritme is een op dichtheid gebaseerde classificatie- of regressiemodelleringstool die wordt gebruikt voor het detecteren van afwijkingen. Regressiemodellering is een statistisch hulpmiddel dat wordt gebruikt om de relatie tussen gelabelde gegevens en variabele gegevens te vinden. Het werkt vanuit de veronderstelling dat vergelijkbare gegevenspunten dicht bij elkaar worden gevonden. Als een datapunt verder weg lijkt van een dichte sectie punten, wordt dit als een anomalie beschouwd.
Lokale uitbijterfactor (LOF): De lokale uitbijterfactor is vergelijkbaar met KNN omdat het een op dichtheid gebaseerd algoritme is. Het belangrijkste verschil is dat terwijl KNN aannames doet op basis van datapunten die het dichtst bij elkaar liggen, LOF de punten gebruikt die het verst uit elkaar liggen om zijn conclusies te trekken.

Niet-gecontroleerd leren

Voor leertechnieken zonder toezicht zijn geen gelabelde gegevens nodig en kunnen ze complexere datasets verwerken. Onbegeleid leren wordt mogelijk gemaakt door diepgaand leren en neurale netwerken of automatische encoders die de manier nabootsen waarop biologische neuronen naar elkaar signaleren. Deze krachtige tools kunnen patronen uit invoergegevens vinden en aannames doen over welke gegevens als normaal worden ervaren.

Deze technieken kunnen een grote bijdrage leveren aan het ontdekken van onbekende afwijkingen en het verminderen van het handmatig doorzoeken van grote datasets. Datawetenschappers moeten echter de resultaten monitoren die zijn verzameld via onbewaakt leren. Omdat deze technieken aannames doen over de gegevens die worden ingevoerd, is het mogelijk dat ze afwijkingen verkeerd labelen.

machine learning algoritmen voor ongestructureerde gegevens zijn onder meer:

K-betekent: Dit algoritme is een datavisualisatietechniek die datapunten verwerkt via een wiskundige vergelijking met de bedoeling vergelijkbare datapunten te clusteren. ‘Gemiddelden’ of gemiddelde gegevens verwijzen naar de punten in het midden van het cluster waaraan alle andere gegevens zijn gerelateerd. Door middel van data-analyse kunnen deze clusters worden gebruikt om patronen te vinden en conclusies te trekken over gegevens die ongewoon blijken te zijn.

Isolatie bos: Dit type algoritme voor anomaliedetectie maakt gebruik van gegevens zonder toezicht. In tegenstelling tot technieken voor het detecteren van afwijkingen onder toezicht, die werken vanuit gelabelde normale datapunten, probeert deze techniek als eerste stap afwijkingen te isoleren. gelijk aan een “willekeurig bos”, creëert het ‘beslissingsbomen’, die de datapunten in kaart brengen en willekeurig een gebied selecteren om te analyseren. Dit proces wordt herhaald en elk punt krijgt een anomaliescore tussen 0 en 1, gebaseerd op de locatie ten opzichte van de andere punten; waarden onder 5 worden over het algemeen als normaal beschouwd, terwijl waarden die deze drempel overschrijden waarschijnlijker abnormaal zijn.Isolatiebosmodellen zijn te vinden in de gratis machine learning-bibliotheek voor Python, scikit-leren.

Ondersteuningsvectormachine van één klasse (SVM): Deze techniek voor het detecteren van afwijkingen maakt gebruik van trainingsgegevens om grenzen te stellen rond wat als normaal wordt beschouwd. Geclusterde punten binnen de gestelde grenzen worden als normaal beschouwd en punten daarbuiten worden als afwijkingen bestempeld.

Semi-begeleid leren

Semi-gecontroleerde anomaliedetectiemethoden combineren de voordelen van de vorige twee methoden. Ingenieurs kunnen leermethoden zonder toezicht toepassen om het leren van functies te automatiseren en met ongestructureerde gegevens te werken. Door het echter te combineren met menselijk toezicht, hebben ze de mogelijkheid om te monitoren en te controleren welke soorten patronen het model leert. Dit helpt meestal om de voorspellingen van het model nauwkeuriger te maken.

Lineaire regressie: Deze voorspellende machine learning-tool maakt gebruik van zowel afhankelijke als onafhankelijke variabelen. De onafhankelijke variabele wordt gebruikt als basis om de waarde van de afhankelijke variabele te bepalen via een reeks statistische vergelijkingen. Deze vergelijkingen gebruiken gelabelde en ongelabelde gegevens om toekomstige resultaten te voorspellen wanneer slechts een deel van de informatie bekend is.

Gebruiksscenario's voor afwijkingsdetectie

Anomaliedetectie is een belangrijk hulpmiddel voor het behouden van bedrijfsfuncties in verschillende sectoren. Het gebruik van gecontroleerde, niet-gecontroleerde en semi-gecontroleerde leeralgoritmen zal afhangen van het soort gegevens dat wordt verzameld en de operationele uitdaging die moet worden opgelost. Voorbeelden van gebruiksscenario's voor anomaliedetectie zijn:

Gebruiksscenario's voor begeleid leren:

Retail

Het gebruik van gelabelde gegevens uit de verkooptotalen van een vorig jaar kan helpen bij het voorspellen van toekomstige verkoopdoelen. Het kan ook helpen bij het vaststellen van benchmarks voor specifieke verkoopmedewerkers op basis van hun prestaties uit het verleden en de algemene bedrijfsbehoeften. Omdat alle verkoopgegevens bekend zijn, kunnen patronen worden geanalyseerd op inzicht in producten, marketing en seizoensinvloeden.

Weersvoorspelling

Door gebruik te maken van historische gegevens kunnen begeleide leeralgoritmen helpen bij het voorspellen van weerpatronen. Door recente gegevens met betrekking tot barometrische druk, temperatuur en windsnelheden te analyseren, kunnen meteorologen nauwkeurigere voorspellingen maken die rekening houden met veranderende omstandigheden.

Gebruiksscenario's voor leren zonder toezicht:

Intrusion detection system

Dit soort systemen zijn verkrijgbaar in de vorm van software of hardware, die het netwerkverkeer controleren op tekenen van beveiligingsschendingen of kwaadwillige activiteiten. Machine learning-algoritmen kunnen worden getraind om potentiële aanvallen op een netwerk in realtime te detecteren, waardoor gebruikersinformatie en systeemfuncties worden beschermd.

Deze algoritmen kunnen een visualisatie van normale prestaties creëren op basis van tijdreeksgegevens, waarbij gegevenspunten met vaste intervallen gedurende langere tijd worden geanalyseerd. Pieken in het netwerkverkeer of onverwachte patronen kunnen worden gemarkeerd en onderzocht als potentiële inbreuken op de beveiliging.

Productie

Ervoor zorgen dat machines goed functioneren is van cruciaal belang voor de productie van producten, het optimaliseren van de kwaliteitsborging en het onderhouden van toeleveringsketens. Ongecontroleerde leeralgoritmen kunnen worden gebruikt voor voorspellend onderhoud door ongelabelde gegevens te verzamelen van sensoren die op apparatuur zijn aangesloten en voorspellingen te doen over mogelijke storingen of defecten. Hierdoor kunnen bedrijven reparaties uitvoeren voordat zich een kritieke storing voordoet, waardoor de stilstand van de machine wordt verminderd.

Gebruiksscenario's voor semi-begeleid leren:

MEDISCHE

Met behulp van machine learning-algoritmen kunnen medische professionals afbeeldingen labelen die bekende ziekten of aandoeningen bevatten. Omdat de beelden echter van persoon tot persoon verschillen, is het onmogelijk om alle mogelijke redenen tot bezorgdheid te benoemen. Eenmaal getraind kunnen deze algoritmen patiëntinformatie verwerken, conclusies trekken uit niet-gelabelde beelden en mogelijke redenen tot bezorgdheid signaleren.

Fraude detectie

Voorspellende algoritmen kunnen semi-gecontroleerd leren gebruiken, waarbij zowel gelabelde als ongelabelde gegevens nodig zijn om fraude te detecteren. Omdat de creditcardactiviteit van een gebruiker wordt gelabeld, kan deze worden gebruikt om ongebruikelijke bestedingspatronen te detecteren.

Oplossingen voor fraudedetectie zijn echter niet uitsluitend afhankelijk van transacties die voorheen als fraude werden bestempeld; ze kunnen ook aannames doen op basis van gebruikersgedrag, waaronder de huidige locatie, het inlogapparaat en andere factoren waarvoor ongelabelde gegevens nodig zijn.

Waarneembaarheid bij detectie van afwijkingen

Afwijkingsdetectie wordt mogelijk gemaakt door oplossingen en tools die prestatiegegevens beter waarneembaar maken. Deze tools maken het mogelijk om snel afwijkingen te identificeren en zo problemen te voorkomen en te verhelpen. IBM® Instana™ Observability maakt gebruik van kunstmatige intelligentie en machinaal leren om alle teamleden een gedetailleerd en gecontextualiseerd beeld van prestatiegegevens te geven, waardoor fouten nauwkeurig kunnen worden voorspeld en proactief kunnen worden opgelost.

IBM watsonx.ai™ biedt een krachtige generatieve AI-tool die grote datasets kan analyseren om betekenisvolle inzichten te verkrijgen. Door middel van snelle en uitgebreide analyses kan IBM watson.ai patronen en trends identificeren die kunnen worden gebruikt om huidige afwijkingen op te sporen en voorspellingen te doen over toekomstige uitschieters. Watson.ai kan in verschillende sectoren worden gebruikt voor uiteenlopende zakelijke behoeften.

Ontdek IBM Instana Observability

Verken IBM watsonx.ai

IBM-stafschrijver

Meer van Automatisering

Ontwikkelaar zit in een stoel tussen opbergplanken die op een laptop werkt, een koptelefoon draagt en glimlacht

18 december 2023

Waarom u Global Anycast DNS niet zou moeten gebruiken in China

3 min gelezen - Anycast is een standaard table-stakes-functie van elke gezaghebbende DNS-service. Dat is logisch: inkomende zoekopdrachten moeten altijd worden doorgestuurd naar de best beschikbare servers, meestal naar de servers die geografisch het dichtst bij zijn. Toch is er één opvallende uitzondering: China. Het internet op het vasteland van China is afgesloten van de rest van de wereld. Elke DNS-query die het vasteland van China binnenkomt of verlaat, moet een reeks filters en andere controles passeren voordat deze ter oplossing kan worden doorgegeven.…

Softwareontwikkelaar werkt op kantoor en typt op laptop

18 december 2023

Los problemen met uw netwerk op met DNS Insights

4 min gelezen - Het is relatief eenvoudig om aan de hand van DNS-gegevens te zien dat er iets mis is met uw netwerk. Een piek in NXDOMAIN-reacties of andere fouten dient meestal als een duidelijke indicatie dat er iets mis is. De volgende stap – het vaststellen van de oorzaak van het probleem en vervolgens daadwerkelijk iets aan die fouten doen – is vaak een zwaardere klus. Het is een dataprobleem. Elke gezaghebbende DNS-provider die zijn geld waard is, zal u laten zien hoeveel NXDOMAIN-reacties u krijgt. Toch bieden weinigen de…

18 december 2023

Hoe u de applicatieprestaties kunt optimaliseren met NS1-verkeerssturing

2 min gelezen - “Ik wil het nu!” – Dit is niet zomaar een zin die verwende kinderen zingen; het is wat we eisen elke keer dat we op een link klikken, video-inhoud streamen of een online applicatie openen. Naarmate het internetverkeer in volume en complexiteit groeit, stijgen onze verwachtingen voor snellere responstijden van de diensten en inhoud die we gebruiken. We klikken vaak weg als er geen onmiddellijke resultaten worden geleverd. Voor bedrijven die applicaties en diensten leveren, is de felle urgentie van ‘nu’ een logistieke hoofdpijn. Het internetverkeer moet anders navigeren...

Winkeleigenaar staat buiten het bedrijf, leunt tegen de voorruit, houdt een koffiekopje vast en glimlacht in de verte

18 december 2023

Wat zijn Rum-gegevens en waarom zijn deze van belang?

3 min gelezen - Wat zijn RUM-gegevens? In tegenstelling tot wat je zou denken, zijn RUM-gegevens geen prestatie-indicator voor Captain Morgan, het Cubaanse toerisme of een Disney-filmfranchise. Real User Monitoring (RUM)-gegevens zijn informatie over hoe mensen omgaan met online applicaties en services. Zie het als een altijd beschikbaar, realtime onderzoek naar wat uw gebruikers online ervaren. RUM-gegevens zijn een cruciaal onderdeel van het optimaliseren van de prestaties van online applicaties en services. Door informatie te analyseren over waar gebruikers naartoe gaan en…

IBM-nieuwsbrieven

Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.

Abonneer nu

Meer nieuwsbrieven

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://www.ibm.com/blog/anomaly-detection-machine-learning/

Generatieve data-intelligentie

Anomaliedetectie bij machinaal leren: uitschieters vinden voor de optimalisatie van bedrijfsfuncties – IBM Blog

Leren onder toezicht

Niet-gecontroleerd leren

Semi-begeleid leren

Gebruiksscenario's voor afwijkingsdetectie

Gebruiksscenario's voor begeleid leren:

Retail

Weersvoorspelling

Gebruiksscenario's voor leren zonder toezicht:

Intrusion detection system

Productie

Gebruiksscenario's voor semi-begeleid leren:

MEDISCHE

Fraude detectie

Waarneembaarheid bij detectie van afwijkingen

Meer van Automatisering

Waarom u Global Anycast DNS niet zou moeten gebruiken in China

Los problemen met uw netwerk op met DNS Insights

Hoe u de applicatieprestaties kunt optimaliseren met NS1-verkeerssturing

Wat zijn Rum-gegevens en waarom zijn deze van belang?

IBM-nieuwsbrieven

Deze week op Crypto Twitter: Bitcoin Runes Mania en meer Ethereum Legal Drama – Decrypt

Deze week op Crypto Twitter: Bitcoin Runes Mania en meer Ethereum Legal Drama – Decrypt

Laatste intelligentie

Graven in gedecentraliseerde uitwisselingen: voordelen en uitdagingen

MetaMask en Crypto Tax Calculator werken samen om Crypto-investeerders dit belastingseizoen te redden

Upbit domineert de Zuid-Koreaanse cryptomarkt en staat wereldwijd in de top 5: rapport

Wetenschappers schudden lithiumextractie op met een ander soort chemie: CleanTechnica

De NFT-portefeuille van Justin Biever verloor meer dan 94% van zijn waarde, Gong van $ 2 miljoen naar $ 100,000

CFI, Deriv, Gold-i en meer: Executive Moves of the Week