Zephyrnet-logo

In-Stream detectie van afwijkingen met Amazon OpenSearch Ingestion en Amazon OpenSearch Serverless | Amazon-webservices

Datum:

Machine learning zonder toezicht Analytics is uitgegroeid tot een krachtig hulpmiddel voor onregelmatigheidsdetectie in het huidige datarijke landschap, vooral met de groeiende hoeveelheid machinaal gegenereerde data. In-stream anomaliedetectie biedt realtime inzicht in gegevensafwijkingen, waardoor proactieve respons mogelijk wordt. Amazon OpenSearch Serverloos richt zich op het leveren van naadloze schaalbaarheid en beheer van zoekwerklasten; Amazon OpenSearch-opname vult dit aan door een robuuste oplossing te bieden voor de detectie van afwijkingen op geïndexeerde gegevens.

In dit bericht bieden we een oplossing met behulp van OpenSearch Ingestion waarmee u in-stream anomaliedetectie kunt uitvoeren binnen uw eigen AWS-omgeving.

In-Stream detectie van afwijkingen met OpenSearch Ingestion

OpenSearch Ingestion maakt het proces van in-stream detectie van afwijkingen eenvoudig en tegen lagere kosten. In-stream anomaliedetectie helpt u te besparen op indexering en vermijdt de noodzaak van uitgebreide bronnen voor het verwerken van big data. Het stelt organisaties in staat om op het juiste moment de juiste middelen in te zetten, grote hoeveelheden data efficiënt te beheren en geld te besparen. Het gebruik van peer-forwarders en geaggregeerde processors kan de zaken complexer en duurder maken; OpenSearch Ingestion vermindert deze problemen.

Laten we eens kijken naar een gebruiksvoorbeeld waarin een OpenSearch Ingestion-configuratie YAML wordt weergegeven voor detectie van afwijkingen in de stream.

Overzicht oplossingen

In dit voorbeeld doorlopen we de installatie van OpenSearch Ingestion met behulp van een willekeurig gekapt bosafwijkingsdetector voor het monitoren van het aantal logboeken binnen een periode van 5 minuten. We indexeren ook de onbewerkte logboeken om een ​​uitgebreide demonstratie van de binnenkomende gegevensstroom te bieden. Als uw gebruiksscenario de analyse van onbewerkte logboeken vereist, kunt u het proces stroomlijnen door de initiële pijplijn te omzeilen en u rechtstreeks te concentreren op in-stream detectie van afwijkingen, waarbij alleen de geïdentificeerde afwijkingen worden geïndexeerd.

Het volgende diagram illustreert onze oplossingsarchitectuur.

De configuratie schetst twee OpenSearch Ingestion-pijplijnen. De eerste, niet-advertentiepijplijn, neemt HTTP-gegevens op, geeft deze een tijdstempel en stuurt deze door naar zowel de advertentiepijplijn als een OpenSearch-index, niet-advertentie-index. De tweede, advertentiepijplijn, ontvangt deze gegevens, voert binnen een tijdsbestek van vijf minuten aggregatie uit op basis van de ID en voert afwijkingendetectie uit. Resultaten worden opgeslagen in de index ad-anomaly-index. Deze opstelling demonstreert gegevensverwerking, detectie van afwijkingen en opslag binnen OpenSearch Service, waardoor de analysemogelijkheden worden verbeterd.

Implementeer de oplossing

Voer de volgende stappen uit om de oplossing in te stellen:

  1. Maak een pijplijnrol.
  2. Een collectie maken.
  3. Maak een pijplijn waarin u de pijplijnrol opgeeft.

De pijplijn neemt deze rol op zich om aanvragen te ondertekenen naar het OpenSearch Serverless-verzamelingseindpunt. Geef de waarden op voor de sleutels binnen de volgende pijplijnconfiguratie:

  • Voor sts_role_arn, geef de Amazon Resource Name (ARN) op van de pijplijnrol die u hebt gemaakt.
  • Voor hostsgeeft u het eindpunt op van de verzameling die u hebt gemaakt.
  • Zet de serverless naar waar.
version: "2"
# 1st pipeline
non-ad-pipeline:
  source:
    http:
      path: "/${pipelineName}/test_ingestion_path"
  processor:
    - date:
        from_time_received: true
        destination: "@timestamp"
  sink:
    - pipeline:
        name: "ad-pipeline"
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        index: "non-ad-index"
        
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
# 2nd pipeline
ad-pipeline:
  source:
    pipeline:
      name: "non-ad-pipeline"
  processor:
    - aggregate:
        identification_keys: ["id"]
        action:
          count:
        group_duration: "300s"
    - anomaly_detector:
        keys: ["value"] # value will have sum of logs
        mode:
          random_cut_forest:
            output_after: 200 
  sink:
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
        index: "ad-anomaly-index"

Voor een gedetailleerde gids over de vereiste parameters en eventuele beperkingen, zie Ondersteunde plug-ins en opties voor Amazon OpenSearch Ingestion-pijplijnen.

  1. Nadat u de configuratie hebt bijgewerkt, bevestigt u de geldigheid van uw pijplijninstellingen door te kiezen Pijplijn valideren.

Bij een succesvolle validatie wordt een bericht weergegeven met de melding "Validatie van pijplijnconfiguratie succesvol.” zoals weergegeven in de volgende schermafbeelding.

Als de validatie mislukt, raadpleeg dan Problemen oplossen met de Amazon OpenSearch-service voor probleemoplossing en begeleiding.

Kostenraming voor OpenSearch Ingestion

U betaalt alleen voor het aantal Opname OpenSearch-rekeneenheden (Ingestie-OCU's) die zijn toegewezen aan een pijplijn, ongeacht of er gegevens door de pijplijn stromen. OpenSearch Ingestion is onmiddellijk geschikt voor uw werklasten door de pijplijncapaciteit naar boven of naar beneden te schalen op basis van gebruik. Voor een overzicht van de uitgaven, zie Amazon OpenSearch-opname.

De volgende tabel toont de geschatte maandelijkse kosten op basis van gespecificeerde doorvoersnelheden en computerbehoeften. Laten we aannemen dat de werking op weekdagen plaatsvindt van 8 uur tot 00 uur, met een kostprijs van $ 8 per OCU per uur.

De formule zou zijn: Totale kosten/maand = OCU-vereiste * OCU-prijs * Uren/dag * Dagen/maand.

Doorvoer Berekening vereist (OCU's) Totale kosten/maand (USD)
1 Gbps 10 576
10 Gbps 100 5760
50 Gbps 500 28800
100 Gbps 1000 57600
500 Gbps 5000 288000

Opruimen

Wanneer u klaar bent met het gebruik van de oplossing, verwijdert u de resources die u hebt gemaakt, inclusief de pijplijnrol, pijplijn en verzameling.

Samengevat

Met OpenSearch Ingestion kunt u in-stream anomaliedetectie verkennen met OpenSearch Service. De use case in dit bericht laat zien hoe OpenSearch Ingestion het proces vereenvoudigt en meer bereikt met minder middelen. Het toont het vermogen van de service om logpercentages te analyseren, afwijkingenmeldingen te genereren en proactieve reacties op afwijkingen mogelijk te maken. Met OpenSearch Ingestion kunt u de operationele efficiëntie verbeteren en de mogelijkheden voor realtime risicobeheer verbeteren.

Laat eventuele gedachten en vragen achter in de reacties.


Over de auteurs

Rupesh Tiwari, een AWS Solutions Architect, is gespecialiseerd in het moderniseren van applicaties met een focus op data-analyse, OpenSearch en generatieve AI. Hij staat bekend om het creëren van schaalbare, veilige oplossingen die gebruik maken van cloudtechnologie voor transformatieve bedrijfsresultaten, waarbij hij ook tijd besteedt aan betrokkenheid van de gemeenschap en het delen van expertise.

Muthu Pitchaimani is een zoekspecialist met Amazon OpenSearch Service. Hij bouwt grootschalige zoekapplicaties en -oplossingen. Muthu is geïnteresseerd in de onderwerpen netwerken en beveiliging en is gevestigd in Austin, Texas.

spot_img

VC Café

LifeSciVC

Laatste intelligentie

VC Café

LifeSciVC

spot_img