제퍼넷 로고

Amazon OpenSearch 수집 및 Amazon OpenSearch Serverless를 통한 인스트림 이상 탐지 | 아마존 웹 서비스

시간

비지도 머신 러닝 분석이 강력한 도구로 등장했습니다. 이상 감지 오늘날의 데이터가 풍부한 환경, 특히 기계 생성 데이터의 양이 증가하는 환경에서. 인스트림 이상 탐지는 데이터 이상에 대한 실시간 통찰력을 제공하여 사전 대응을 가능하게 합니다. Amazon OpenSearch 서버리스 검색 워크로드의 원활한 확장성과 관리를 제공하는 데 중점을 둡니다. Amazon OpenSearch 수집 인덱싱된 데이터에 대한 변칙 검색을 위한 강력한 솔루션을 제공하여 이를 보완합니다.

이 게시물에서는 자체 AWS 환경 내에서 인스트림 이상 탐지를 수행할 수 있도록 지원하는 OpenSearch 수집을 사용하는 솔루션을 제공합니다.

OpenSearch 수집을 통한 인스트림 이상 탐지

OpenSearch Ingestion을 사용하면 스트림 내 이상 탐지 프로세스가 더 저렴하고 간단해집니다. 인스트림 이상 탐지는 인덱싱 비용을 절감하고 빅 데이터를 처리하기 위해 광범위한 리소스가 필요하지 않도록 도와줍니다. 이를 통해 조직은 적절한 시기에 적절한 리소스를 적용하여 대용량 데이터를 효율적으로 관리하고 비용을 절약할 수 있습니다. 피어 전달자와 집계 프로세서를 사용하면 작업이 더 복잡해지고 비용이 많이 들 수 있습니다. OpenSearch 수집은 이러한 문제를 줄여줍니다.

인스트림 이상 탐지를 위한 OpenSearch 수집 구성 YAML을 보여주는 사용 사례를 살펴보겠습니다.

솔루션 개요

이 예에서는 5분 이내에 로그 수를 모니터링하기 위해 무작위 컷 포리스트 이상 탐지기를 사용하여 OpenSearch 수집 설정을 안내합니다. 또한 원시 로그를 색인화하여 들어오는 데이터 흐름에 대한 포괄적인 데모를 제공합니다. 사용 사례에 원시 로그 분석이 필요한 경우 초기 파이프라인을 우회하고 인스트림 이상 감지에 직접 집중하여 식별된 이상 항목만 인덱싱하여 프로세스를 간소화할 수 있습니다.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

구성에는 두 개의 OpenSearch 수집 파이프라인이 간략하게 설명되어 있습니다. 첫 번째 비광고 파이프라인은 HTTP 데이터를 수집하고 타임스탬프를 지정한 다음 이를 광고 파이프라인과 OpenSearch 인덱스인 비광고 인덱스에 전달합니다. 두 번째인 ad-pipeline은 이 데이터를 받아 5분 이내에 ID를 기반으로 집계를 수행하고 이상 탐지를 수행합니다. 결과는 ad-anomaly-index 인덱스에 저장됩니다. 이 설정은 OpenSearch Service 내의 데이터 처리, 이상 탐지 및 저장을 보여주며 분석 기능을 향상시킵니다.

솔루션 구현

솔루션을 설정하려면 다음 단계를 완료하세요.

  1. 파이프라인 역할 생성.
  2. 컬렉션 만들기.
  3. 파이프라인 만들기 파이프라인 역할을 지정합니다.

파이프라인은 OpenSearch Serverless 컬렉션 엔드포인트에 대한 요청에 서명하기 위해 이 역할을 맡습니다. 다음 파이프라인 구성 내에서 키 값을 지정합니다.

  • 럭셔리 sts_role_arn에서 생성한 파이프라인 역할의 Amazon 리소스 이름(ARN)을 지정합니다.
  • 럭셔리 hosts에서 생성한 컬렉션의 엔드포인트를 지정합니다.
  • 세트 serverless 사실로.
version: "2"
# 1st pipeline
non-ad-pipeline:
  source:
    http:
      path: "/${pipelineName}/test_ingestion_path"
  processor:
    - date:
        from_time_received: true
        destination: "@timestamp"
  sink:
    - pipeline:
        name: "ad-pipeline"
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        index: "non-ad-index"
        
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
# 2nd pipeline
ad-pipeline:
  source:
    pipeline:
      name: "non-ad-pipeline"
  processor:
    - aggregate:
        identification_keys: ["id"]
        action:
          count:
        group_duration: "300s"
    - anomaly_detector:
        keys: ["value"] # value will have sum of logs
        mode:
          random_cut_forest:
            output_after: 200 
  sink:
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
        index: "ad-anomaly-index"

필수 매개변수 및 제한사항에 대한 자세한 안내는 다음을 참조하세요. Amazon OpenSearch 수집 파이프라인에 지원되는 플러그인 및 옵션.

  1. 구성을 업데이트한 후 다음을 선택하여 파이프라인 설정의 유효성을 확인합니다. 파이프라인 검증.

유효성 검사가 성공하면 다음과 같은 메시지가 표시됩니다. "파이프라인 구성 검증에 성공했습니다.” 다음 스크린샷과 같이.

유효성 검사에 실패하면 다음을 참조하세요. Amazon OpenSearch 서비스 문제 해결 문제 해결 및 안내를 위해.

OpenSearch 수집에 대한 비용 추정

횟수만큼만 요금이 청구됩니다. OpenSearch 컴퓨팅 단위 수집 (수집 OCU) 파이프라인을 통해 흐르는 데이터가 있는지 여부에 관계없이 파이프라인에 할당됩니다. OpenSearch 수집은 사용량에 따라 파이프라인 용량을 늘리거나 줄여 워크로드를 즉시 수용합니다. 지출 개요는 다음을 참조하세요. Amazon OpenSearch 수집.

다음 표에는 지정된 처리량 및 컴퓨팅 요구 사항을 기준으로 한 대략적인 월별 비용이 나와 있습니다. 작업이 평일 오전 8시부터 오후 00시까지 발생하고 비용은 시간당 OCU당 8달러라고 가정해 보겠습니다.

공식은 다음과 같습니다. 총 비용/월 = OCU 요구 사항 * OCU 가격 * 시간/일 * 일/월.

처리량 컴퓨팅 필요(OCU) 총 비용/월(USD)
1Gbps 10 576
10Gbps 100 5760
50Gbps 500 28800
100Gbps 1000 57600
500Gbps 5000 288000

정리

솔루션 사용을 마쳤으면 파이프라인 역할, 파이프라인 및 컬렉션을 포함하여 생성한 리소스를 삭제합니다.

요약

OpenSearch 수집을 사용하면 OpenSearch 서비스를 통해 인스트림 이상 탐지를 탐색할 수 있습니다. 이 게시물의 사용 사례는 OpenSearch Ingestion이 프로세스를 단순화하여 더 적은 리소스로 더 많은 것을 달성하는 방법을 보여줍니다. 로그 속도를 분석하고, 이상 알림을 생성하고, 이상에 대한 사전 대응을 강화하는 서비스의 기능을 보여줍니다. OpenSearch Ingestion을 사용하면 운영 효율성을 향상하고 실시간 위험 관리 기능을 향상할 수 있습니다.

의견이나 질문을 댓글로 남겨주세요.


저자에 관하여

루페시 티와리AWS 솔루션스 아키텍트인 은 데이터 분석, OpenSearch 및 생성 AI에 중점을 두고 애플리케이션 현대화를 전문으로 합니다. 그는 혁신적인 비즈니스 결과를 위해 클라우드 기술을 활용하는 확장 가능하고 안전한 솔루션을 만들고 커뮤니티 참여 및 전문 지식 공유에 시간을 할애하는 것으로 유명합니다.

무투 피차이마니 Amazon OpenSearch Service의 검색 전문가입니다. 그는 대규모 검색 애플리케이션 및 솔루션을 구축합니다. Muthu는 네트워킹 및 보안 주제에 관심이 있으며 텍사스 오스틴에 기반을 두고 있습니다.

spot_img

최신 인텔리전스

spot_img