Logo Zephyrnet

Phát hiện sự bất thường trong luồng với Amazon OpenSearch Ingestion và Amazon OpenSearch Serverless | Dịch vụ web của Amazon

Ngày:

Học máy không giám sát phân tích đã nổi lên như một công cụ mạnh mẽ để phát hiện bất thường trong bối cảnh giàu dữ liệu ngày nay, đặc biệt là với khối lượng dữ liệu do máy tạo ra ngày càng tăng. Tính năng phát hiện điểm bất thường trong luồng cung cấp thông tin chi tiết theo thời gian thực về các điểm bất thường trong dữ liệu, cho phép phản hồi chủ động. Amazon OpenSearch Serverless tập trung vào việc cung cấp khả năng mở rộng liền mạch và quản lý khối lượng công việc tìm kiếm; Nhập liệu Amazon OpenSearch bổ sung điều này bằng cách cung cấp một giải pháp mạnh mẽ để phát hiện sự bất thường trên dữ liệu được lập chỉ mục.

Trong bài đăng này, chúng tôi cung cấp giải pháp sử dụng OpenSearch Ingestion cho phép bạn thực hiện phát hiện điểm bất thường trong luồng trong môi trường AWS của riêng bạn.

Phát hiện điểm bất thường trong luồng bằng tính năng Nhập OpenSearch

OpenSearch Ingestion giúp quá trình phát hiện điểm bất thường trong luồng trở nên đơn giản và ít tốn kém hơn. Tính năng phát hiện điểm bất thường trong luồng giúp bạn tiết kiệm chi phí lập chỉ mục và tránh phải sử dụng nhiều tài nguyên để xử lý dữ liệu lớn. Nó cho phép các tổ chức áp dụng các nguồn lực thích hợp vào thời điểm thích hợp, quản lý dữ liệu lớn một cách hiệu quả và tiết kiệm tiền. Việc sử dụng các bộ chuyển tiếp ngang hàng và bộ xử lý tổng hợp có thể khiến mọi việc trở nên phức tạp và tốn kém hơn; OpenSearch Ingestion làm giảm những vấn đề này.

Hãy xem xét một trường hợp sử dụng hiển thị YAML cấu hình Truyền dẫn OpenSearch để phát hiện điểm bất thường trong luồng.

Tổng quan về giải pháp

Trong ví dụ này, chúng ta sẽ hướng dẫn cách thiết lập Nhập OpenSearch bằng cách sử dụng trình phát hiện điểm bất thường trong rừng bị cắt ngẫu nhiên để theo dõi số lượng nhật ký trong khoảng thời gian 5 phút. Chúng tôi cũng lập chỉ mục các nhật ký thô để cung cấp minh họa toàn diện về luồng dữ liệu đến. Nếu trường hợp sử dụng của bạn yêu cầu phân tích nhật ký thô, bạn có thể hợp lý hóa quy trình bằng cách bỏ qua quy trình ban đầu và tập trung trực tiếp vào việc phát hiện điểm bất thường trong luồng, chỉ lập chỉ mục những điểm bất thường đã xác định.

Sơ đồ sau minh họa kiến ​​trúc giải pháp của chúng tôi.

Cấu hình phác thảo hai quy trình Nhập liệu OpenSearch. Đầu tiên, không phải đường ống quảng cáo, nhập dữ liệu HTTP, đánh dấu thời gian và chuyển tiếp dữ liệu đó đến cả đường ống quảng cáo và chỉ mục OpenSearch, không phải chỉ mục quảng cáo. Thứ hai, đường ống quảng cáo, nhận dữ liệu này, thực hiện tổng hợp dựa trên ID trong khoảng thời gian 5 phút và tiến hành phát hiện sự bất thường. Kết quả được lưu trữ trong chỉ mục ad-anomaly-index. Thiết lập này thể hiện khả năng xử lý dữ liệu, phát hiện và lưu trữ bất thường trong Dịch vụ OpenSearch, nâng cao khả năng phân tích.

Thực hiện giải pháp

Hoàn tất các bước sau để thiết lập giải pháp:

  1. Tạo vai trò đường dẫn.
  2. Tạo một bộ sưu tập.
  3. Tạo một đường ống trong đó bạn chỉ định vai trò đường dẫn.

Quy trình đảm nhận vai trò này để ký các yêu cầu tới điểm cuối của bộ sưu tập OpenSearch Serverless. Chỉ định các giá trị cho các khóa trong cấu hình đường dẫn sau:

  • Trong sts_role_arn, chỉ định Tên tài nguyên Amazon (ARN) của vai trò quy trình mà bạn đã tạo.
  • Trong hosts, chỉ định điểm cuối của bộ sưu tập mà bạn đã tạo.
  • Thiết lập serverless thành sự thật.
version: "2"
# 1st pipeline
non-ad-pipeline:
  source:
    http:
      path: "/${pipelineName}/test_ingestion_path"
  processor:
    - date:
        from_time_received: true
        destination: "@timestamp"
  sink:
    - pipeline:
        name: "ad-pipeline"
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        index: "non-ad-index"
        
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
# 2nd pipeline
ad-pipeline:
  source:
    pipeline:
      name: "non-ad-pipeline"
  processor:
    - aggregate:
        identification_keys: ["id"]
        action:
          count:
        group_duration: "300s"
    - anomaly_detector:
        keys: ["value"] # value will have sum of logs
        mode:
          random_cut_forest:
            output_after: 200 
  sink:
    - opensearch:
        hosts:
          [
            "https://{collection-id}.us-east-1.aoss.amazonaws.com",
          ]
        aws:
          sts_role_arn: "arn:aws:iam::{account-id}:role/pipeline-role"
          region: "us-east-1"
          serverless: true
        index: "ad-anomaly-index"

Để biết hướng dẫn chi tiết về các tham số bắt buộc và mọi hạn chế, hãy xem Các plugin và tùy chọn được hỗ trợ cho đường dẫn Nhập Amazon OpenSearch.

  1. Sau khi bạn cập nhật cấu hình, hãy xác nhận tính hợp lệ của cài đặt quy trình của bạn bằng cách chọn Xác thực đường ống.

Xác thực thành công sẽ hiển thị thông báo cho biết "Xác thực cấu hình đường ống thành công.” như thể hiện trong ảnh chụp màn hình sau đây.

Nếu xác thực không thành công, hãy tham khảo Khắc phục sự cố Dịch vụ Amazon OpenSearch để được hướng dẫn và khắc phục sự cố.

Ước tính chi phí cho việc nhập OpenSearch

Bạn chỉ bị tính phí cho số lượng Nhập đơn vị tính toán OpenSearch (OCU truyền tải) được phân bổ cho một đường ống, bất kể có dữ liệu đi qua đường ống hay không. OpenSearch Ingestion ngay lập tức điều chỉnh khối lượng công việc của bạn bằng cách tăng hoặc giảm công suất quy trình dựa trên mức sử dụng. Để biết tổng quan về chi phí, hãy tham khảo Nhập liệu Amazon OpenSearch.

Bảng sau đây hiển thị chi phí ước tính hàng tháng dựa trên thông lượng được chỉ định và nhu cầu điện toán. Giả sử hoạt động diễn ra từ 8:00 sáng đến 8:00 tối các ngày trong tuần, với chi phí là 0.24 USD mỗi OCU mỗi giờ.

Công thức sẽ là: Tổng chi phí/Tháng = Yêu cầu OCU * Giá OCU * Số giờ/Ngày * Ngày/Tháng.

Thông lượng Yêu cầu tính toán (OCU) Tổng chi phí/tháng (USD)
1 Gbps 10 576
10 Gbps 100 5760
50 Gbps 500 28800
100 Gbps 1000 57600
500 Gbps 5000 288000

Làm sạch

Khi bạn sử dụng xong giải pháp, hãy xóa các tài nguyên bạn đã tạo, bao gồm vai trò quy trình, quy trình và bộ sưu tập.

Tổng kết

Với tính năng Nhập OpenSearch, bạn có thể khám phá tính năng phát hiện điểm bất thường trong luồng bằng Dịch vụ OpenSearch. Trường hợp sử dụng trong bài đăng này minh họa cách OpenSearch Ingestion đơn giản hóa quy trình, đạt được nhiều thành tựu hơn với ít tài nguyên hơn. Nó thể hiện khả năng của dịch vụ trong việc phân tích tốc độ ghi nhật ký, tạo thông báo bất thường và trao quyền phản hồi chủ động đối với các điểm bất thường. Với OpenSearch Ingestion, bạn có thể cải thiện hiệu quả hoạt động và nâng cao khả năng quản lý rủi ro theo thời gian thực.

Để lại bất kỳ suy nghĩ và câu hỏi trong các ý kiến.


Về các tác giả

Rupesh Tiwari, Kiến trúc sư giải pháp AWS, chuyên hiện đại hóa các ứng dụng, tập trung vào phân tích dữ liệu, Tìm kiếm mở và AI tổng hợp. Ông nổi tiếng với việc tạo ra các giải pháp an toàn, có thể mở rộng, tận dụng công nghệ đám mây để mang lại kết quả kinh doanh mang tính thay đổi, đồng thời dành thời gian để gắn kết cộng đồng và chia sẻ kiến ​​thức chuyên môn.

Muthu Pitchaimani là Chuyên gia tìm kiếm với Dịch vụ tìm kiếm mở của Amazon. Anh xây dựng các giải pháp và ứng dụng tìm kiếm quy mô lớn. Muthu quan tâm đến các chủ đề về mạng và bảo mật, và có trụ sở tại Austin, Texas.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img