Xây dựng và triển khai các trình kết nối tùy chỉnh cho Amazon Redshift với Amazon Lookout For Metrics

Amazon Lookout cho số liệu phát hiện các ngoại lệ trong dữ liệu chuỗi thời gian của bạn, xác định nguyên nhân gốc rễ của chúng và cho phép bạn nhanh chóng thực hiện hành động. Được xây dựng từ cùng một công nghệ được sử dụng bởi Amazon.com, Lookout for Metrics phản ánh 20 năm chuyên môn trong lĩnh vực phát hiện ngoại lệ và học máy (ML). Đọc của chúng tôi Repo GitHub để tìm hiểu thêm về cách suy nghĩ về dữ liệu của bạn khi thiết lập trình phát hiện bất thường.

Trong bài đăng này, chúng tôi thảo luận về cách xây dựng và triển khai các trình kết nối tùy chỉnh cho Amazon RedShift bằng cách sử dụng Lookout for Metrics.

Giới thiệu về dữ liệu chuỗi thời gian

Bạn có thể sử dụng dữ liệu chuỗi thời gian để đo lường và theo dõi bất kỳ giá trị nào dịch chuyển từ thời điểm này sang thời điểm khác. Một ví dụ đơn giản là giá cổ phiếu trong một khoảng thời gian nhất định hoặc số lượng khách hàng nhìn thấy mỗi ngày trong nhà để xe. Bạn có thể sử dụng các giá trị này để phát hiện các xu hướng và kiểu mẫu và đưa ra quyết định tốt hơn về các sự kiện có thể xảy ra trong tương lai. Lookout for Metrics cho phép bạn cấu trúc dữ liệu quan trọng thành định dạng bảng (như bảng tính hoặc bảng cơ sở dữ liệu), để cung cấp các giá trị lịch sử để học hỏi và cung cấp các giá trị liên tục của dữ liệu.

Kết nối dữ liệu của bạn với Lookout for Metrics

Kể từ khi ra mắt, Lookout for Metrics đã hỗ trợ cung cấp dữ liệu từ các dịch vụ AWS sau:

amazoncloudwatch
Amazon RedShift
Dịch vụ cơ sở dữ liệu quan hệ của Amazon (RDS của Amazon)
Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3)

Nó cũng hỗ trợ các nguồn dữ liệu bên ngoài như Salesforce, Marketo, Dynatrace, ServiceNow, Google Analytics và Amp biên độ, tất cả đều thông qua Luồng ứng dụng Amazon.

Tất cả các trình kết nối này đều hỗ trợ cung cấp liên tục dữ liệu mới tới Lookout for Metrics để tìm hiểu cách xây dựng mô hình phát hiện bất thường.

Các trình kết nối gốc là một lựa chọn hiệu quả để bắt đầu nhanh chóng với CloudWatch, Amazon S3 và thông qua Amazon AppFlow cho các dịch vụ bên ngoài. Ngoài ra, những điều này hoạt động hiệu quả cho dữ liệu hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) của bạn nếu bạn đã lưu trữ thông tin của mình trong một bảng số ít hoặc bạn có thể tạo một thủ tục để điền và duy trì bảng đó về sau.

Khi nào sử dụng trình kết nối tùy chỉnh

Trong trường hợp bạn muốn linh hoạt hơn, bạn có thể sử dụng trình kết nối tùy chỉnh Lookout for Metrics. Nếu dữ liệu của bạn ở trạng thái yêu cầu quá trình trích xuất, chuyển đổi và tải (ETL), chẳng hạn như kết hợp từ nhiều bảng, chuyển đổi một chuỗi giá trị thành một tổng hợp hoặc thực hiện bất kỳ quá trình hậu xử lý phức tạp nào trước khi phân phối dữ liệu đến Lookout for Metrics , bạn có thể sử dụng các trình kết nối tùy chỉnh. Ngoài ra, nếu bạn đang bắt đầu với dữ liệu trong RDBMS và bạn muốn cung cấp một mẫu lịch sử cho Lookout for Metrics để học từ đầu tiên, bạn nên sử dụng trình kết nối tùy chỉnh. Điều này cho phép bạn cung cấp một lượng lớn lịch sử trước tiên, bỏ qua bắt đầu lạnh yêu cầu và đạt được mô hình chất lượng cao hơn sớm hơn.

Đối với bài đăng này, chúng tôi sử dụng Amazon Redshift làm RDBMS của mình, nhưng bạn có thể sửa đổi cách tiếp cận này cho các hệ thống khác.

Bạn nên sử dụng trình kết nối tùy chỉnh trong các trường hợp sau:

Dữ liệu của bạn được trải rộng trên nhiều bảng
Bạn cần thực hiện các phép tính hoặc phép biến đổi phức tạp hơn trước khi nó phù hợp với cấu hình của máy dò
Bạn muốn sử dụng tất cả dữ liệu lịch sử của mình để đào tạo máy dò của bạn

Để bắt đầu nhanh hơn, bạn có thể sử dụng các trình kết nối tích hợp trong các trường hợp sau:

Dữ liệu của bạn tồn tại trong một bảng số ít chỉ chứa thông tin được sử dụng bởi trình phát hiện bất thường của bạn
Bạn cảm thấy thoải mái khi sử dụng dữ liệu lịch sử của mình và sau đó chờ đợi thời kỳ bắt đầu lạnh trôi qua trước khi bắt đầu phát hiện điều bất thường

Tổng quan về giải pháp

Tất cả nội dung thảo luận trong bài đăng này được lưu trữ trên Repo GitHub.

Đối với bài đăng này, chúng tôi giả định rằng bạn đang lưu trữ dữ liệu của mình trong Amazon Redshift qua một vài bảng và bạn muốn kết nối nó với Lookout for Metrics để phát hiện bất thường.

Sơ đồ sau minh họa kiến trúc giải pháp của chúng tôi.

giải pháp xây dựng

Ở cấp độ cao, chúng tôi bắt đầu với Hình thành đám mây AWS mẫu triển khai các thành phần sau:

An Amazon SageMaker phiên bản máy tính xách tay triển khai giải pháp kết nối tùy chỉnh.
An Chức năng bước AWS quy trình làm việc. Bước đầu tiên thực hiện thu thập dữ liệu lịch sử dữ liệu của bạn; thứ hai định cấu hình trình phát hiện của bạn (mô hình được đào tạo và điểm cuối cho Lookout for Metrics).
Một thùng S3 để chứa tất cả AWS Lambda các chức năng như được triển khai (bị bỏ qua khỏi sơ đồ kiến trúc).
Một bộ chứa S3 để chứa tất cả dữ liệu lịch sử và liên tục của bạn.
Mẫu CloudFormation và chức năng Lambda bắt đầu thu thập dữ liệu của bạn theo lịch trình.

Để sửa đổi giải pháp này cho phù hợp với môi trường của riêng bạn, hãy cập nhật thông tin sau:

Mẫu cấu hình JSON mô tả cách dữ liệu của bạn trông như thế nào trong Lookout for Metrics và tên của Quản lý bí mật AWS vị trí được sử dụng để truy xuất thông tin xác thực.
Truy vấn SQL truy xuất dữ liệu lịch sử của bạn.
Truy vấn SQL truy xuất dữ liệu liên tục của bạn.

Sau khi bạn sửa đổi các thành phần đó, bạn có thể triển khai mẫu và thiết lập và chạy trong vòng một giờ.

Triển khai giải pháp

Để làm cho giải pháp này có thể khám phá từ đầu đến cuối, chúng tôi đã bao gồm mẫu CloudFormation triển khai một cụm Amazon Redshift giống như sản xuất. Nó được tải với dữ liệu mẫu để thử nghiệm với Lookout for Metrics. Đây là tập dữ liệu thương mại điện tử mẫu dự kiến khoảng 2 năm tới kể từ khi xuất bản bài đăng này.

Tạo cụm Amazon Redshift của bạn

Triển khai mẫu được cung cấp để tạo các tài nguyên sau trong tài khoản của bạn:

Một cụm Amazon Redshift bên trong VPC
Trình quản lý bí mật để xác thực
Một phiên bản sổ ghi chép SageMaker chạy tất cả các quy trình thiết lập cho cơ sở dữ liệu Amazon Redshift và tải tập dữ liệu ban đầu
Một nhóm S3 được sử dụng để tải dữ liệu vào Amazon Redshift

Sơ đồ sau đây minh họa cách các thành phần này hoạt động cùng nhau.

Thiết lập Redshift Sản xuất

Chúng tôi cung cấp cho Trình quản lý bí mật thông tin xác thực cho cơ sở dữ liệu của bạn, thông tin này được chuyển tới chính sách vòng đời của sổ ghi chép SageMaker chạy khi khởi động. Sau khi khởi động, tính năng tự động hóa sẽ tạo các bảng bên trong cụm Amazon Redshift của bạn và tải dữ liệu từ Amazon S3 vào cụm để sử dụng với trình kết nối tùy chỉnh của chúng tôi.

Để triển khai các tài nguyên này, hãy hoàn thành các bước sau:

Chọn Khởi chạy Stack:
Chọn Sau.
Để các chi tiết ngăn xếp ở chế độ mặc định và chọn Sau một lần nữa.
Để các tùy chọn ngăn xếp ở chế độ mặc định và chọn Sau một lần nữa.

Chọn Tôi xác nhận rằng AWS CloudFormation có thể tạo tài nguyên IAM, sau đó chọn Tạo ngăn xếp.

Công việc mất một vài phút để hoàn thành. Bạn có thể theo dõi tiến trình của nó trên bảng điều khiển AWS CloudFormation.

Trạng thái đám mây

Khi trạng thái thay đổi thành CREATE_COMPLETE, bạn đã sẵn sàng triển khai phần còn lại của giải pháp.

Hoàn thành ngăn xếp

Cấu trúc dữ liệu

Chúng tôi đã lấy tập dữ liệu thương mại điện tử tiêu chuẩn của mình và chia nó thành ba bảng cụ thể để chúng tôi có thể kết hợp chúng sau này thông qua trình kết nối tùy chỉnh. Trong tất cả các xác suất, dữ liệu của bạn được trải rộng trên các bảng khác nhau và cần được chuẩn hóa theo cách tương tự.

Bảng đầu tiên cho biết nền tảng của người dùng, (loại thiết bị mà người dùng đang sử dụng, chẳng hạn như điện thoại hoặc trình duyệt web).

ID	Họ tên
1	pc_web

Bảng tiếp theo cho biết thị trường của chúng tôi (nơi người dùng ở).

ID	Họ tên
1	JP

Bảng thương mại điện tử của chúng tôi hiển thị tổng giá trị cho lượt xem và doanh thu tại thời điểm này.

ID	TS	Nền tảng	Chợ	Lượt xem	lợi tức
1	01/10/2022 10:00:00	1	1	90	2458.90

Khi chúng tôi chạy các truy vấn sau đó trong bài đăng này, chúng đang dựa trên cơ sở dữ liệu có cấu trúc này.

Triển khai trình kết nối tùy chỉnh

Sau khi bạn triển khai mẫu trước đó, hãy hoàn thành các bước sau để triển khai trình kết nối tùy chỉnh:

Trên bảng điều khiển AWS CloudFormation, điều hướng đến Kết quả đầu ra tab của mẫu bạn đã triển khai trước đó.
Lưu ý giá trị của RedshiftCluster và RedshiftSecret, sau đó lưu chúng vào một tệp tạm thời để sử dụng sau này.
Chọn Khởi chạy ngăn xếp để triển khai tài nguyên của bạn với AWS CloudFormation:
Chọn Sau.
Cập nhật giá trị cho RedshiftCluster và RedshiftSecret với thông tin bạn đã sao chép trước đó.
Chọn Sau.
Để các tùy chọn ngăn xếp ở chế độ mặc định và chọn Sau.
Chọn Tôi xác nhận rằng AWS CloudFormation có thể tạo tài nguyên IAM, sau đó chọn Tạo ngăn xếp.

Quá trình này mất 30–40 phút để hoàn thành, sau đó bạn có một giải pháp được triển khai đầy đủ với môi trường demo.

Xem máy phát hiện bất thường của bạn

Sau khi triển khai giải pháp, bạn có thể xác định vị trí máy dò của mình và xem xét bất kỳ điểm bất thường nào được tìm thấy.

Đăng nhập vào bảng điều khiển Lookout for Metrics trong us-east-1.
Trong ngăn dẫn hướng, chọn Máy dò.

Sản phẩm Máy dò trang liệt kê tất cả các máy dò đang hoạt động của bạn.

Chọn máy dò l4m-custom-redshift-connector-detector.

Giờ đây, bạn có thể xem cấu hình máy dò của mình, định cấu hình cảnh báo và xem xét các điểm bất thường.

Để xem các điểm bất thường, hãy chọn Bất thường trong trang điều hướng hoặc chọn Xem các điểm bất thường trên trang máy dò.
Xem liên kết dị thường

Sau một khoảng thời gian, thường là không quá vài ngày, bạn sẽ thấy danh sách các điểm bất thường trên trang này. Bạn có thể khám phá chúng chuyên sâu để xem dữ liệu được cung cấp có vẻ bất thường như thế nào. Nếu bạn đã cung cấp tập dữ liệu của riêng mình, thì các điểm bất thường có thể chỉ hiển thị sau một sự kiện bất thường.

Danh sách dị thường

Bây giờ bạn đã triển khai và chạy giải pháp, hãy thảo luận sâu hơn về cách thức hoạt động của trình kết nối này.

Cách hoạt động của trình kết nối tùy chỉnh

Trong phần này, chúng tôi thảo luận về các thành phần cốt lõi của trình kết nối. Chúng tôi cũng trình bày cách tạo trình kết nối tùy chỉnh, xác thực với Amazon Redshift, sửa đổi truy vấn và sửa đổi bộ phát hiện và tập dữ liệu.

Thành phần cốt lõi

Bạn có thể chạy các thành phần sau và sửa đổi chúng để hỗ trợ nhu cầu dữ liệu của mình:

ai_ops/params.json - Tệp cấu hình cho tất cả các bước Chức năng Bước và bộ dò.
ai_ops/l4m-redshift-solution.yaml - Mẫu CloudFormation để triển khai giải pháp.
ai_ops/template.yaml - Mẫu CloudFormation cho một Mô hình ứng dụng không có máy chủ AWS (AWS SAM) ứng dụng triển khai chức năng Lambda dữ liệu lịch sử và chức năng tạo và kích hoạt máy dò.
ai_ops/lambdas/redshift/redshift-historical-crawl - Chức năng Lambda để thu thập tất cả dữ liệu lịch sử.
ai_ops/lambdas/redshift/redshift-continuous-crawl - Chức năng Lambda để thu thập dữ liệu liên tục.
ai_ops/l4m-redshift-continuous-crawl.yaml - Mẫu CloudFormation cho ứng dụng AWS SAM thiết lập tần suất chạy của Lambda thu thập thông tin liên tục và triển khai nó.

Khi bạn triển khai ai_ops/l4m-redshift-solution.yaml, nó tạo ra những thứ sau:

Một thùng S3 để lưu trữ tất cả các hàm Lambda.
Một vai trò cho sổ ghi chép SageMaker có quyền truy cập để sửa đổi tất cả các tài nguyên có liên quan.
Cấu hình vòng đời sổ ghi chép SageMaker chứa tập lệnh khởi động để sao chép tất cả tự động hóa vào sổ ghi chép và quản lý tệp params.json. Và chạy tập lệnh shell (ai_ops/deploy_custom_connector.sh) để triển khai các ứng dụng AWS SAM và cập nhật thêm params.json tập tin.

ai_ops/deploy_custom_connector.sh bắt đầu bằng cách triển khai ai_ops / template.yaml, tạo ra như sau:

Một thùng S3 để lưu trữ params.json tệp và tất cả dữ liệu đầu vào cho Lookout for Metrics.
Chính sách nhóm S3 để cho phép Lookout for Metrics giao tiếp với Amazon S3.
Một hàm Lambda được gọi trên thùng khi params.json tệp được tải lên và khởi động máy trạng thái Chức năng Bước.
An Quản lý truy cập và nhận dạng AWS (IAM) vai trò để chạy máy trạng thái.
Một lớp Lambda được chia sẻ các chức năng hỗ trợ.
Vai trò của Lookout for Metrics để truy cập dữ liệu trong Amazon S3.
Một chức năng Lambda để thu thập thông tin tất cả dữ liệu lịch sử.
Một chức năng Lambda để tạo và kích hoạt trình dò tìm Chỉ số.
Máy trạng thái quản lý luồng giữa việc tạo tập dữ liệu lịch sử đó và bộ phát hiện.

Sau ai_ops/deploy_custom_connector.sh tạo ra lô mặt hàng đầu tiên, nó cập nhật params.json gửi thông tin liên quan mới từ máy dò và các vai trò IAM. Nó cũng sửa đổi cụm Amazon Redshift để cho phép vai trò mới của Lookout for Metrics giao tiếp với cụm. Sau khi ngủ trong 30 giây để tạo điều kiện cho việc truyền IAM, tập lệnh sao chép params.json tệp vào nhóm S3, gọi máy trạng thái đã được triển khai.

Sau đó, tập lệnh triển khai một ứng dụng AWS SAM khác được xác định trong l4m-redshift-continuous-crawl.yaml. Ứng dụng đơn giản này xác định và triển khai trình kích hoạt sự kiện để bắt đầu thu thập dữ liệu trực tiếp theo lịch trình (ví dụ: hàng giờ) và một hàm Lambda thực hiện thu thập thông tin.

Cả dữ liệu được thu thập thông tin trước đây và dữ liệu được thu thập thông tin liên tục đều nằm trong cùng một nhóm S3. Lookout for Metrics sử dụng thông tin đầu tiên để đào tạo, sau đó là dữ liệu suy luận, nơi nó được kiểm tra xem có bất thường khi nó đến.

Mỗi hàm Lambda cũng chứa một query.sql tập tin mà p
cung cấp truy vấn cơ sở được chuyển cho Amazon Redshift. Sau đó, các chức năng này sẽ thêm UNLOAD vào từng truy vấn và gửi dữ liệu tới Amazon S3 qua CSV.

Tạo trình kết nối tùy chỉnh

Bắt đầu bằng cách chuyển kho lưu trữ này vào tài khoản của riêng bạn hoặc tải xuống một bản sao để phát triển riêng tư. Khi thực hiện các thay đổi đáng kể, hãy đảm bảo rằng các tham chiếu đến kho lưu trữ cụ thể này trong các tệp sau được cập nhật và trỏ đến các điểm cuối có thể truy cập công khai cho Git:

README.md - Tệp này, đặc biệt là Khởi chạy ngăn xếp các nút, giả sử bạn đang sử dụng phiên bản trực tiếp mà bạn chỉ thấy trong kho lưu trữ này
ai_ops/l4m-redshift-solution.yaml - Trong mẫu này, cấu hình vòng đời máy tính xách tay Jupyter xác định kho lưu trữ để sao chép (triển khai trình kết nối tùy chỉnh)
sample_resources/redshift/l4m-redshift-sagemakernotebook.yaml - Trong mẫu này, cấu hình vòng đời Amazon SageMaker Notebook xác định kho lưu trữ để sao chép (triển khai ví dụ Amazon Redshift sản xuất).

Xác thực với Amazon Redshift

Khi khám phá cách mở rộng điều này vào môi trường của riêng bạn, điều đầu tiên cần xem xét là xác thực cho cụm Amazon Redshift của bạn. Bạn có thể thực hiện điều này bằng cách sử dụng API dữ liệu Redshift của Amazon và bằng cách lưu trữ thông tin đăng nhập bên trong Quản lý bí mật AWS r.

Trong Trình quản lý bí mật, giải pháp này tìm kiếm tên bí mật đã biết là redshift-l4mintegration và chứa cấu trúc JSON như sau:

{ "password": "DB_PASSWORD", "username": "DB_USERNAME", "dbClusterIdentifier": "REDSHIFT_CLUSTER_ID", "db": "DB_NAME", "host": "REDSHIFT_HOST", "port": 8192
}

Nếu bạn muốn sử dụng tên bí mật khác với tên được cung cấp, bạn cần cập nhật giá trị trong ai_ops/l4m-redshift-solution.yaml. Nếu bạn muốn thay đổi tên của các tham số khác, bạn cần tìm kiếm chúng trong kho lưu trữ và cập nhật các tham chiếu của chúng cho phù hợp.

Sửa đổi các truy vấn thành Amazon Redshift

Giải pháp này sử dụng API dữ liệu Redshift của Amazon để cho phép các truy vấn có thể chạy không đồng bộ từ ứng dụng khách đang gọi chúng.

Cụ thể, nó cho phép một hàm Lambda bắt đầu một truy vấn với cơ sở dữ liệu và sau đó cho phép công cụ DB quản lý mọi thứ, bao gồm cả việc ghi dữ liệu ở định dạng mong muốn vào Amazon S3. Bởi vì chúng tôi để công cụ DB xử lý điều này, chúng tôi đơn giản hóa các hoạt động của các hàm Lambda của chúng tôi và không phải lo lắng về giới hạn thời gian chạy. Nếu bạn muốn thực hiện các chuyển đổi phức tạp hơn, bạn có thể muốn xây dựng thêm các ứng dụng AWS SAM dựa trên Chức năng Bước để xử lý công việc đó, thậm chí có thể sử dụng các vùng chứa Docker trên Lambda.

Đối với hầu hết các sửa đổi, bạn có thể chỉnh sửa các tệp truy vấn được lưu trữ trong hai hàm Lambda được cung cấp:

Hãy chú ý đến việc thu thập thông tin liên tục để đảm bảo rằng phạm vi ngày trùng với khoảng thời gian phát hiện mong muốn của bạn. Ví dụ:

select ecommerce.ts as timestamp, ecommerce.views, ecommerce.revenue, platform.name as platform, marketplace.name as marketplace
from ecommerce, platform, marketplace
where ecommerce.platform = platform.id and ecommerce.marketplace = marketplace.id and ecommerce.ts < DATEADD(hour, 0, getdate()) and ecommerce.ts > DATEADD(hour, -1, getdate())

Đoạn mã trước là chức năng thu thập thông tin liên tục demo của chúng tôi và sử dụng chức năng DATEADD để tính toán dữ liệu trong một giờ qua. Cùng với trình kích hoạt Sự kiện CloudWatch lên lịch chức năng này hàng giờ, nó cho phép chúng tôi truyền dữ liệu đến Lookout for Metrics một cách đáng tin cậy.

Công việc được xác định trong query.sql tệp chỉ là một phần của truy vấn được tính toán cuối cùng. Truy vấn đầy đủ được tạo bởi các tệp Python tương ứng trong mỗi thư mục và thêm vào các phần sau:

Vai trò IAM để Amazon Redshift sử dụng cho truy vấn
Thông tin thùng S3 cho vị trí đặt tệp
Đã xác định xuất tệp CSV

Nó trông giống như mã sau:

unload ('select ecommerce.ts as timestamp, ecommerce.views, ecommerce.revenue, platform.name as platform, marketplace.name as marketplace
from ecommerce, platform, marketplace
where ecommerce.platform = platform.id and ecommerce.marketplace = marketplace.id and ecommerce.ts < DATEADD(hour, 0, getdate()) and ecommerce.ts > DATEADD(hour, -1, getdate())') to 's3://BUCKET/ecommerce/live/20220112/1800/' iam_role 'arn:aws:iam::ACCOUNT_ID:role/custom-rs-connector-LookoutForMetricsRole-' header CSV;

Miễn là truy vấn đã chuẩn bị của bạn có thể được đóng gói bằng câu lệnh UNLOAD, nó sẽ hoạt động mà không có vấn đề gì.

Nếu bạn cần thay đổi tần số cho tần suất chạy của chức năng dò liên tục, hãy cập nhật biểu thức cron trong ai_ops/l4m-redshift-continuous-crawl.yaml. Nó được định nghĩa ở dòng cuối cùng là Lịch trình: cron(0 * * * ? *).

Sửa đổi bộ phát hiện và bộ dữ liệu Lookout for Metrics

Các thành phần cuối cùng tập trung vào chính Lookout for Metrics, chủ yếu là cấu hình bộ phát hiện và tập dữ liệu. Cả hai đều được xác định trong ai_ops/params.json.

Tệp được bao gồm trông giống như mã sau:

{ "database_type": "redshift", "detector_name": "l4m-custom-redshift-connector-detector", "detector_description": "A quick sample config of how to use L4M.", "detector_frequency": "PT1H", "timestamp_column": { "ColumnFormat": "yyyy-MM-dd HH:mm:ss", "ColumnName": "timestamp" }, "dimension_list": [ "platform", "marketplace" ], "metrics_set": [ { "AggregationFunction": "SUM", "MetricName": "views" }, { "AggregationFunction": "SUM", "MetricName": "revenue" } ], "metric_source": { "S3SourceConfig": { "FileFormatDescriptor": { "CsvFormatDescriptor": { "Charset": "UTF-8", "ContainsHeader": true, "Delimiter": ",", "FileCompression": "NONE", "QuoteSymbol": """ } }, "HistoricalDataPathList": [ "s3://id-ml-ops2-inputbucket-18vaudty8qtec/ecommerce/backtest/" ], "RoleArn": "arn:aws:iam::ACCOUNT_ID:role/id-ml-ops2-LookoutForMetricsRole-IZ5PL6M7YKR1", "TemplatedPathList": [ "" ] } }, "s3_bucket": "", "alert_name": "alerter", "alert_threshold": 1, "alert_description": "Exports anomalies into s3 for visualization", "alert_lambda_arn": "", "offset": 300, "secret_name": "redshift-l4mintegration"
}

ai_ops/params.json quản lý các tham số sau:

cơ sở dữ liệu_type
máy dò_name
máy dò_description
máy dò_tần số
timestamp_column và chi tiết
danh sách thứ nguyên
số liệu_set
bù đắp

Không phải mọi giá trị đều có thể được xác định tĩnh trước thời hạn; những thứ này được cập nhật bởi ai_ops/params_builder.py:

HistoryDataPathList
VaiArn
Danh sách đường dẫn mẫu
s3_bucket

Để sửa đổi bất kỳ thực thể nào trong số này, hãy cập nhật tệp chịu trách nhiệm cho chúng và trình phát hiện của bạn được sửa đổi cho phù hợp.

Làm sạch

Làm theo các bước trong phần này để xóa tất cả các tài nguyên được tạo bởi giải pháp này và đảm bảo rằng bạn không bị tính phí sau khi đánh giá hoặc sử dụng giải pháp.

Làm trống tất cả dữ liệu từ các nhóm S3 đã được tạo từ các mẫu tương ứng của chúng:
1. Sản xuấtRedshiftDemo – S3ContentBucket
2. Trình kết nối Redshift tùy chỉnh – S3LambdaBucket
3. kết nối rs-tùy chỉnh – InputBucket
Xóa trình phát hiện của bạn qua bảng điều khiển Lookout for Metrics.
Xóa các ngăn xếp CloudFormation theo thứ tự sau (đợi một ngăn xếp hoàn thành trước khi chuyển sang ngăn xếp tiếp theo):
1. custom-rs-connector-thu thập thông tin
2. kết nối rs-tùy chỉnh
3. Trình kết nối Redshift tùy chỉnh
4. Sản xuấtRedshiftDemo

Kết luận

Bây giờ bạn đã thấy cách kết nối cơ sở dữ liệu Amazon Redshift với Lookout for Metrics bằng cách sử dụng các API dữ liệu Amazon Redshift, Sự kiện CloudWatch và các hàm Lambda. Cách tiếp cận này cho phép bạn tạo tập dữ liệu có liên quan dựa trên thông tin của bạn trong Amazon Redshift để thực hiện phát hiện bất thường trên dữ liệu chuỗi thời gian của bạn chỉ trong vài phút. Nếu bạn có thể soạn thảo truy vấn SQL để lấy thông tin, bạn có thể bật tính năng phát hiện bất thường do ML hỗ trợ trên dữ liệu của mình. Từ đó, các điểm bất thường của bạn sẽ thể hiện các sự kiện bất thường và giúp bạn hiểu cách một sự bất thường có thể gây ra hoặc tác động bởi những người khác, do đó giảm thời gian của bạn để hiểu các vấn đề quan trọng đối với doanh nghiệp hoặc khối lượng công việc của bạn.

Về các tác giả

Vua Chris là Kiến trúc sư giải pháp chính về AI ứng dụng với AWS. Anh ấy có mối quan tâm đặc biệt đến việc tung ra các dịch vụ AI và giúp phát triển và xây dựng Amazon Personalize và Amazon Forecast trước khi tập trung vào Amazon Lookout for Metrics. Trong thời gian rảnh rỗi, anh ấy thích nấu ăn, đọc sách, đấm bốc và xây dựng các mô hình để dự đoán kết quả của các môn thể thao đối kháng.

Alex Kim là Giám đốc sản phẩm của Sr. cho Amazon Forecast. Nhiệm vụ của anh ấy là cung cấp các giải pháp AI / ML cho tất cả những khách hàng có thể hưởng lợi từ nó. Khi rảnh rỗi, anh ấy thích tất cả các loại hình thể thao và khám phá những địa điểm ăn uống mới.

Trí thông minh dữ liệu tạo

Xây dựng và triển khai các trình kết nối tùy chỉnh cho Amazon Redshift với Amazon Lookout for Metrics

Giới thiệu về dữ liệu chuỗi thời gian

Kết nối dữ liệu của bạn với Lookout for Metrics

Khi nào sử dụng trình kết nối tùy chỉnh

Tổng quan về giải pháp

Triển khai giải pháp

Tạo cụm Amazon Redshift của bạn

Cấu trúc dữ liệu

Triển khai trình kết nối tùy chỉnh

Xem máy phát hiện bất thường của bạn

Cách hoạt động của trình kết nối tùy chỉnh

Thành phần cốt lõi

Tạo trình kết nối tùy chỉnh

Xác thực với Amazon Redshift

Sửa đổi các truy vấn thành Amazon Redshift

Sửa đổi bộ phát hiện và bộ dữ liệu Lookout for Metrics

Làm sạch

Kết luận

Về các tác giả

Giới thiệu về Xử lý ngôn ngữ tự nhiên [Khóa học NLP miễn phí]

ESL Challenger Melbourne 2024: Điểm số, bảng xếp hạng và hơn thế nữa – Snowball Esports

Tin tức mới nhất

Chuyến bay thử nghiệm của phi hành đoàn Starliner đã vượt qua bài đánh giá quan trọng

Điểm dự thảo NFL 2024

Cập nhật: BAE Systems phác thảo tiến độ phát triển khinh hạm Loại 26 trong bối cảnh thiếu công nhân luyện thép

Ethereum, Solana và các loại tiền thay thế đang tiếp cận 'Vùng chuối', Theo Macro Guru Raoul Pal - Đây là quan điểm của ông ấy - The Daily Hodl

Refinanzierung bestehender Dự án cơ hội huy động vốn từ cộng đồng Kredit của Swisspeers

Dự án cơ hội huy động vốn từ cộng đồng của Blackbird Foods của StartEngine

Trò chuyện trực tiếp với chúng tôi (chat)