Logo Zephyrnet

Tăng cường bảo mật và quản trị dữ liệu cho Amazon Redshift Spectrum với điểm cuối VPC | Dịch vụ web của Amazon

Ngày:

Nhiều khách hàng đang mở rộng khả năng kho dữ liệu của họ vào hồ dữ liệu với Amazon RedShift. Họ đang tìm cách nâng cao hơn nữa tình hình bảo mật của mình, nơi họ có thể thực thi các chính sách truy cập trên hồ dữ liệu của mình dựa trên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Hơn nữa, họ đang áp dụng các mô hình bảo mật yêu cầu quyền truy cập vào hồ dữ liệu thông qua mạng riêng của họ.

Quang phổ dịch chuyển đỏ Amazon cho phép bạn chạy truy vấn SQL của Amazon Redshift trên dữ liệu được lưu trữ trong Amazon S3. Phổ dịch chuyển đỏ sử dụng Keo AWS Danh mục dữ liệu như một kho lưu trữ Hive. Với kho dữ liệu Redshift được cung cấp, công suất điện toán Redshift Spectrum chạy từ các máy chủ Redshift chuyên dụng riêng biệt do Amazon Redshift sở hữu, độc lập với cụm Redshift của bạn. Khi định tuyến VPC nâng cao được bật cho cụm Redshift, Redshift Spectrum sẽ kết nối từ Redshift VPC với giao diện mạng linh hoạt (ENI) trong VPC của bạn. Vì nó sử dụng các cụm chuyên dụng Redshift riêng biệt nên để buộc tất cả lưu lượng truy cập giữa Redshift và Amazon S3 thông qua VPC của bạn, bạn cần bật định tuyến VPC nâng cao và tạo đường dẫn mạng cụ thể giữa VPC và nguồn dữ liệu S3 của kho dữ liệu Redshift.

Khi sử dụng một Amazon Redshift không có máy chủ chẳng hạn, Redshift Spectrum sử dụng công suất điện toán tương tự như công suất điện toán nhóm làm việc không có máy chủ của bạn. Để truy cập nguồn dữ liệu S3 từ Redshift Serverless mà không có lưu lượng truy cập rời khỏi VPC, bạn có thể sử dụng tùy chọn định tuyến VPC nâng cao mà không cần bất kỳ cấu hình mạng bổ sung nào.

Sự hình thành hồ AWS cung cấp một cách tiếp cận đơn giản và tập trung để quản lý quyền truy cập vào các nguồn dữ liệu S3. Lake Formation cho phép các tổ chức quản lý kiểm soát quyền truy cập đối với các hồ dữ liệu dựa trên Amazon S3 bằng cách sử dụng các khái niệm cơ sở dữ liệu quen thuộc như bảng và cột, cùng với các tùy chọn nâng cao hơn như bảo mật cấp hàng và cấp ô. Lake Formation sử dụng Danh mục dữ liệu AWS Glue để cung cấp khả năng kiểm soát quyền truy cập cho Amazon S3.

Trong bài đăng này, chúng tôi trình bày cách định cấu hình mạng của bạn cho Redshift Spectrum để sử dụng định tuyến VPC nâng cao của cụm được cung cấp Redshift nhằm truy cập dữ liệu Amazon S3 thông qua kiểm soát truy cập Lake Formation. Bạn có thể thiết lập tích hợp này trong một mạng riêng không có kết nối Internet.

Tổng quan về giải pháp

Với giải pháp này, lưu lượng truy cập mạng được định tuyến qua VPC của bạn bằng cách bật Định tuyến VPC nâng cao của Amazon Redshift. Tùy chọn định tuyến này ưu tiên điểm cuối VPC làm ưu tiên tuyến đầu tiên qua cổng internet, Phiên bản NAT, hoặc là Cổng NAT. Để ngăn cụm Redshift giao tiếp với các tài nguyên bên ngoài VPC, bạn cần phải xóa tất cả các tùy chọn định tuyến khác. Điều này đảm bảo rằng tất cả thông tin liên lạc được định tuyến thông qua các điểm cuối VPC.

Sơ đồ sau minh họa kiến ​​trúc giải pháp.

Giải pháp bao gồm các bước sau:

  1. Tạo cụm Redshift trong cấu hình mạng con riêng tư:
    1. Bật định tuyến VPC nâng cao cho cụm Redshift của bạn.
    2. Sửa đổi bảng định tuyến để đảm bảo không có kết nối với mạng công cộng.
  2. Tạo các điểm cuối VPC sau để kết nối Redshift Spectrum:
    1. Điểm cuối giao diện AWS Glue.
    2. Điểm cuối giao diện Lake Formation.
    3. Điểm cuối cổng Amazon S3.
  3. Phân tích khả năng kết nối và định tuyến mạng của Amazon Redshift:
    1. Xác minh các tuyến mạng cho Amazon Redshift trong mạng riêng.
    2. Xác minh kết nối mạng từ cụm Redshift đến các điểm cuối VPC khác nhau.
    3. Kiểm tra kết nối bằng trình soạn thảo truy vấn Amazon Redshift v2.

Việc tích hợp này sử dụng các điểm cuối VPC để thiết lập kết nối riêng tư từ kho dữ liệu Redshift của bạn đến Lake Formation, Amazon S3 và AWS Glue.

Điều kiện tiên quyết

Để thiết lập giải pháp này, Bạn cần có hiểu biết cơ bản về Bảng điều khiển quản lý AWS, An Tài khoản AWSvà truy cập vào các dịch vụ AWS sau:

Ngoài ra, bạn phải tích hợp Lake Formation với Amazon Redshift để truy cập kho dữ liệu S3 của mình trong mạng không riêng tư. Để biết hướng dẫn, hãy tham khảo Tập trung quản trị cho hồ dữ liệu của bạn bằng cách sử dụng AWS Lake Formation đồng thời kích hoạt kiến ​​trúc dữ liệu hiện đại với Amazon Redshift Spectrum.

Tạo cụm Redshift trong cấu hình mạng con riêng tư.

Bước đầu tiên là định cấu hình cụm Redshift của bạn để chỉ cho phép lưu lượng truy cập mạng thông qua VPC của bạn và ngăn chặn mọi tuyến đường công cộng. Để thực hiện điều này, bạn phải bật định tuyến VPC nâng cao cho cụm Redshift của mình. Hoàn thành các bước sau:

  1. Trên bảng điều khiển Amazon Redshift, điều hướng đến cụm của bạn.
  2. Chỉnh sửa cài đặt mạng và bảo mật của bạn.
  3. Trong Định tuyến VPC nâng cao, lựa chọn Bật.
  4. Vô hiệu hoá Truy cập công cộng tùy chọn.
  5. Chọn Lưu các thay đổi và sửa đổi cụm để áp dụng các bản cập nhật. Bây giờ bạn có cụm Redshift chỉ có thể giao tiếp thông qua VPC. Bây giờ bạn có thể sửa đổi bảng lộ trình để đảm bảo không có kết nối với mạng công cộng.
  6. Trên bảng điều khiển Amazon Redshift, ghi lại nhóm mạng con và xác định mạng con được liên kết với nhóm mạng con này.
  7. Trên bảng điều khiển Amazon VPC, xác định bảng tuyến được liên kết với mạng con này và chỉnh sửa để xóa tuyến mặc định tới cổng NAT.

Nếu cụm của bạn nằm trong mạng con công cộng, bạn có thể phải xóa tuyến cổng internet. Nếu mạng con được chia sẻ giữa các tài nguyên khác, điều đó có thể ảnh hưởng đến khả năng kết nối của chúng.

Cụm của bạn hiện nằm trong mạng riêng và không thể giao tiếp với bất kỳ tài nguyên nào bên ngoài VPC của bạn.

Tạo điểm cuối VPC để kết nối Redshift Spectrum

Sau khi định cấu hình cụm Redshift để hoạt động trong mạng riêng mà không cần kết nối bên ngoài, bạn cần thiết lập kết nối với các dịch vụ sau thông qua điểm cuối VPC:

  • Keo AWS
  • Hồ hình thành
  • Amazon S3

Tạo điểm cuối AWS Glue

Đầu tiên, Redshift Spectrum kết nối với các điểm cuối AWS Glue để lấy thông tin từ Danh mục AWS Data Glue. Để tạo điểm cuối VPC cho AWS Glue, hãy hoàn thành các bước sau:

  1. Trên bảng điều khiển Amazon VPC, chọn Điểm cuối trong khung điều hướng.
  2. Chọn Tạo điểm cuối.
  3. Trong Thẻ tên, nhập tên tùy chọn.
  4. Trong Loại dịch vụ, lựa chọn Dịch vụ AWS.
  5. Trong tạp chí DỊCH VỤ hãy tìm kiếm và chọn điểm cuối giao diện AWS Glue của bạn.
  6. Chọn VPC và mạng con thích hợp cho điểm cuối của bạn.
  7. Định cấu hình cài đặt nhóm bảo mật và xem lại cài đặt điểm cuối của bạn.
  8. Chọn Tạo điểm cuối để hoàn tất quá trình.

Sau khi bạn tạo điểm cuối AWS Glue VPC, Redshift Spectrum sẽ có thể truy xuất thông tin từ Danh mục dữ liệu AWS Glue trong VPC của bạn.

Tạo điểm cuối Lake Formation

Lặp lại quy trình tương tự để tạo điểm cuối Lake Formation:

  1. Trên bảng điều khiển Amazon VPC, chọn Điểm cuối trong khung điều hướng.
  2. Chọn Tạo điểm cuối.
  3. Trong Thẻ tên, nhập tên tùy chọn.
  4. Trong Loại dịch vụ, lựa chọn Dịch vụ AWS.
  5. Trong tạp chí DỊCH VỤ phần, tìm kiếm và chọn điểm cuối giao diện Lake Formation của bạn.
  6. Chọn VPC và mạng con thích hợp cho điểm cuối của bạn.
  7. Định cấu hình cài đặt nhóm bảo mật và xem lại cài đặt điểm cuối của bạn.
  8. Chọn Tạo điểm cuối.

Giờ đây, bạn có khả năng kết nối với Amazon Redshift tới Lake Formation và AWS Glue, cho phép bạn truy xuất danh mục và xác thực các quyền trên kho dữ liệu.

Tạo điểm cuối Amazon S3

Bước tiếp theo là tạo điểm cuối VPC cho Amazon S3 để cho phép Redshift Spectrum truy cập dữ liệu được lưu trữ trong Amazon S3 thông qua điểm cuối VPC:

  1. Trên bảng điều khiển Amazon VPC, chọn Điểm cuối trong khung điều hướng.
  2. Chọn Tạo điểm cuối.
  3. Trong Thẻ tên, nhập tên tùy chọn.
  4. Trong Loại dịch vụ, lựa chọn Dịch vụ AWS.
  5. Trong tạp chí DỊCH VỤ phần này, hãy tìm kiếm và chọn điểm cuối cổng Amazon S3 của bạn.
  6. Chọn VPC và mạng con thích hợp cho điểm cuối của bạn.
  7. Định cấu hình cài đặt nhóm bảo mật và xem lại cài đặt điểm cuối của bạn.
  8. Chọn Tạo điểm cuối.

Với việc tạo điểm cuối VPC cho Amazon S3, bạn đã hoàn thành tất cả các bước cần thiết để đảm bảo rằng cụm Redshift có thể giao tiếp riêng với các dịch vụ được yêu cầu thông qua điểm cuối VPC trong VPC của bạn.

Điều quan trọng là phải đảm bảo rằng các nhóm bảo mật gắn với điểm cuối VPC được định cấu hình đúng cách vì quy tắc gửi đến không chính xác có thể khiến kết nối của bạn hết thời gian chờ. Xác minh rằng các quy tắc gửi đến của nhóm bảo mật được thiết lập chính xác để cho phép lưu lượng truy cập cần thiết đi qua điểm cuối VPC.

Phân tích lưu lượng và cấu trúc liên kết mạng

Bạn có thể sử dụng các phương pháp sau để xác minh đường dẫn mạng từ Amazon Redshift đến các điểm cuối khác.

Xác minh các tuyến mạng cho Amazon Redshift trong mạng riêng

Bạn có thể sử dụng một Bản đồ tài nguyên Amazon VPC để trực quan hóa kết nối Amazon Redshift. Bản đồ tài nguyên hiển thị các kết nối liên kết giữa các tài nguyên trong VPC và luồng lưu lượng giữa các mạng con, cổng NAT, cổng internet và điểm cuối cổng. Như minh họa trong ảnh chụp màn hình sau, mạng con được đánh dấu nơi cụm Redshift đang chạy không có kết nối với cổng NAT hoặc cổng internet. Bảng định tuyến được liên kết với mạng con chỉ có thể kết nối với Amazon S3 thông qua điểm cuối VPC.

Lưu ý rằng điểm cuối AWS Glue và Lake Formation là điểm cuối giao diện và không hiển thị trên bản đồ tài nguyên.

Xác minh kết nối mạng từ cụm Redshift đến các điểm cuối VPC khác nhau

Bạn có thể xác minh khả năng kết nối từ mạng con cụm Redshift tới tất cả các điểm cuối VPC bằng cách sử dụng Trình phân tích khả năng tiếp cận. Trình phân tích khả năng tiếp cận là một công cụ phân tích cấu hình cho phép bạn thực hiện kiểm tra khả năng kết nối giữa tài nguyên nguồn và tài nguyên đích trong VPC của bạn. Hoàn thành các bước sau:

  1. Trên bảng điều khiển Amazon Redshift, điều hướng đến trang cấu hình cụm Redshift và ghi lại địa chỉ IP nội bộ.
  2. Trên bảng điều khiển Amazon EC2, tìm kiếm ENI của bạn bằng cách lọc theo địa chỉ IP.
  3. Chọn ENI được liên kết với cụm Redshift của bạn và chọn Chạy Trình phân tích khả năng tiếp cận.
  4. Trong Loại nguồn, chọn Giao diện mạng.
  5. Trong nguồn, hãy chọn ENI dịch chuyển đỏ.
  6. Trong Loại điểm đến, chọn Điểm cuối VPC.
  7. Trong Nơi đến, hãy chọn điểm cuối VPC của bạn.
  8. Chọn Tạo và phân tích đường dẫn.
  9. Khi phân tích hoàn tất, hãy xem phân tích để biết khả năng tiếp cận.

Như được minh họa trong ảnh chụp màn hình sau, cụm Redshift có khả năng kết nối với điểm cuối Lake Formation.

Bạn có thể lặp lại các bước này để xác minh khả năng tiếp cận mạng cho tất cả các điểm cuối VPC khác.

Kiểm tra khả năng kết nối bằng cách chạy truy vấn SQL từ trình soạn thảo truy vấn Amazon Redshift v2

Bạn có thể xác minh khả năng kết nối bằng cách chạy truy vấn SQL bằng bảng Redshift Spectrum bằng trình chỉnh sửa truy vấn Amazon Redshift, như minh họa trong ảnh chụp màn hình sau.

Chúc mừng! Bạn có thể truy vấn thành công từ các bảng Redshift Spectrum từ một cụm được cung cấp trong khi định tuyến VPC nâng cao được bật để lưu lượng truy cập vẫn nằm trong mạng AWS của bạn.

Làm sạch

Bạn nên dọn sạch các tài nguyên bạn đã tạo trong bài tập này để tránh chi phí không cần thiết cho tài khoản AWS của mình. Hoàn thành các bước sau:

  1. Trên bảng điều khiển Amazon VPC, chọn Điểm cuối trong khung điều hướng.
  2. Chọn các điểm cuối bạn đã tạo và trên Hoạt động menu, chọn Xóa điểm cuối VPC.
  3. Trên bảng điều khiển Amazon Redshift, điều hướng đến cụm Redshift của bạn.
  4. Chỉnh sửa cài đặt mạng và bảo mật cụm rồi chọn tắt cho Định tuyến VPC nâng cao.
  5. Bạn cũng có thể xóa dữ liệu Amazon S3 và cụm Redshift nếu bạn không định sử dụng chúng nữa.

Kết luận

Bằng cách di chuyển kho dữ liệu Redshift sang cài đặt mạng riêng và bật định tuyến VPC nâng cao, bạn có thể nâng cao trạng thái bảo mật của cụm Redshift bằng cách giới hạn quyền truy cập chỉ vào các mạng được ủy quyền.

Chúng tôi muốn cảm ơn các đồng nghiệp AWS là Harshida Patel, Fabricio Pinto và Soumyajeet Patra vì đã cung cấp thông tin chi tiết trong bài đăng trên blog này.

Nếu bạn có bất kỳ câu hỏi hoặc đề xuất nào, hãy để lại phản hồi của bạn trong phần bình luận. Nếu bạn cần hỗ trợ thêm về việc bảo mật hồ dữ liệu S3 và kho dữ liệu Redshift, hãy liên hệ với nhóm tài khoản AWS của bạn.

Tài nguyên bổ sung


Về các tác giả

Kanwar Bajwa là Trưởng nhóm hỗ trợ doanh nghiệp tại AWS, người làm việc với khách hàng để tối ưu hóa việc sử dụng dịch vụ AWS và đạt được các mục tiêu kinh doanh của họ.

Swapna Bandla là Kiến trúc sư giải pháp cấp cao trong Nhóm SA Chuyên gia phân tích AWS. Swapna có niềm đam mê tìm hiểu nhu cầu phân tích và dữ liệu của khách hàng, đồng thời trao quyền cho họ phát triển các giải pháp có kiến ​​trúc tốt dựa trên đám mây. Ngoài công việc, cô thích dành thời gian cho gia đình.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img