Logo Zephyrnet

Giới thiệu chế độ truy cập kết hợp cho Danh mục dữ liệu AWS Glue để truy cập an toàn bằng cách sử dụng các chính sách AWS Lake Formation và IAM cũng như Amazon S3 | Dịch vụ web của Amazon

Ngày:

Sự hình thành hồ AWS giúp bạn quản lý tập trung, bảo mật và chia sẻ dữ liệu trên toàn cầu để phân tích và học máy. Với Lake Formation, bạn có thể quản lý kiểm soát quyền truy cập vào dữ liệu hồ dữ liệu của mình trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và siêu dữ liệu của nó trong Danh mục dữ liệu keo AWS ở một nơi với các tính năng kiểu cơ sở dữ liệu quen thuộc. Bạn có thể sử dụng kiểm soát truy cập dữ liệu chi tiết để xác minh rằng đúng người dùng có quyền truy cập vào đúng dữ liệu ở cấp độ ô của bảng. Lake Formation cũng giúp việc chia sẻ dữ liệu nội bộ trong và ngoài tổ chức của bạn trở nên đơn giản hơn. Hơn nữa, Lake Formation tích hợp với các dịch vụ phân tích AWS như amazon Athena, Amazon RedShift Quang phổ, Amazon EMRKeo AWS ETL cho Apache Spark. Các dịch vụ này cho phép truy vấn các bảng được quản lý của Lake Formation, do đó giúp bạn trích xuất thông tin chi tiết về doanh nghiệp từ dữ liệu một cách nhanh chóng và an toàn.

Trước khi ra mắt Lake Formation và các quyền kiểu cơ sở dữ liệu của nó cho các hồ dữ liệu, bạn phải quản lý quyền truy cập vào dữ liệu của mình trong hồ dữ liệu và siêu dữ liệu của nó một cách riêng biệt thông qua Quản lý truy cập và nhận dạng AWS (IAM) chính sách và chính sách nhóm S3. Với cơ chế kiểm soát truy cập IAM và Amazon S3 phức tạp hơn và ít chi tiết hơn so với Lake Formation, bạn cần nhiều thời gian hơn để di chuyển sang Lake Formation vì một cơ sở dữ liệu hoặc bảng nhất định trong hồ dữ liệu có thể được kiểm soát quyền truy cập bởi IAM và Chính sách S3 hoặc chính sách Lake Formation, nhưng không phải cả hai. Ngoài ra, có nhiều trường hợp sử dụng khác nhau hoạt động trên hồ dữ liệu. Việc di chuyển tất cả các trường hợp sử dụng từ mô hình quyền này sang mô hình quyền khác chỉ trong một bước mà không bị gián đoạn là một thách thức đối với các nhóm vận hành.

Để dễ dàng chuyển đổi quyền hồ dữ liệu từ mô hình IAM và S3 sang Lake Formation, chúng tôi sẽ giới thiệu chế độ truy cập kết hợp cho Danh mục dữ liệu AWS Glue. Vui lòng tham khảo Có gì mớitài liệu hướng dẫn. Tính năng này cho phép bạn bảo mật và truy cập vào dữ liệu được lập danh mục bằng cả quyền Lake Formation cũng như quyền IAM và S3. Chế độ truy cập kết hợp cho phép quản trị viên dữ liệu tích hợp các quyền của Lake Formation một cách có chọn lọc và tăng dần, tập trung vào một trường hợp sử dụng hồ dữ liệu tại một thời điểm. Ví dụ: giả sử bạn có một đường dẫn dữ liệu trích xuất, chuyển đổi và tải (ETL) hiện có sử dụng chính sách IAM và S3 để quản lý quyền truy cập dữ liệu. Bây giờ bạn muốn cho phép các nhà phân tích dữ liệu của mình khám phá hoặc truy vấn cùng một dữ liệu bằng Amazon Athena. Bạn có thể cấp quyền truy cập cho các nhà phân tích dữ liệu bằng cách sử dụng quyền Lake Formation để bao gồm các biện pháp kiểm soát chi tiết nếu cần mà không thay đổi quyền truy cập đối với đường dẫn dữ liệu ETL của bạn.

Chế độ truy cập kết hợp cho phép tồn tại cả hai mô hình quyền cho cùng một cơ sở dữ liệu và bảng, mang lại sự linh hoạt cao hơn trong cách bạn quản lý quyền truy cập của người dùng. Mặc dù tính năng này mở ra hai cánh cửa cho tài nguyên Danh mục dữ liệu nhưng người dùng hoặc vai trò IAM chỉ có thể truy cập tài nguyên bằng một trong hai quyền. Sau khi quyền Lake Formation được bật cho hiệu trưởng IAM, việc ủy ​​quyền hoàn toàn do Lake Formation quản lý và các chính sách IAM và S3 hiện tại sẽ bị bỏ qua. Đường mòn đám mây AWS nhật ký cung cấp thông tin chi tiết đầy đủ về quyền truy cập tài nguyên Danh mục dữ liệu trong nhật ký Lake Formation và nhật ký truy cập S3.

Trong bài đăng trên blog này, chúng tôi sẽ hướng dẫn bạn các hướng dẫn về các quyền tích hợp của Lake Formation ở chế độ truy cập kết hợp cho những người dùng được chọn trong khi những người dùng khác đã có thể truy cập cơ sở dữ liệu thông qua các quyền IAM và S3. Chúng tôi sẽ xem xét hướng dẫn thiết lập chế độ truy cập kết hợp trong tài khoản AWS và giữa hai tài khoản.

Tình huống 1 – Chế độ truy cập kết hợp trong tài khoản AWS

Trong trường hợp này, chúng tôi sẽ hướng dẫn bạn các bước để bắt đầu thêm người dùng có quyền Lake Formation cho cơ sở dữ liệu trong Danh mục dữ liệu được truy cập bằng quyền chính sách IAM và S3. Để minh họa, chúng tôi sử dụng hai tính cách:  Data-Engineer, người có các quyền chi tiết sử dụng chính sách IAM và chính sách bộ chứa S3 để chạy tác vụ AWS Glue ETL và Data-Analyst, người mà chúng tôi sẽ hỗ trợ với các quyền chi tiết của Lake Formation để truy vấn cơ sở dữ liệu bằng Amazon Athena.

Kịch bản 1 được mô tả trong sơ đồ dưới đây, trong đó Data-Engineer vai trò truy cập cơ sở dữ liệu hybridsalesdb sử dụng quyền IAM và S3 trong khi Data-Analyst vai trò sẽ truy cập cơ sở dữ liệu bằng quyền của Lake Formation.

Điều kiện tiên quyết

Để thiết lập quyền Lake Formation cũng như IAM và S3 cho cơ sở dữ liệu Danh mục dữ liệu với chế độ truy cập Kết hợp, bạn phải có các điều kiện tiên quyết sau:

  • Tài khoản AWS không được sử dụng cho các ứng dụng sản xuất.
  • Lake Formation đã được thiết lập trong tài khoản và có vai trò quản trị viên Lake Formation hoặc vai trò tương tự để làm theo hướng dẫn trong bài đăng này. Ví dụ: chúng tôi đang sử dụng vai trò quản trị viên hồ dữ liệu có tên là LF-Admin. Để tìm hiểu thêm về cách thiết lập quyền cho vai trò quản trị viên hồ dữ liệu, hãy xem Tạo quản trị viên hồ dữ liệu.
  • Cơ sở dữ liệu mẫu trong Danh mục dữ liệu có một vài bảng. Ví dụ: cơ sở dữ liệu mẫu của chúng tôi được gọi hybridsalesdb và có một bộ tám bảng, như minh họa trong ảnh chụp màn hình sau. Bạn có thể sử dụng bất kỳ bộ dữ liệu nào của mình để theo dõi.

Personas và thiết lập chính sách IAM của họ

Có hai cá tính đóng vai trò IAM trong tài khoản: Data-EngineerData-Analyst. Chính sách và quyền truy cập IAM của họ được mô tả như sau.

Chính sách IAM sau đây về Data-Engineer vai trò cho phép truy cập vào cơ sở dữ liệu và siêu dữ liệu bảng trong Danh mục dữ liệu.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue: Get*" ], "Resource": [ "arn:aws:glue:<Region>:<account-id>:catalog", "arn:aws:glue:<Region>:<account-id>:database/hybridsalesdb", "arn:aws:glue:<Region>:<account-id>:table/hybridsalesdb/*" ] } ]
}

Chính sách IAM sau đây về vai trò Kỹ sư dữ liệu cấp quyền truy cập dữ liệu vào vị trí cơ sở dữ liệu và bảng của Amazon S3.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowDataLakeBucket", "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetBucketLocation", "s3:Put*", "s3:Get*", "s3:Delete*" ], "Resource": [ "arn:aws:s3:::<bucket-name>", "arn:aws:s3:::<bucket-name>/<prefix>/" ] } ]
}

Sản phẩm Data-Engineer cũng có quyền truy cập vào bảng điều khiển AWS Glue bằng chính sách được quản lý bởi AWS arn:aws:iam::aws:policy/AWSGlueConsoleFullAccess và thoái lui iam:Passrole để chạy tập lệnh AWS Glue ETL như bên dưới.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "PassRolePermissions", "Effect": "Allow", "Action": [ " iam:PassRole" ], "Resource": [ "arn:aws:iam::<account-id>:role/Data-Engineer" ] } ]
}

Chính sách sau đây cũng được thêm vào chính sách tin cậy của Data-Engineer vai trò để cho phép AWS Glue đảm nhận vai trò chạy tập lệnh ETL thay mặt cho vai trò đó.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "glue.amazonaws.com" }, "Action": "sts:AssumeRole" } ]
}

Xem Thành lập studio AWS Glue để biết các quyền bổ sung cần thiết để chạy tập lệnh AWS Glue ETL.

Sản phẩm Data-Analyst vai trò có các quyền người dùng cơ bản của hồ dữ liệu như được mô tả trong Gán quyền cho người dùng Lake Formation.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:GetTable", "glue:GetTables", "glue:GetTableVersions", "glue:SearchTables", "glue:GetDatabase", "glue:GetDatabases", "glue:GetPartitions", "lakeformation:GetDataAccess", "lakeformation:GetResourceLFTags", "lakeformation:ListLFTags", "lakeformation:GetLFTag", "lakeformation:SearchTablesByLFTags", "lakeformation:SearchDatabasesByLFTags" ], "Resource": "*" } ]
}

Thêm vào đó, Data-Analyst có quyền ghi kết quả truy vấn Athena vào bộ chứa S3 không được quản lý bởi Lake Formation và toàn quyền truy cập vào bảng điều khiển Athena bằng chính sách được quản lý AWS arn:aws:iam::aws:policy/AmazonAthenaFullAccess.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:ListAllMyBuckets", "Resource": "*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::<athena-results-bucket>" ] }, { "Effect": "Allow", "Action": [ "s3:Put*", "s3:Get*", "s3:Delete*" ], "Resource": [ "arn:aws:s3:::<athena-results-bucket>/*" ] } ]
}

Thiết lập quyền Lake Formation cho Nhà phân tích dữ liệu

Hoàn thành các bước sau để đặt cấu hình vị trí dữ liệu của bạn trong Amazon S3 với Lake Formation ở chế độ truy cập kết hợp và cấp quyền truy cập vào Data-Analyst vai trò.

  1. Đăng nhập vào Bảng điều khiển quản lý AWS với vai trò quản trị viên Lake Formation.
  2. Đi tới Hồ Hình Thành.
  3. Chọn Vị trí hồ dữ liệu từ thanh điều hướng bên trái bên dưới Quản trị.
  4. Chọn Đăng ký vị trí và cung cấp vị trí Amazon S3 của cơ sở dữ liệu và bảng của bạn. Cung cấp vai trò IAM có quyền truy cập vào dữ liệu ở vị trí S3. Để biết thêm chi tiết xem Yêu cầu đối với vai trò được sử dụng để đăng ký vị trí.
  5. Chọn hình ba gạch Chế độ truy cập kết hợp Dưới Chế độ cho phép Và chọn Đăng ký vị trí.
  6. Chọn Vị trí hồ dữ liệu Dưới Quản trị từ thanh điều hướng bên trái. Xem lại vị trí đã đăng ký hiển thị là Chế độ truy cập kết hợp cho Chế độ cho phép.
  7. Chọn Cơ sở dữ liệu từ Danh Mục trên thanh điều hướng bên trái. Chọn hybridsalesdb. Bạn sẽ chọn cơ sở dữ liệu có dữ liệu ở vị trí S3 mà bạn đã đăng ký ở bước trước. Từ Hoạt động menu thả xuống, chọn Cấp.
  8. Chọn Data-Analyst cho Người dùng IAM và vai trò. Dưới Thẻ LF hoặc tài nguyên danh mục, lựa chọn Tài nguyên danh mục dữ liệu được đặt tên và chọn hybridsalesdb cho Cơ sở dữ liệu.
  9. Theo Quyền cơ sở dữ liệu, lựa chọn Mô tả. Dưới Chế độ truy cập kết hợp, chọn hộp kiểm Làm cho quyền của Lake Formation có hiệu lực ngay lập tức. Chọn Cấp.
  10. Một lần nữa, chọn Cơ sở dữ liệu từ Danh Mục trên thanh điều hướng bên trái. Chọn hybridsalesdb. Chọn Cấp từ Hoạt động trình đơn thả xuống.
  11. Trên cửa sổ Grant, chọn Data-Analyst cho Người dùng IAM và vai trò. Dưới Thẻ LF hoặc tài nguyên danh mục, chọn Tài nguyên danh mục dữ liệu được đặt tên và chọn hybridsalesdb cho Cơ sở dữ liệu.
  12. Theo Bàn, chọn ba bảng có tên hybridcustomer, hybridproducthybridsales_order từ trình đơn thả xuống.
  13. Theo Quyền bảng, lựa chọn Chọn Mô tả quyền cho các bảng.
  14. Chọn hộp kiểm bên dưới Chế độ truy cập kết hợp để làm cho các quyền của Lake Formation có hiệu lực ngay lập tức.
  15. Chọn Cấp.
  16. Xem lại các quyền đã cấp bằng cách chọn Quyền hồ dữ liệus dưới Quyền trên thanh điều hướng bên trái. Lọc Quyền dữ liệu by Hiệu trưởng = Data-Analyst.
  17. Trên thanh điều hướng bên trái, chọn Chế độ truy cập kết hợp. Xác minh rằng Nhà phân tích dữ liệu được chọn tham gia sẽ hiển thị cho hybridsalesdb cơ sở dữ liệu và ba bảng.
  18. Đăng xuất khỏi bảng điều khiển với vai trò quản trị viên Lake Formation.

Xác thực các quyền của Lake Formation cho Nhà phân tích dữ liệu

  1. Đăng nhập vào bảng điều khiển như Data-Analyst.
  2. Đi tới bảng điều khiển Athena. Nếu bạn đang sử dụng Athena lần đầu tiên, hãy thiết lập vị trí kết quả truy vấn vào bộ chứa S3 của bạn như được mô tả trong Chỉ định vị trí kết quả truy vấn.
  3. Chạy các truy vấn xem trước trên bảng từ trình chỉnh sửa truy vấn Athena.

Xác thực quyền IAM và S3 cho Kỹ sư dữ liệu

  1. Đăng xuất với tư cách Nhà phân tích dữ liệu và đăng nhập lại vào bảng điều khiển với tư cách Data-Engineer.
  2. Mở bảng điều khiển AWS Glue và chọn công việc ETL từ thanh điều hướng bên trái.
  3. Theo Tạo việc làm, lựa chọn Trình chỉnh sửa tập lệnh Spark. Chọn Tạo.
  4. Tải xuống và mở kịch bản mẫu được cung cấp ở đây.
  5. Sao chép và dán tập lệnh vào trình chỉnh sửa tập lệnh studio của bạn như một công việc mới.
  6. Chỉnh sửa catalog_id, cơ sở dữ liệu và table_name cho phù hợp với mẫu của bạn.
  7. Lưuchạy tập lệnh AWS Glue ETL của bạn bằng cách cung cấp vai trò IAM của Kỹ sư dữ liệu để thực hiện công việc.
  8. Sau khi tập lệnh ETL thành công, bạn có thể chọn liên kết nhật ký đầu ra từ Chạy tab của tập lệnh ETL.
  9. Xem lại lược đồ của bảng, 20 hàng trên cùng và tổng số hàng và cột từ Đồng hồ đeo tay AWS nhật ký.

Do đó, bạn có thể thêm quyền Lake Formation vào vai trò mới để truy cập cơ sở dữ liệu Danh mục dữ liệu mà không can thiệp vào vai trò khác đang truy cập vào cùng cơ sở dữ liệu thông qua quyền IAM và S3.

Tình huống 2 – Chế độ truy cập kết hợp được thiết lập giữa hai tài khoản AWS

Đây là tình huống chia sẻ nhiều tài khoản trong đó nhà sản xuất dữ liệu chia sẻ cơ sở dữ liệu và các bảng của nó với tài khoản người tiêu dùng. Nhà sản xuất cung cấp quyền truy cập cơ sở dữ liệu đầy đủ cho khối lượng công việc AWS Glue ETL trên tài khoản người tiêu dùng. Đồng thời, nhà sản xuất chia sẻ một số bảng của cùng một cơ sở dữ liệu với tài khoản người tiêu dùng bằng cách sử dụng Lake Formation. Chúng tôi sẽ hướng dẫn bạn cách sử dụng chế độ truy cập kết hợp để hỗ trợ cả hai phương thức truy cập.

Điều kiện tiên quyết

  • Chia sẻ tài khoản chéo của cơ sở dữ liệu hoặc vị trí bảng được đăng ký ở chế độ truy cập kết hợp yêu cầu tài khoản nhà sản xuất hoặc người cấp quyền phải ở phiên bản 4 của chia sẻ tài khoản chéo trong cài đặt danh mục để cấp quyền trên tài nguyên ở chế độ truy cập kết hợp. Khi chuyển từ phiên bản 3 sang phiên bản 4 của tính năng chia sẻ nhiều tài khoản, các quyền hiện có của Lake Formation không bị ảnh hưởng đối với các vị trí bảng và cơ sở dữ liệu đã được đăng ký với Lake Formation (chế độ Lake Formation). Để đăng ký vị trí tập dữ liệu mới ở chế độ truy cập kết hợp và các quyền mới của Lake Formation trên tài nguyên danh mục này, bạn sẽ cần phiên bản 4 của tính năng chia sẻ nhiều tài khoản.
  • Tài khoản người tiêu dùng hoặc người nhận có thể sử dụng các phiên bản chia sẻ tài khoản chéo khác. Nếu tài khoản của bạn đang sử dụng phiên bản 1 hoặc phiên bản 2 của tính năng chia sẻ nhiều tài khoản và nếu bạn muốn nâng cấp, hãy làm theo Cập nhật cài đặt phiên bản chia sẻ dữ liệu nhiều tài khoản trước tiên hãy nâng cấp cài đặt danh mục chia sẻ nhiều tài khoản lên phiên bản 3 trước khi nâng cấp lên phiên bản 4.

Việc thiết lập tài khoản nhà sản xuất tương tự như kịch bản 1 và chúng tôi sẽ thảo luận về các bước bổ sung cho kịch bản 2 trong phần sau.

Thiết lập trong tài khoản nhà sản xuất A

Người tiêu dùng Data-Engineer vai trò được cấp quyền truy cập dữ liệu Amazon S3 bằng chính sách bộ chứa S3 của nhà sản xuất và quyền truy cập Danh mục dữ liệu bằng chính sách tài nguyên Danh mục dữ liệu của nhà sản xuất.

Chính sách nhóm S3 trong tài khoản nhà sản xuất như sau:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "data engineer role permissions", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::<consumer-account-id>:role/Data-Engineer" }, "Action": [ "s3:GetLifecycleConfiguration", "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::<producer-account-databucket>", "arn:aws:s3:::<producer-account-databucket>/*" ] } ]
}

Chính sách tài nguyên Danh mục dữ liệu trong tài khoản nhà sản xuất được hiển thị bên dưới. Bạn cũng cần glue:ShareResource Quyền IAM cho Trình quản lý truy cập tài nguyên AWS (AWS RAM) để cho phép chia sẻ nhiều tài khoản.

{ "Version" : "2012-10-17", "Statement" : [ { "Effect" : "Allow", "Principal" : { "AWS" : "arn:aws:iam::<consumer-account-id>:role/Data-Engineer" }, "Action" : "glue:Get*", "Resource" : [ "arn:aws:glue:<Region>:<producer-account-id>:catalog", "arn:aws:glue:<Region>:<producer-account-id>:database/hybridsalesdb", "arn:aws:glue:<Region>:<producer-account-id>:table/hybridsalesdb/*" ] }, { "Effect" : "Allow", "Principal" : { "Service" : "ram.amazonaws.com" }, "Action" : "glue:ShareResource", "Resource" : [ "arn:aws:glue:<Region>:<producer-account-id>:table/*/*", "arn:aws:glue:<Region>:<producer-account-id>:database/*", "arn:aws:glue:<Region>:<producer-account-id>:catalog" ] } ]
}

Đặt phiên bản nhiều tài khoản và đăng ký nhóm S3

  1. Đăng nhập vào bảng điều khiển Lake Formation với vai trò quản trị viên IAM hoặc vai trò có quyền IAM đối với PutDataLakeSettings() API. Chọn Khu vực AWS nơi bạn đặt tập dữ liệu mẫu trong bộ chứa S3 cũng như cơ sở dữ liệu và bảng tương ứng trong Danh mục dữ liệu.
  2. Chọn Cài đặt danh mục dữ liệu từ thanh điều hướng bên trái bên dưới Quản trị. Chọn Phiên bản 4 từ trình đơn thả xuống cho Cài đặt phiên bản nhiều tài khoản. Chọn Lưu.
    Lưu ý: Nếu có bất kỳ tài khoản nào khác trong môi trường của bạn chia sẻ tài nguyên danh mục với tài khoản nhà sản xuất của bạn thông qua Lake Formation thì việc nâng cấp phiên bản chia sẻ có thể ảnh hưởng đến họ. Nhìn thấy để biết thêm thông tin chi tiết.
  3. Đăng xuất với tư cách quản trị viên IAM và đăng nhập lại vào bảng điều khiển Lake Formation với vai trò quản trị viên Lake Formation.
  4. Chọn Vị trí hồ dữ liệu từ thanh điều hướng bên trái bên dưới Quản trị.
  5. Chọn Đăng ký vị trí và cung cấp vị trí S3 của cơ sở dữ liệu và bảng của bạn.
  6. Cung cấp vai trò IAM có quyền truy cập vào dữ liệu ở vị trí S3. Để biết thêm chi tiết về yêu cầu vai trò này, hãy xem Yêu cầu đối với vai trò được sử dụng để đăng ký vị trí.
  7. Chọn Chế độ truy cập kết hợp Dưới Chế độ cho phép, và sau đó chọn Đăng ký vị trí.
  8. Chọn Vị trí hồ dữ liệu Dưới Quản trị từ thanh điều hướng bên trái. Xác nhận rằng vị trí đã đăng ký hiển thị là Chế độ truy cập kết hợp cho Chế độ cho phép.

Cấp quyền cho nhiều tài khoản

Các bước chia sẻ cơ sở dữ liệu hybridsalesdb vào tài khoản người tiêu dùng tương tự như các bước thiết lập tình huống 1.

  1. Trong bảng điều khiển Lake Formation, chọn Cơ sở dữ liệu từ Danh Mục trên thanh điều hướng bên trái. Chọn hybridsalesdb. Chọn cơ sở dữ liệu có dữ liệu ở vị trí S3 mà bạn đã đăng ký trước đó. Từ Hoạt động menu thả xuống, chọn Cấp.
  2. Chọn Tài khoản bên ngoài Dưới Hiệu trưởng và cung cấp ID tài khoản người tiêu dùng. Lựa chọn Tài nguyên danh mục được đặt tên Dưới Thẻ LF hoặc tài nguyên danh mục. Chọn laibán hàngdb cho Cơ sở dữ liệu.
  3. Chọn Mô tả cho Quyền cơ sở dữ liệu va cho Quyền được cấp.
  4. Theo Chế độ truy cập kết hợp, chọn hộp kiểm cho Làm cho quyền của Lake Formation có hiệu lực ngay lập tức. Chọn Cấp.

Lưu ý: Việc chọn hộp kiểm sẽ chọn tham gia vai trò quản trị viên Lake Formation của tài khoản người tiêu dùng để sử dụng các quyền của Lake Formation mà không làm gián đoạn quyền truy cập vào quyền truy cập IAM và S3 của tài khoản người tiêu dùng cho cùng một cơ sở dữ liệu.

  1. Lặp lại bước 2 cho đến phần lựa chọn cơ sở dữ liệu để cấp quyền cho ID tài khoản người tiêu dùng để có quyền ở cấp độ bảng. Chọn ba bảng bất kỳ từ trình đơn thả xuống để có quyền cấp bảng trong Bàn.
  2. Chọn Chọn Dưới Quyền bảngQuyền được cấp. Chọn hộp kiểm cho Làm cho quyền của Lake Formation có hiệu lực ngay lập tức Dưới Chế độ truy cập kết hợp. Chọn Cấp.
  3. Chọn hình ba gạch Quyền của hồ dữ liệu  trên thanh điều hướng bên trái. Xác minh các quyền được cấp cho tài khoản người tiêu dùng.
  4. Chọn hình ba gạch Chế độ truy cập kết hợp trên thanh điều hướng bên trái. Xác minh các tài nguyên và nguồn gốc đã chọn tham gia.

Bây giờ bạn đã bật tính năng chia sẻ nhiều tài khoản bằng quyền của Lake Formation mà không thu hồi quyền truy cập vào IAMAllowedPrincipal nhóm ảo.

Thiết lập trong tài khoản tiêu dùng B

Trong kịch bản 2, Data-AnalystData-Engineer các vai trò được tạo trong tài khoản người tiêu dùng tương tự như kịch bản 1, nhưng những vai trò này truy cập vào cơ sở dữ liệu và các bảng được chia sẻ từ tài khoản nhà sản xuất.

Ngoài arn:aws:iam::aws:policy/AWSGlueConsoleFullAccessarn:aws:iam::aws:policy/CloudWatchFullAccess, Các  Data-Engineer vai trò cũng có quyền để tạo và chạy tác vụ Apache Spark trong AWS Glue Studio.

Data-Engineer có chính sách IAM sau đây cấp quyền truy cập vào nhóm S3 của tài khoản nhà sản xuất, được đăng ký với Lake Formation ở chế độ truy cập kết hợp.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowDataLakeBucket", "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:GetBucketLocation", "s3:GetLifecycleConfiguration", "s3:Put*", "s3:Get*", "s3:Delete*" ], "Resource": [ "arn:aws:s3:::<producer-account-databucket>/*", "arn:aws:s3:::<producer-account-databucket>" ] } ]
}

Data-Engineer có chính sách IAM sau đây cấp quyền truy cập vào toàn bộ Danh mục dữ liệu của tài khoản người tiêu dùng và cơ sở dữ liệu của tài khoản nhà sản xuất hybridsalesdb và các bảng của nó.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:*" ], "Resource": [ "arn:aws:glue:<Region>:<consumer-account-id>:catalog", "arn:aws:glue:<Region>:<consumer-account-id>:database/*", "arn:aws:glue:<Region>:<consumer-account-id>:table/*/*", ] }, { "Effect": "Allow", "Action": [ "glue:Get*" ], "Resource": [ "arn:aws:glue:<Region>:<producer-account-id>:catalog", "arn:aws:glue:<Region>:<producer-account-id>:database/hybridsalesdb", "arn:aws:glue:<Region>:<producer-account-id>:table/hybridsalesdb/*" ] } ]
}

Sản phẩm Data-Analyst có chính sách IAM tương tự như kịch bản 1, cấp quyền cho người dùng hồ dữ liệu cơ bản. Để biết thêm chi tiết, xem Gán quyền cho người dùng Lake Formation.

Chấp nhận lời mời RAM AWS

  1. Đăng nhập vào bảng điều khiển Lake Formation với vai trò quản trị viên Lake Formation.
  2. Mở bảng điều khiển RAM AWS. Lựa chọn Chia sẻ tài nguyên từ Chia sẻ với tôi trên thanh điều hướng bên trái. Bạn sẽ thấy hai lời mời từ tài khoản nhà sản xuất, một lời mời chia sẻ cấp cơ sở dữ liệu và một lời mời chia sẻ cấp bảng.
  3. Chọn từng lời mời, xem lại ID tài khoản nhà sản xuất và chọn Chấp nhận chia sẻ tài nguyên.

Cấp quyền Lake Formation cho Nhà phân tích dữ liệu

  1. Mở bảng điều khiển Lake Formation. Với tư cách là quản trị viên Lake Formation, bạn sẽ thấy cơ sở dữ liệu và bảng được chia sẻ từ tài khoản người tiêu dùng.
  2. Chọn Cơ sở dữ liệu từ Danh mục dữ liệu trên thanh điều hướng bên trái. Chọn nút radio trên cơ sở dữ liệu hybridsalesdb và chọn Tạo liên kết tài nguyên từ Hoạt động trình đơn thả xuống.
  3. đăng ký hạng mục thi rl_hybridsalesdb làm tên cho liên kết tài nguyên và giữ nguyên các lựa chọn còn lại. Chọn Tạo.
  4. Chọn nút radio cho rl_hybridsalesdb. Chọn Cấp từ Hoạt động trình đơn thả xuống.
  5. Cấp Mô tả quyền trên liên kết tài nguyên tới Data-Analyst.
  6. Một lần nữa, hãy chọn nút radio trên rl_hybridsalesdb từ Cơ sở dữ liệu Dưới Danh Mục trong thanh điều hướng bên trái. Lựa chọn Cấp đúng mục tiêu từ Hoạt động trình đơn thả xuống.
  7. Chọn Data-Analyst đối với người dùng và vai trò IAM, hãy giữ lại cơ sở dữ liệu đã chọn hybridsalesdb.
  8. Chọn Mô tả Dưới Quyền cơ sở dữ liệu. Chọn hộp kiểm cho Làm cho quyền của Lake Formation có hiệu lực ngay lập tức Dưới Chế độ truy cập kết hợp. Chọn Cấp.
  9. Chọn nút radio trên rl_hybridsalesdb từ Cơ sở dữ liệu Dưới Danh Mục trong thanh điều hướng bên trái. Lựa chọn Cấp đúng mục tiêu từ Hoạt động trình đơn thả xuống.
  10. Chọn Data-Analyst dành cho người dùng và vai trò IAM. Chọn Tất cả các bảng của cơ sở dữ liệu hybridsaledb. Lựa chọn Chọn Dưới Quyền bảng.
  11. Chọn hộp kiểm cho Làm cho quyền của Lake Formation có hiệu lực ngay lập tức Dưới Chế độ truy cập kết hợp.
  12. Xem và xác minh các quyền được cấp cho Nhà phân tích dữ liệu từ Quyền của hồ dữ liệu tab trên thanh điều hướng bên trái.
  13. Đăng xuất với vai trò quản trị viên Lake Formation.

Xác thực các quyền của Lake Formation với tư cách là Nhà phân tích dữ liệu

  1. Đăng nhập lại vào bảng điều khiển như Data-Analyst.
  2. Mở bảng điều khiển Athena. Nếu bạn đang sử dụng Athena lần đầu tiên, hãy thiết lập vị trí kết quả truy vấn vào bộ chứa S3 của bạn như được mô tả trong Chỉ định vị trí kết quả truy vấn.
    • Trong tạp chí Trình soạn thảo truy vấn trang, dưới Ngày, lựa chọn AWSDataDatalog cho Nguồn dữ liệu. Vì Bàn, hãy chọn ba dấu chấm bên cạnh bất kỳ tên bảng nào. Lựa chọn Bảng xem trước để chạy truy vấn.
  3. Đăng xuất với tư cách là Nhà phân tích dữ liệu.

Xác thực quyền IAM và S3 cho Kỹ sư dữ liệu

  1. Đăng nhập lại vào bảng điều khiển như Data-Engineer.
  2. Sử dụng các bước tương tự như kịch bản 1, xác minh quyền truy cập IAM và S3 bằng cách chạy tập lệnh AWS Glue ETL trong AWS Glue Studio.

Bạn đã thêm quyền của Lake Formation cho một vai trò mới Data-Analyst, mà không làm gián đoạn quyền truy cập IAM và S3 hiện có vào Data-Engineer cho trường hợp sử dụng chia sẻ nhiều tài khoản.

Làm sạch

Nếu bạn đã sử dụng tập dữ liệu mẫu từ S3 cho bài đăng blog này, chúng tôi khuyên bạn nên xóa các quyền có liên quan của Lake Formation trên cơ sở dữ liệu của mình đối với vai trò Nhà phân tích dữ liệu và các khoản trợ cấp liên tài khoản. Bạn cũng có thể xóa tùy chọn tham gia chế độ truy cập kết hợp và xóa đăng ký bộ chứa S3 khỏi Lake Formation. Sau khi xóa tất cả các quyền của Lake Formation khỏi cả tài khoản nhà sản xuất và người tiêu dùng, bạn có thể xóa vai trò IAM Nhà phân tích dữ liệu và Kỹ sư dữ liệu.

Những cân nhắc

Hiện tại, chỉ có vai trò quản trị viên Lake Formation mới có thể cho phép những người dùng khác sử dụng quyền của Lake Formation cho một tài nguyên, vì việc chọn cho phép người dùng sử dụng quyền Lake Formation hoặc IAM và S3 là một nhiệm vụ quản trị yêu cầu kiến ​​thức đầy đủ về thiết lập quyền truy cập dữ liệu tổ chức của bạn. Hơn nữa, bạn có thể cấp quyền và chọn tham gia cùng lúc chỉ bằng phương thức tài nguyên được đặt tên chứ không phải Thẻ LF. Nếu bạn đang sử dụng Thẻ LF để cấp quyền, chúng tôi khuyên bạn nên sử dụng Chế độ truy cập kết hợp tùy chọn trên thanh điều hướng bên trái để chọn tham gia (hoặc tùy chọn tương đương CreateLakeFormationOptin() API sử dụng AWS SDK hoặc AWS CLI) làm bước tiếp theo sau khi cấp quyền.

Kết luận

Trong bài đăng trên blog này, chúng tôi đã thực hiện các bước để thiết lập chế độ truy cập kết hợp cho Danh mục dữ liệu. Bạn đã học cách đưa người dùng vào mô hình quyền của Lake Formation một cách có chọn lọc. Những người dùng có quyền truy cập thông qua quyền IAM và S3 tiếp tục có quyền truy cập mà không bị gián đoạn. Bạn có thể sử dụng Lake Formation để thêm quyền truy cập chi tiết vào các bảng Danh mục dữ liệu nhằm cho phép các nhà phân tích kinh doanh của bạn truy vấn bằng Amazon Athena và Amazon Redshift Spectrum, trong khi các nhà khoa học dữ liệu của bạn có thể khám phá cùng một dữ liệu bằng Amazon Sagemaker. Kỹ sư dữ liệu có thể tiếp tục sử dụng quyền IAM và S3 trên cùng một dữ liệu để chạy khối lượng công việc bằng Amazon EMR và AWS Glue. Chế độ truy cập kết hợp cho Danh mục dữ liệu cho phép nhiều trường hợp sử dụng phân tích cho dữ liệu của bạn mà không bị trùng lặp dữ liệu.

Để bắt đầu, hãy xem tài liệu về chế độ truy cập kết hợp. Chúng tôi khuyến khích bạn kiểm tra tính năng này và chia sẻ phản hồi của bạn trong phần bình luận. Chúng tôi mong chờ tin từ bạn.


Giới thiệu về tác giả

Aarthi Srinivasan là Kiến trúc sư dữ liệu lớn cấp cao của AWS Lake Formation. Cô ấy thích xây dựng các giải pháp hồ dữ liệu cho khách hàng và đối tác của AWS. Khi không ngồi trên bàn phím, cô khám phá những xu hướng khoa học và công nghệ mới nhất và dành thời gian cho gia đình.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img