Logo Zephyrnet

Amazon DataZone thông báo tích hợp với chế độ truy cập kết hợp AWS Lake Formation cho Danh mục dữ liệu AWS Glue | Dịch vụ web của Amazon

Ngày:

Tuần trước, chúng tôi đã công bố sẵn sàng nói chung của sự tích hợp giữa Vùng dữ liệu AmazonSự hình thành hồ AWS chế độ truy cập kết hợp. Trong bài đăng này, chúng tôi chia sẻ cách tính năng mới này giúp bạn đơn giản hóa cách bạn sử dụng Amazon DataZone để cho phép chia sẻ dữ liệu của bạn một cách an toàn và được quản lý trong Keo AWS Danh mục dữ liệu. Chúng tôi cũng tìm hiểu cách các nhà sản xuất dữ liệu có thể chia sẻ bảng AWS Glue của họ thông qua Amazon DataZone mà không cần phải đăng ký trước trong Lake Formation.

Tổng quan về tích hợp Amazon DataZone với chế độ truy cập kết hợp Lake Formation

Amazon DataZone là dịch vụ quản lý dữ liệu được quản lý toàn phần để lập danh mục, khám phá, phân tích, chia sẻ và quản lý dữ liệu giữa người tạo dữ liệu và người tiêu dùng trong tổ chức của bạn. Với Amazon DataZone, nhà sản xuất dữ liệu sẽ điền vào danh mục dữ liệu kinh doanh các nội dung dữ liệu từ các nguồn dữ liệu như Danh mục dữ liệu AWS Glue và Amazon RedShift. Họ cũng làm phong phú thêm nội dung của mình bằng bối cảnh kinh doanh để giúp người tiêu dùng dữ liệu dễ hiểu. Sau khi dữ liệu có sẵn trong danh mục, người tiêu dùng dữ liệu như nhà phân tích và nhà khoa học dữ liệu có thể tìm kiếm và truy cập dữ liệu này bằng cách yêu cầu đăng ký. Khi yêu cầu được phê duyệt, Amazon DataZone có thể tự động cấp quyền truy cập vào dữ liệu bằng cách quản lý các quyền trong Lake Formation hoặc Amazon Redshift để người sử dụng dữ liệu có thể bắt đầu truy vấn dữ liệu bằng các công cụ như amazon Athena hoặc Amazon Redshift.

Để quản lý quyền truy cập vào dữ liệu trong Danh mục dữ liệu AWS Glue, Amazon DataZone sử dụng Lake Formation. Trước đây, nếu muốn sử dụng Amazon DataZone để quản lý quyền truy cập vào dữ liệu của mình trong Danh mục dữ liệu AWS Glue, trước tiên bạn phải tích hợp dữ liệu của mình vào Lake Formation. Giờ đây, việc tích hợp chế độ truy cập kết hợp Amazon DataZone và Lake Formation sẽ đơn giản hóa cách bạn có thể bắt đầu hành trình Amazon DataZone bằng cách loại bỏ nhu cầu đưa dữ liệu của bạn lên Lake Formation trước tiên.

Hồ hình thành chế độ truy cập kết hợp cho phép bạn bắt đầu quản lý các quyền trên cơ sở dữ liệu và bảng AWS Glue của mình thông qua Lake Formation, trong khi vẫn tiếp tục duy trì mọi quyền hiện có. Quản lý truy cập và nhận dạng AWS (IAM) trên các bảng và cơ sở dữ liệu này. Chế độ truy cập kết hợp Lake Formation hỗ trợ hai đường dẫn cấp phép cho cùng cơ sở dữ liệu và bảng Danh mục dữ liệu:

  • Trong lộ trình đầu tiên, Lake Formation cho phép bạn chọn các hiệu trưởng cụ thể (các nguyên tắc chọn tham gia) và cấp cho họ quyền truy cập vào cơ sở dữ liệu và bảng của Lake Formation bằng cách chọn tham gia
  • Con đường thứ hai cho phép tất cả các hiệu trưởng khác (không được thêm làm hiệu trưởng chọn tham gia) truy cập các tài nguyên này thông qua các chính sách chính của IAM dành cho Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và hành động AWS Glue

Với sự tích hợp giữa chế độ truy cập kết hợp Amazon DataZone và Lake Formation, nếu bạn có các bảng trong Danh mục dữ liệu AWS Glue được quản lý thông qua các chính sách dựa trên IAM, thì bạn có thể xuất bản các bảng này trực tiếp lên Amazon DataZone mà không cần đăng ký chúng trong Lake Formation. Amazon DataZone đăng ký vị trí của các bảng này trong Lake Formation bằng chế độ truy cập kết hợp, cho phép quản lý các quyền trên bảng AWS Glue thông qua Lake Formation, trong khi vẫn tiếp tục duy trì mọi quyền IAM hiện có.

Amazon DataZone cho phép bạn xuất bản bất kỳ loại tài sản nào trong danh mục dữ liệu kinh doanh. Đối với một số tài sản này, Amazon DataZone có thể tự động quản lý cấp quyền truy cập. Những tài sản này được gọi tài sản được quản lývà bao gồm các bảng Danh mục dữ liệu do Lake Formation quản lý cũng như các bảng và dạng xem của Amazon Redshift. Trước khi tích hợp này, bạn phải hoàn thành các bước sau trước khi Amazon DataZone có thể coi bảng Danh mục dữ liệu đã xuất bản là tài sản được quản lý:

  1. Xác định vị trí Amazon S3 được liên kết với bảng Danh mục dữ liệu.
  2. Đăng ký vị trí Amazon S3 với Lake Formation ở chế độ truy cập kết hợp bằng cách sử dụng vai trò với sự cho phép thích hợp.
  3. Xuất bản siêu dữ liệu bảng lên danh mục dữ liệu kinh doanh Amazon DataZone.

Sơ đồ sau minh họa quy trình làm việc này.

Với sự tích hợp của Amazon DataZone với chế độ truy cập kết hợp Lake Formation, bạn có thể dễ dàng xuất bản các bảng AWS Glue của mình lên Amazon DataZone mà không cần phải lo lắng về việc đăng ký vị trí Amazon S3 hoặc thêm hiệu trưởng chọn tham gia trong Lake Formation bằng cách ủy quyền các bước này cho Amazon DataZone . Quản trị viên của tài khoản AWS có thể kích hoạt cài đặt đăng ký vị trí dữ liệu trong DefaultDataLake bản thiết kế chi tiết trên bảng điều khiển Amazon DataZone. Giờ đây, chủ sở hữu dữ liệu hoặc nhà xuất bản có thể xuất bản bảng AWS Glue của họ (được quản lý thông qua quyền IAM) lên Amazon DataZone mà không cần thực hiện thêm các bước thiết lập. Khi người sử dụng dữ liệu đăng ký vào bảng này, Amazon DataZone sẽ đăng ký các vị trí Amazon S3 của bảng ở chế độ truy cập kết hợp, thêm vai trò IAM của người sử dụng dữ liệu làm hiệu trưởng chọn tham gia và cấp quyền truy cập vào cùng vai trò IAM bằng cách quản lý các quyền trên bảng thông qua Lake Formation. Điều này đảm bảo rằng các quyền IAM trên bảng có thể cùng tồn tại với các quyền Lake Formation mới được cấp mà không làm gián đoạn bất kỳ quy trình công việc hiện có nào. Sơ đồ sau đây minh họa quy trình làm việc này.

Tổng quan về giải pháp

Để chứng minh khả năng mới này, chúng tôi sử dụng một tình huống khách hàng mẫu trong đó nhóm tài chính muốn truy cập dữ liệu do nhóm bán hàng sở hữu để phân tích và báo cáo tài chính. Nhóm bán hàng có một quy trình tạo tập dữ liệu chứa thông tin có giá trị về doanh số bán vé, các sự kiện nổi tiếng, địa điểm và các mùa. Chúng tôi gọi nó là tập dữ liệu vé. Nhóm bán hàng lưu trữ tập dữ liệu này trong Amazon S3 và đăng ký nó vào cơ sở dữ liệu trong Danh mục dữ liệu. Quyền truy cập vào bảng này hiện được quản lý thông qua các quyền dựa trên IAM. Tuy nhiên, nhóm bán hàng muốn xuất bản bảng này lên Amazon DataZone để hỗ trợ việc chia sẻ dữ liệu được quản lý và bảo mật với nhóm tài chính.

Các bước để cấu hình giải pháp này như sau:

  1. Quản trị viên Amazon DataZone cho phép cài đặt đăng ký vị trí kho dữ liệu trong Amazon DataZone tự động đăng ký vị trí Amazon S3 của bảng AWS Glue ở chế độ truy cập kết hợp Lake Formation.
  2. Sau khi bật tích hợp chế độ truy cập kết hợp trong Amazon DataZone, nhóm tài chính sẽ yêu cầu đăng ký tài sản dữ liệu bán hàng. Nội dung này hiển thị dưới dạng nội dung được quản lý, nghĩa là Amazon DataZone có thể quản lý quyền truy cập vào nội dung này ngay cả khi vị trí Amazon S3 của nội dung này chưa được đăng ký trong Lake Formation.
  3. Nhóm bán hàng được thông báo về yêu cầu đăng ký do nhóm tài chính đưa ra. Họ xem xét và phê duyệt yêu cầu truy cập. Sau khi yêu cầu được phê duyệt, Amazon DataZone sẽ đáp ứng yêu cầu đăng ký bằng cách quản lý các quyền trong Lake Formation. Nó đăng ký vị trí Amazon S3 của bảng đã đăng ký ở chế độ kết hợp Lake Formation.
  4. Nhóm tài chính có quyền truy cập vào tập dữ liệu bán hàng cần thiết cho báo cáo tài chính của họ. Họ có thể truy cập môi trường DataZone của mình và bắt đầu chạy truy vấn bằng Athena đối với tập dữ liệu đã đăng ký của họ.

Điều kiện tiên quyết

Để làm theo các bước trong bài đăng này, bạn cần có tài khoản AWS. Nếu bạn chưa có tài khoản, bạn có thể Tạo một cái. Ngoài ra, bạn phải định cấu hình các tài nguyên sau trong tài khoản của mình:

  • Một thùng S3
  • Cơ sở dữ liệu và trình thu thập dữ liệu AWS Glue
  • Vai trò IAM cho các cá nhân và dịch vụ khác nhau
  • Một miền và dự án Amazon DataZone
  • Hồ sơ và môi trường Amazon DataZone
  • Nguồn dữ liệu Amazon DataZone

Nếu bạn chưa cấu hình các tài nguyên này, bạn có thể tạo chúng bằng cách triển khai các tài nguyên sau Hình thành đám mây AWS cây rơm:

  1. Chọn Khởi chạy Stack để triển khai mẫu CloudFormation.
  2. Hoàn thành các bước để triển khai mẫu và để tất cả các cài đặt làm mặc định.
  3. Chọn Tôi xác nhận rằng AWS CloudFormation có thể tạo tài nguyên IAM, sau đó chọn Gửi.

Sau khi quá trình triển khai CloudFormation hoàn tất, bạn có thể đăng nhập vào cổng Amazon DataZone và kích hoạt quá trình chạy nguồn dữ liệu theo cách thủ công. Thao tác này sẽ lấy bất kỳ siêu dữ liệu mới hoặc được sửa đổi nào từ nguồn và cập nhật nội dung được liên kết trong khoảng không quảng cáo. Nguồn dữ liệu này đã được định cấu hình để tự động xuất bản nội dung dữ liệu lên danh mục.

  1. Trên bảng điều khiển Amazon DataZone, chọn Xem tên miền.

Bạn nên đăng nhập bằng chính vai trò được dùng để triển khai CloudFormation và xác minh rằng bạn đang ở trong cùng Khu vực AWS.

  1. Tìm tên miền blog_dz_domain, sau đó chọn Cổng dữ liệu mở.
  2. Chọn Duyệt tất cả các dự án Và chọn Dự án sản xuất bán hàng.
  3. trên Ngày tab, chọn Nguồn dữ liệu trong khung điều hướng.
  4. Xác định vị trí và chọn nguồn dữ liệu mà bạn muốn chạy.

Thao tác này sẽ mở trang chi tiết nguồn dữ liệu.

  1. Chọn menu tùy chọn (ba dấu chấm dọc) bên cạnh tickit_datasource Và chọn chạy.

Trạng thái nguồn dữ liệu thay đổi thành Đang chạy khi Amazon DataZone cập nhật siêu dữ liệu nội dung.

Kích hoạt tích hợp chế độ kết hợp trong Amazon DataZone

Ở bước này, quản trị viên Amazon DataZone sẽ thực hiện quy trình kích hoạt tích hợp Amazon DataZone với chế độ truy cập kết hợp Lake Formation. Hoàn thành các bước sau:

  1. Trên một tab trình duyệt riêng, hãy mở bảng điều khiển Amazon DataZone.

Xác minh rằng bạn ở cùng Khu vực nơi bạn đã triển khai mẫu CloudFormation.

  1. Chọn Xem tên miền.
  2. Chọn miền được tạo bởi AWS CloudFormation, blog_dz_domain.
  3. Cuộn xuống trang chi tiết tên miền và chọn bản thiết kế tab.

A kế hoạch chi tiết xác định những công cụ và dịch vụ AWS nào có thể được sử dụng với nội dung dữ liệu được xuất bản trên Amazon DataZone. Các DefaultDataLake kế hoạch chi tiết được kích hoạt như một phần của quá trình triển khai ngăn xếp CloudFormation. Bản thiết kế này cho phép bạn tạo và truy vấn các bảng AWS Glue bằng Athena. Để biết các bước kích hoạt tính năng này trong quá trình triển khai của riêng bạn, hãy tham khảo Kích hoạt bản thiết kế tích hợp trong tài khoản AWS sở hữu miền Amazon DataZone.

  1. Chọn DefaultDataLake bản vẽ thiết kế.
  2. trên Cung cấp tab, chọn Chỉnh sửa.
  3. Chọn Cho phép Amazon DataZone đăng ký vị trí S3 bằng chế độ truy cập kết hợp AWS Lake Formation.

Bạn có tùy chọn loại trừ các vị trí Amazon S3 cụ thể nếu không muốn Amazon DataZone tự động đăng ký chúng với chế độ truy cập kết hợp Lake Formation.

  1. Chọn Lưu các thay đổi.

Yêu cầu quyền truy cập

Ở bước này, bạn đăng nhập vào Amazon DataZone với tư cách là nhóm tài chính, tìm kiếm nội dung dữ liệu bán hàng và đăng ký nội dung đó. Hoàn thành các bước sau:

  1. Quay lại tab trình duyệt cổng dữ liệu Amazon DataZone của bạn.
  2. Chuyển sang dự án tiêu dùng tài chính bằng cách chọn menu thả xuống bên cạnh tên dự án và chọn Dự án tài chính tiêu dùng.

Từ bước này trở đi, bạn đóng vai một người dùng tài chính đang tìm cách đăng ký nội dung dữ liệu được xuất bản ở bước trước.

  1. Trong thanh tìm kiếm, tìm kiếm và chọn sales tài sản dữ liệu.
  2. Chọn Theo dõi.

Nội dung hiển thị dưới dạng nội dung được quản lý. Điều này có nghĩa là Amazon DataZone có thể cấp quyền truy cập vào nội dung dữ liệu này cho dự án của nhóm tài chính bằng cách quản lý các quyền trong Lake Formation.

  1. Nhập lý do cho yêu cầu truy cập và chọn Theo dõi.

Phê duyệt yêu cầu truy cập

Nhóm bán hàng nhận được thông báo rằng yêu cầu truy cập từ nhóm tài chính đã được gửi. Để phê duyệt yêu cầu, hãy hoàn thành các bước sau:

  1. Chọn menu thả xuống bên cạnh tên dự án và chọn Dự án sản xuất bán hàng.

Bây giờ bạn đảm nhận vai trò của nhóm bán hàng, là chủ sở hữu và người quản lý nội dung dữ liệu bán hàng.

  1. Chọn biểu tượng thông báo ở góc trên bên phải của cổng DataZone.
  2. Chọn Yêu cầu đăng ký đã được tạo bài tập.
  3. Cấp quyền truy cập vào tài sản dữ liệu bán hàng cho nhóm tài chính và chọn Phê duyệt.

Phân tích dữ liệu

Nhóm tài chính hiện đã được cấp quyền truy cập vào dữ liệu bán hàng và tập dữ liệu này đã được đưa vào môi trường Amazon DataZone của họ. Họ có thể truy cập vào môi trường và truy vấn tập dữ liệu bán hàng bằng Athena, cùng với bất kỳ tập dữ liệu nào khác mà họ hiện sở hữu. Hoàn thành các bước sau:

  1. Trên menu thả xuống, chọn Dự án tài chính tiêu dùng.

Ở khung bên phải của màn hình tổng quan dự án, bạn có thể tìm thấy danh sách các môi trường hoạt động có sẵn để sử dụng.

  1. Chọn môi trường Amazon DataZone finance_dz_environment.
  2. Trong ngăn dẫn hướng, dưới Tài sản dữ liệu, chọn Đăng ký.
  3. Xác minh rằng môi trường của bạn hiện có quyền truy cập vào dữ liệu bán hàng.

Có thể mất vài phút để nội dung dữ liệu được tự động thêm vào môi trường của bạn.

  1. Chọn biểu tượng tab mới cho Dữ liệu truy vấn.

Một tab mới mở ra với trình soạn thảo truy vấn Athena.

  1. Trong Cơ sở dữ liệu, chọn finance_consumer_db_tickitdb-<suffix>.

Cơ sở dữ liệu này sẽ chứa tài sản dữ liệu đã đăng ký của bạn.

  1. Tạo bản xem trước của bảng bán hàng bằng cách chọn menu tùy chọn (ba dấu chấm dọc) và chọn Xem trước bảng.

Làm sạch

Để dọn dẹp tài nguyên của bạn, hãy hoàn thành các bước sau:

  1. Chuyển về vai trò quản trị viên mà bạn đã sử dụng để triển khai ngăn xếp CloudFormation.
  2. Trên bảng điều khiển Amazon DataZone, xóa các dự án được sử dụng trong bài viết này. Thao tác này sẽ xóa hầu hết các đối tượng liên quan đến dự án như nội dung dữ liệu và môi trường.
  3. Trên bảng điều khiển AWS CloudFormation, hãy xóa ngăn xếp mà bạn đã triển khai ở đầu bài viết này.
  4. Trên bảng điều khiển Amazon S3, hãy xóa nhóm S3 chứa tập dữ liệu vé.
  5. Trên bảng điều khiển Lake Formation, xóa quản trị viên Lake Formation được Amazon DataZone đăng ký.
  6. Trên bảng điều khiển Lake Formation, xóa các bảng và cơ sở dữ liệu được tạo bởi Amazon DataZone.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về cách tích hợp giữa chế độ truy cập kết hợp giữa Amazon DataZone và Lake Formation giúp đơn giản hóa quy trình bắt đầu sử dụng Amazon DataZone để quản trị dữ liệu của bạn từ đầu đến cuối trong Danh mục dữ liệu AWS Glue. Việc tích hợp này giúp bạn bỏ qua các bước thủ công khi triển khai Lake Formation trước khi bạn có thể bắt đầu sử dụng Amazon DataZone.

Để biết thêm thông tin về cách bắt đầu với Amazon DataZone, hãy tham khảo Bắt đầu khóa hướng dẫn. Kiểm tra Danh sách phát YouTube để biết một số bản demo mới nhất của Amazon DataZone và mô tả ngắn gọn về các khả năng sẵn có. Để biết thêm thông tin về Amazon DataZone, hãy xem Cách Amazon DataZone giúp khách hàng tìm thấy giá trị trong đại dương dữ liệu.


Về các tác giả

Utkarsh Mittal là Giám đốc sản phẩm kỹ thuật cấp cao của Amazon DataZone tại AWS. Anh ấy đam mê xây dựng các sản phẩm sáng tạo giúp đơn giản hóa hành trình phân tích từ đầu đến cuối của khách hàng. Ngoài thế giới công nghệ, Utkarsh thích chơi nhạc và trống là nỗ lực mới nhất của anh.

Praveen Kumar là Kiến trúc sư giải pháp phân tích chính tại AWS với chuyên môn về thiết kế, xây dựng và triển khai các nền tảng phân tích và dữ liệu hiện đại bằng cách sử dụng các dịch vụ lấy đám mây làm trung tâm. Lĩnh vực quan tâm của anh là công nghệ không có máy chủ, kho dữ liệu đám mây hiện đại, phát trực tuyến và các ứng dụng AI tổng hợp.

Phao-lô Villena là Kiến trúc sư giải pháp phân tích cấp cao tại AWS với chuyên môn trong việc xây dựng các giải pháp phân tích và dữ liệu hiện đại để thúc đẩy giá trị kinh doanh. Anh làm việc với khách hàng để giúp họ khai thác sức mạnh của đám mây. Lĩnh vực quan tâm của anh là cơ sở hạ tầng dưới dạng mã, công nghệ không có máy chủ và mã hóa bằng Python

tại chỗ_img

Tin tức mới nhất

tại chỗ_img