Logo Zephyrnet

Đánh giá năm 2023 của AWS Lake Formation | Dịch vụ web của Amazon

Ngày:

Sự hình thành hồ AWSKeo AWS Danh mục dữ liệu là một phần không thể thiếu của giải pháp quản trị dữ liệu cho các hồ dữ liệu được xây dựng trên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) với nhiều dịch vụ phân tích AWS tích hợp với chúng. TRONG 2022, chúng tôi đã nói về những cải tiến mà chúng tôi đã thực hiện đối với các dịch vụ này. Chúng tôi tiếp tục lắng nghe câu chuyện của khách hàng và làm việc ngược lại để đưa suy nghĩ của họ vào sản phẩm của mình. Trong bài đăng này, chúng tôi vui mừng tóm tắt kết quả nỗ lực của chúng tôi trong năm 2023 nhằm cải thiện và đơn giản hóa việc quản trị dữ liệu cho khách hàng.

Chúng tôi đã công bố các tính năng và chức năng mới trong AWS re:Invent 2023, như thông lệ hàng năm của chúng tôi. Sau đây là các cuộc thảo luận về re:Invent 2023 giới thiệu các khả năng của Danh mục dữ liệu và Hình thành Hồ:

Chúng tôi nhóm các khả năng mới thành bốn loại:

  • Khám phá và bảo mật
  • Kết nối với chia sẻ dữ liệu
  • Quy mô và tối ưu hóa
  • Kiểm toán và giám sát

Hãy cùng tìm hiểu sâu hơn và thảo luận về các chức năng mới được giới thiệu vào năm 2023.

Khám phá và bảo mật

Sử dụng Lake Formation và Data Catalog làm nền tảng xây dựng, chúng tôi phát động Vùng dữ liệu Amazon vào tháng 2023 năm XNUMX. DataZone là dịch vụ quản lý dữ liệu giúp bạn lập danh mục, khám phá, chia sẻ và quản lý dữ liệu được lưu trữ trên AWS, tại chỗ và các nguồn của bên thứ ba nhanh hơn và đơn giản hơn. Quy trình xuất bản và đăng ký của DataZone nâng cao sự cộng tác giữa các vai trò khác nhau trong tổ chức của bạn và tăng tốc thời gian thu thập thông tin chi tiết về doanh nghiệp từ dữ liệu của bạn. Bạn có thể nâng cao siêu dữ liệu kỹ thuật của Danh mục dữ liệu bằng cách sử dụng trợ lý hỗ trợ AI để đưa siêu dữ liệu kinh doanh của DataZone vào, giúp dễ dàng khám phá hơn. DataZone tự động quản lý các quyền đối với dữ liệu được chia sẻ của bạn trong các dự án DataZone. Để tìm hiểu thêm về DataZone, hãy tham khảo Hướng dẫn sử dụng. Địa điểm kết hợp với DataZone!

Trình thu thập AWS Glue phân loại dữ liệu để xác định định dạng, lược đồ và các thuộc tính liên quan của dữ liệu thô, nhóm dữ liệu vào bảng hoặc phân vùng và ghi siêu dữ liệu vào Danh mục dữ liệu. Vào năm 2023, chúng tôi đã phát hành một số bản cập nhật cho trình thu thập dữ liệu AWS Glue. Chúng tôi đã thêm khả năng mang lại cho bạn phiên bản tùy chỉnh của trình điều khiển JDBC trong trình thu thập thông tin để trích xuất các lược đồ dữ liệu từ nguồn dữ liệu của bạn và điền vào Danh mục dữ liệu. Để tối ưu hóa việc truy xuất phân vùng và cải thiện hiệu suất truy vấn, chúng tôi đã thêm tính năng cho trình thu thập thông tin tự động thêm chỉ mục phân vùng cho các bảng mới được phát hiện. Chúng tôi cũng trình thu thập thông tin tích hợp với Lake Formation, hỗ trợ các quyền tập trung để thu thập thông tin trong tài khoản và nhiều tài khoản của hồ dữ liệu S3. Đây là một số cải tiến được nhiều người mong đợi nhằm đơn giản hóa việc khám phá siêu dữ liệu của bạn bằng trình thu thập thông tin. Trình thu thập thông tin, xin chào!

Chúng tôi cũng đã thấy sự gia tăng đáng kể trong việc sử dụng các định dạng bảng mở (OTF) như Linux Foundation Delta Lake, tảng băng ApacheApache Hudi. Để hỗ trợ các OTF phổ biến này, chúng tôi đã thêm hỗ trợ để thu thập dữ liệu nguyên bản ba định dạng bảng này vào Danh mục dữ liệu. Hơn nữa, chúng tôi đã làm việc với các dịch vụ phân tích AWS khác, chẳng hạn như Amazon EMR, để kích hoạt các quyền chi tiết của Lake Formation trên tất cả ba định dạng bảng mở. Chúng tôi khuyến khích bạn khám phá những tính năng nào của Lake Formation được hỗ trợ cho các bảng OTF. Bien intégré!

Vì các nguồn và kiểu dữ liệu tăng lên theo thời gian, nên sớm hay muộn bạn chắc chắn sẽ có các kiểu dữ liệu lồng nhau trong hồ dữ liệu của mình. Để mang lại khả năng quản trị dữ liệu cho các bộ dữ liệu này mà không làm phẳng chúng, Lake Formation đã bổ sung hỗ trợ cho các biện pháp kiểm soát truy cập chi tiết trên các kiểu dữ liệu và cột lồng nhau. Chúng tôi cũng đã thêm hỗ trợ cho các biện pháp kiểm soát truy cập chi tiết của Lake Formation trong khi chạy Công việc Apache Hive trên Amazon EMR trên EC2 và hơn thế nữa Phòng thu âm Amazon EMR. Với Amazon EMR không có máy chủ, kiểm soát truy cập chi tiết với Lake Formation hiện đã có có sẵn trong bản xem trước. Kết nối les điểm!

Tại AWS, chúng tôi hợp tác rất chặt chẽ với khách hàng để hiểu rõ trải nghiệm của họ. Chúng tôi hiểu rằng việc tham gia Lake Formation từ Quản lý truy cập và nhận dạng AWS (IAM) các quyền dành cho Amazon S3 và Danh mục dữ liệu AWS Glue có thể được sắp xếp hợp lý. Chúng tôi nhận thấy rằng các trường hợp sử dụng của bạn cần linh hoạt hơn trong việc quản trị dữ liệu. Với chế độ truy cập kết hợp trong Lake Formation, chúng tôi đã giới thiệu tính năng bổ sung có chọn lọc các quyền của Lake Formation cho một số người dùng và cơ sở dữ liệu mà không làm gián đoạn những người dùng và khối lượng công việc khác. Bạn có thể xác định bảng danh mục ở chế độ kết hợp và cấp quyền truy cập cho người dùng mới như nhà phân tích dữ liệu và nhà khoa học dữ liệu bằng cách sử dụng Lake Formation trong khi quy trình trích xuất, chuyển đổi và tải (ETL) sản xuất của bạn tiếp tục sử dụng các quyền dựa trên IAM hiện có của họ. Chiến thắng kép!

Hãy nói về quản lý danh tính. Bạn có thể sử dụng nguyên tắc IAM, Tầm nhìn nhanh của Amazon người dùng và nhóm cũng như các tài khoản bên ngoài và người đứng đầu IAM trong các tài khoản bên ngoài để cấp quyền truy cập vào tài nguyên Danh mục dữ liệu trong Lake Formation. Điều gì về danh tính công ty của bạn? Bạn có cần tạo và duy trì nhiều vai trò IAM cũng như ánh xạ chúng tới các danh tính công ty khác nhau không? Bạn có thể thấy vai trò IAM đã truy cập vào bảng nhưng làm cách nào bạn có thể biết được người dùng nào đã truy cập vào bảng đó? Để trả lời những câu hỏi này, Lake Formation được tích hợp với Trung tâm nhận dạng AWS IAM và thêm tính năng để truyền bá danh tính đáng tin cậy. Với điều này, bạn có thể cấp quyền truy cập chi tiết vào danh tính từ nhà cung cấp danh tính hiện tại của tổ chức bạn. Khác Dịch vụ phân tích AWS cũng hỗ trợ danh tính người dùng được truyền bá. Kiểm tra viên của bạn bây giờ có thể thấy rằng người dùng john@anycompany.com, chẳng hạn, đã truy cập vào bảng được quản lý bởi các quyền của Lake Formation bằng cách sử dụng amazon Athena, Amazon EMR và Quang phổ dịch chuyển đỏ Amazon. Tiện ích hội nhập!

Giờ đây, bạn không phải lo lắng về việc di chuyển dữ liệu hoặc sao chép Danh mục dữ liệu sang Khu vực AWS khác để sử dụng dịch vụ AWS cho việc quản trị dữ liệu. Chúng tôi đã mở rộng và thực hiện Lake Formation có sẵn ở tất cả các khu vực 2023. Et thì đấy!

Kết nối với chia sẻ dữ liệu

Lake Formation cung cấp một cách đơn giản để chia sẻ các đối tượng Danh mục dữ liệu như cơ sở dữ liệu và bảng với người dùng nội bộ và bên ngoài. Cơ chế này trao quyền cho các tổ chức truy cập dữ liệu nhanh chóng và an toàn, đồng thời tăng tốc quá trình ra quyết định kinh doanh của họ. Hãy cùng xem lại các tính năng và cải tiến mới được thực hiện vào năm 2023 theo chủ đề này.

Danh mục dữ liệu AWS Glue là thành phần trung tâm và nền tảng của quản trị dữ liệu cho cả Lake Formation và DataZone. Vào năm 2023, chúng tôi đã mở rộng Danh mục dữ liệu thông qua liên đoàn để tích hợp với các kho lưu trữ Apache Hive bên ngoàiChia sẻ dữ liệu dịch chuyển đỏ. Chúng tôi cũng đã cung cấp sẵn mã kết nối, bạn có thể tùy chỉnh để kết nối Danh mục dữ liệu với các kho lưu trữ bổ sung tương thích với Apache Hive. Những tích hợp này mở đường để đưa thêm siêu dữ liệu vào Danh mục dữ liệu, đồng thời cho phép kiểm soát quyền truy cập chi tiết và chia sẻ các tài nguyên này trên các tài khoản AWS một cách dễ dàng với quyền Lake Formation. Chúng tôi cũng đã thêm hỗ trợ để truy cập vào bảng Danh mục dữ liệu của một Khu vực từ các Khu vực khác bằng cách sử dụng liên kết tài nguyên xuyên khu vực. Cải tiến này đơn giản hóa nhiều trường hợp sử dụng để tránh trùng lặp siêu dữ liệu.

Với Liên đoàn hồ AWS CloudTrail tính năng này, bạn có thể khám phá, phân tích, kết hợp và chia sẻ dữ liệu CloudTrail Lake với các nguồn dữ liệu khác trong Danh mục dữ liệu. Đối với CloudTrail Lake, các khả năng kiểm soát quyền truy cập cũng như khả năng truy vấn và trực quan hóa chi tiết đều có sẵn thông qua Athena.

Chúng tôi tiếp tục mở rộng khả năng của Danh mục dữ liệu để hỗ trợ thống nhất Lượt xem trên hồ dữ liệu của bạn. Bạn có thể tạo chế độ xem bằng các phương ngữ SQL và truy vấn khác nhau từ Athena, Redshift Spectrum và Amazon EMR. Điều này cho phép bạn duy trì quyền ở cấp độ xem và không chia sẻ các bảng riêng lẻ. Tính năng xem Danh mục dữ liệu là có sẵn trong bản xem trước, được công bố tại re:Invent 2023.

Quy mô và tối ưu hóa

Khi các truy vấn SQL trở nên phức tạp hơn do dữ liệu thay đổi theo thời gian hoặc có nhiều kết nối, trình tối ưu hóa dựa trên chi phí (CBO) có thể thúc đẩy tối ưu hóa trong kế hoạch truy vấn và dẫn đến hiệu suất nhanh hơn, dựa trên số liệu thống kê về dữ liệu trong bảng. Vào năm 2023, chúng tôi đã bổ sung tính năng hỗ trợ cho thống kê cấp cột cho các bảng trong Danh mục dữ liệu. Khách hàng đã thấy những cải tiến về hiệu suất truy vấn trong Athena và Redshift Spectrum, với tính năng thống kê cột trong bảng được bật. Suivez les chiffres!

Kiểm soát quyền truy cập dựa trên thẻ loại bỏ nhu cầu cập nhật chính sách của bạn mỗi khi tài nguyên mới được thêm vào hồ dữ liệu. Thay vào đó, quản trị viên hồ dữ liệu tạo Thẻ hình thành hồ (Thẻ LF) để gắn thẻ các đối tượng Danh mục dữ liệu và cấp quyền truy cập dựa trên các Thẻ LF này cho người dùng và nhóm. Vào năm 2023, chúng tôi đã bổ sung tính năng hỗ trợ cho Ủy quyền LF-Tag, nơi quản trị viên hồ dữ liệu có thể cấp quyền cho người quản lý dữ liệu và những người dùng khác quản lý Thẻ LF mà không cần đặc quyền của quản trị viên. Dân chủ hóa LF-Tag!

Định dạng Apache Iceberg sử dụng siêu dữ liệu để theo dõi các tệp dữ liệu tạo nên bảng. Những thay đổi đối với bảng, như chèn hoặc cập nhật, sẽ tạo ra các tệp dữ liệu mới. Khi số lượng tệp dữ liệu cho một bảng tăng lên, các truy vấn sử dụng bảng đó có thể trở nên kém hiệu quả hơn. Để cải thiện hiệu suất truy vấn trên bảng Iceberg, bạn cần giảm số lượng tệp dữ liệu bằng cách nén các tệp ghi lại thay đổi nhỏ hơn thành các tệp lớn hơn. Người dùng thường tạo và chạy tập lệnh để thực hiện tối ưu hóa các tệp bảng Iceberg này trong máy chủ của riêng họ hoặc thông qua AWS Glue ETL. Để giảm bớt việc bảo trì bàn Iceberg phức tạp này, khách hàng đã liên hệ với chúng tôi để có giải pháp tốt hơn. Chúng tôi đã giới thiệu tính năng cho tự động nén các bảng Apache Iceberg trong Danh mục dữ liệu. Sau khi bạn bật tính năng nén tự động, Danh mục dữ liệu sẽ tự động quản lý siêu dữ liệu của bảng và cung cấp cho bạn bố cục Amazon S3 luôn được tối ưu hóa cho các bảng Iceberg của bạn. Để tìm hiểu thêm, hãy xem Tối ưu hóa bảng Iceberg. Tự động hóa!

Kiểm toán và giám sát

Biết ai có quyền truy cập vào dữ liệu nào là một thành phần quan trọng của quản trị dữ liệu. Kiểm tra viên cần xác thực rằng siêu dữ liệu và quyền dữ liệu phù hợp đã được đặt trong Lake Formation và Danh mục dữ liệu. Quản trị viên hồ dữ liệu có toàn quyền truy cập vào các quyền và siêu dữ liệu, đồng thời có thể cấp quyền truy cập vào chính dữ liệu đó. Để cung cấp cho người kiểm tra tùy chọn tìm kiếm và xem xét các quyền siêu dữ liệu mà không cấp cho họ quyền truy cập để thực hiện thay đổi đối với các quyền, chúng tôi đã giới thiệu vai trò quản trị viên chỉ đọc trong hồ hình thành. Vai trò này cho phép bạn kiểm tra siêu dữ liệu danh mục, các quyền của Lake Formation và Thẻ LF trong khi hạn chế thực hiện bất kỳ thay đổi nào đối với chúng.

Kết luận

Chúng tôi đã có một năm 2023 tuyệt vời khi phát triển các cải tiến sản phẩm để giúp bạn đơn giản hóa và nâng cao khả năng quản lý dữ liệu của mình bằng cách sử dụng Danh mục dữ liệu và Hình thành hồ. Chúng tôi mời bạn thử những tính năng mới này. Sau đây là danh sách các bài đăng khởi chạy của chúng tôi để tham khảo:

  • Danh mục dữ liệu và các tính năng của trình thu thập thông tin:
  • Đặc điểm hình thành hồ:

Chúng tôi sẽ tiếp tục đổi mới thay mặt cho khách hàng của mình vào năm 2024. Vui lòng chia sẻ suy nghĩ, trường hợp sử dụng và phản hồi của bạn về những cải tiến sản phẩm của chúng tôi trong phần nhận xét hoặc thông qua nhóm tài khoản AWS của bạn. Chúng tôi chúc bạn một năm 2024 hạnh phúc và thịnh vượng. Năm tốt lành!


Giới thiệu về tác giả

Aarthi Srinivasan là Kiến trúc sư dữ liệu lớn cấp cao của AWS Lake Formation. Cô ấy thích xây dựng các giải pháp hồ dữ liệu cho khách hàng và đối tác của AWS. Khi không ngồi trên bàn phím, cô khám phá những xu hướng khoa học và công nghệ mới nhất và dành thời gian cho gia đình.

Leon Stigter là Giám đốc sản phẩm kỹ thuật cấp cao của AWS Lake Formation. Trọng tâm của Leon là giúp các nhà phát triển xây dựng hồ dữ liệu nhanh hơn, với khả năng kết nối liền mạch với các công cụ phân tích, để chuyển đổi dữ liệu thành thông tin chuyên sâu có thể thay đổi trò chơi. Leon quan tâm đến dữ liệu và công nghệ không có máy chủ, đồng thời thích khám phá các thành phố khác nhau trong sứ mệnh nếm thử bánh pho mát ở mọi nơi anh đến.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img