Giới thiệu Hỗ trợ Apache Hudi với Trình thu thập keo AWS | Dịch vụ web của Amazon

Apache Hudi là một định dạng bảng mở mang lại cơ sở dữ liệu và khả năng kho dữ liệu cho các hồ dữ liệu. Apache Hudi giúp các kỹ sư dữ liệu quản lý các thách thức phức tạp, chẳng hạn như quản lý các tập dữ liệu liên tục phát triển với các giao dịch trong khi vẫn duy trì hiệu suất truy vấn. Các kỹ sư dữ liệu sử dụng Apache Hudi để truyền tải khối lượng công việc cũng như tạo các đường dẫn dữ liệu gia tăng hiệu quả. Hudi cung cấp bảng, giao dịch, nâng cấp và xóa hiệu quả, chỉ số nâng cao, dịch vụ truyền trực tuyến, dữ liệu tập hợp và nén chặt tối ưu hóa và đồng thời kiểm soát, trong khi vẫn giữ dữ liệu của bạn ở định dạng tệp nguồn mở. Tối ưu hóa hiệu suất nâng cao của Hudi giúp khối lượng công việc phân tích nhanh hơn với bất kỳ công cụ truy vấn phổ biến nào bao gồm Apache Spark, Presto, Trino, Hive, v.v.

Nhiều khách hàng AWS đã sử dụng Apache Hudi trên các hồ dữ liệu được xây dựng trên Amazon S3 bằng cách sử dụng Keo AWS, một dịch vụ tích hợp dữ liệu không có máy chủ giúp khám phá, chuẩn bị, di chuyển và tích hợp dữ liệu từ nhiều nguồn để phân tích, học máy (ML) và phát triển ứng dụng dễ dàng hơn. Trình thu thập keo AWS là một thành phần của AWS Glue, cho phép bạn tự động tạo siêu dữ liệu bảng từ nội dung dữ liệu mà không yêu cầu xác định siêu dữ liệu theo cách thủ công.

Trình thu thập dữ liệu AWS Glue hiện hỗ trợ các bảng Apache Hudi, đơn giản hóa việc áp dụng Danh mục dữ liệu keo AWS làm danh mục cho các bảng Hudi. Một trường hợp sử dụng điển hình là đăng ký bảng Hudi, bảng này không có định nghĩa bảng danh mục. Một trường hợp sử dụng điển hình khác là di chuyển từ các danh mục Hudi khác, chẳng hạn như kho lưu trữ Hive. Khi di chuyển từ các Danh mục Hudi khác, bạn có thể tạo và lên lịch cho trình thu thập thông tin AWS Glue, đồng thời cung cấp một hoặc nhiều đường dẫn Amazon S3 nơi chứa các tệp bảng Hudi. Bạn có tùy chọn cung cấp độ sâu tối đa của đường dẫn Amazon S3 mà trình thu thập dữ liệu AWS Glue có thể đi qua. Với mỗi lần chạy, trình thu thập thông tin của AWS Glue sẽ trích xuất thông tin lược đồ và phân vùng, đồng thời cập nhật Danh mục dữ liệu AWS Glue với các thay đổi về lược đồ và phân vùng. Trình thu thập thông tin của AWS Glue cập nhật vị trí tệp siêu dữ liệu mới nhất trong Danh mục dữ liệu AWS Glue mà các công cụ phân tích của AWS có thể sử dụng trực tiếp.

Với lần ra mắt này, bạn có thể tạo và lên lịch trình thu thập thông tin AWS Glue để đăng ký các bảng Hudi trong Danh mục dữ liệu AWS Glue. Sau đó, bạn có thể cung cấp một hoặc nhiều đường dẫn Amazon S3 nơi đặt các bảng Hudi. Bạn có tùy chọn cung cấp độ sâu tối đa của đường dẫn Amazon S3 mà trình thu thập thông tin có thể đi qua. Với mỗi lần chạy trình thu thập thông tin, trình thu thập thông tin sẽ kiểm tra từng đường dẫn S3 và lập danh mục thông tin lược đồ, chẳng hạn như bảng mới, xóa và cập nhật lược đồ trong Danh mục dữ liệu AWS Glue. Trình thu thập thông tin kiểm tra thông tin phân vùng và thêm các phân vùng mới được thêm vào Danh mục dữ liệu AWS Glue. Trình thu thập thông tin cũng cập nhật vị trí tệp siêu dữ liệu mới nhất trong Danh mục dữ liệu AWS Glue mà công cụ phân tích AWS có thể sử dụng trực tiếp.

Bài đăng này trình bày cách hoạt động của khả năng thu thập dữ liệu bảng Hudi mới này.

Cách trình thu thập thông tin AWS Glue hoạt động với các bảng Hudi

Bảng Hudi có hai loại, với ý nghĩa cụ thể cho từng loại:

Sao chép khi ghi (CoW) – Dữ liệu được lưu trữ ở định dạng cột (Parquet) và mỗi bản cập nhật sẽ tạo ra một phiên bản tệp mới trong quá trình ghi.
Hợp nhất khi đọc (MoR) – Dữ liệu được lưu trữ bằng cách sử dụng kết hợp các định dạng cột (Parquet) và hàng (Avro). Các bản cập nhật được ghi vào theo hàng delta các tệp và được nén khi cần để tạo các phiên bản mới của tệp cột.

Với bộ dữ liệu CoW, mỗi khi có bản cập nhật cho một bản ghi, tệp chứa bản ghi đó sẽ được ghi lại với các giá trị đã cập nhật. Với tập dữ liệu MoR, mỗi khi có bản cập nhật, Hudi chỉ ghi hàng cho bản ghi đã thay đổi. MoR phù hợp hơn với khối lượng công việc ghi nhiều hoặc thay đổi nhiều với số lần đọc ít hơn. CoW phù hợp hơn với khối lượng công việc đọc nhiều trên dữ liệu ít thay đổi thường xuyên hơn.

Hudi cung cấp ba loại truy vấn để truy cập dữ liệu:

Truy vấn ảnh chụp nhanh – Truy vấn xem ảnh chụp nhanh mới nhất của bảng về một hành động nén hoặc cam kết nhất định. Đối với các bảng MoR, truy vấn ảnh chụp nhanh hiển thị trạng thái gần đây nhất của bảng bằng cách hợp nhất các tệp cơ sở và delta của lát tệp mới nhất tại thời điểm truy vấn.
Truy vấn gia tăng – Truy vấn chỉ thấy dữ liệu mới được ghi vào bảng, do đã có một cam kết hoặc nén nhất định. Điều này cung cấp các luồng thay đổi một cách hiệu quả để kích hoạt các đường dẫn dữ liệu gia tăng.
Đọc các truy vấn được tối ưu hóa – Đối với bảng MoR, truy vấn xem dữ liệu mới nhất được nén. Đối với bảng CoW, truy vấn xem dữ liệu mới nhất được cam kết.

Đối với các bảng sao chép khi ghi, trình thu thập thông tin tạo một bảng duy nhất trong Danh mục dữ liệu AWS Glue bằng Serde ReadOptimized org.apache.hudi.hadoop.HoodieParquetInputFormat.

Đối với các bảng hợp nhất khi đọc, trình thu thập thông tin tạo hai bảng trong Danh mục dữ liệu AWS Glue cho cùng một vị trí bảng:

Một bảng có hậu tố _ro, sử dụng Serde ReadOptimized org.apache.hudi.hadoop.HoodieParquetInputFormat
Một bảng có hậu tố _rt, sử dụng RealTime Serde cho phép truy vấn Ảnh chụp nhanh: org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat

Trong mỗi lần thu thập thông tin, đối với mỗi đường dẫn Hudi được cung cấp, trình thu thập thông tin sẽ thực hiện lệnh gọi API danh sách Amazon S3, lọc dựa trên .hoodie thư mục và tìm tệp siêu dữ liệu gần đây nhất trong thư mục siêu dữ liệu bảng Hudi đó.

Thu thập dữ liệu bảng Hudi CoW bằng trình thu thập thông tin AWS Glue

Trong phần này, chúng ta hãy tìm hiểu cách thu thập dữ liệu Hudi CoW bằng trình thu thập thông tin AWS Glue.

Điều kiện tiên quyết

Dưới đây là những điều kiện tiên quyết cho hướng dẫn này:

Cài đặt và cấu hình Giao diện dòng lệnh AWS (AWS CLI).
Tạo nhóm S3 của bạn nếu bạn chưa có.
Tạo vai trò IAM của bạn cho AWS Glue nếu bạn không có nó. Bạn cần s3:GetObject cho s3://your_s3_bucket/data/sample_hudi_cow_table/.
Chạy lệnh sau để sao chép bảng Hudi mẫu vào vùng lưu trữ S3 của bạn. (Thay thế your_s3_bucket với tên bộ chứa S3 của bạn.)

$ aws s3 sync s3://aws-bigdata-blog/artifacts/hudi-crawler/product_cow/ s3://your_s3_bucket/data/sample_hudi_cow_table/

Hướng dẫn này hướng dẫn bạn sao chép dữ liệu mẫu nhưng bạn có thể dễ dàng tạo bất kỳ bảng Hudi nào bằng AWS Glue. Tìm hiểu thêm trong Giới thiệu hỗ trợ riêng cho Apache Hudi, Delta Lake và Apache Iceberg trên AWS Glue cho Apache Spark, Phần 2: AWS Glue Studio Visual Editor.

Tạo trình thu thập dữ liệu Hudi

Trong hướng dẫn này, hãy tạo trình thu thập thông tin thông qua bảng điều khiển. Hoàn thành các bước sau để tạo trình thu thập thông tin Hudi:

Trên bảng điều khiển AWS Glue, hãy chọn Trình thu thập thông tin.
Chọn Tạo trình thu thập thông tin.
Trong Họ tên, đi vào hudi_cow_crawler. Chọn Sau.
Theo Cấu hình nguồn dữ liệu, chọn Thêm nguồn dữ liệu.
1. Trong Nguồn dữ liệu, chọn hudi.
2. Trong Bao gồm các đường dẫn bảng hudi, đi vào s3://your_s3_bucket/data/sample_hudi_cow_table/. (Thay thế your_s3_bucket với tên bộ chứa S3 của bạn.)
3. Chọn Thêm nguồn dữ liệu Hudi.
Chọn Sau.
Trong Vai trò IAM hiện có, chọn vai trò IAM của bạn, sau đó chọn Sau.
Trong Cơ sở dữ liệu mục tiêu, chọn Thêm cơ sở dữ liệu, sau đó Thêm cơ sở dữ liệu hộp thoại xuất hiện. Vì Tên cơ sở dữ liệu, đi vào hudi_crawler_blog, sau đó chọn Tạo. Chọn Sau.
Chọn Tạo trình thu thập thông tin.

Bây giờ trình thu thập thông tin Hudi mới đã được tạo thành công. Trình thu thập thông tin có thể được kích hoạt để chạy qua bảng điều khiển hoặc thông qua SDK hoặc AWS CLI bằng cách sử dụng StartCrawl API. Nó cũng có thể được lên lịch thông qua bảng điều khiển để kích hoạt trình thu thập thông tin vào những thời điểm cụ thể. Trong hướng dẫn này, hãy chạy trình thu thập thông tin qua bảng điều khiển.

Chọn Chạy trình thu thập thông tin.
Đợi trình thu thập thông tin hoàn tất.

Sau khi trình thu thập thông tin chạy, bạn có thể xem định nghĩa bảng Hudi trong bảng điều khiển AWS Glue:

Bạn đã thu thập dữ liệu thành công bảng Hudi CoR với dữ liệu trên Amazon S3 và tạo bảng Danh mục dữ liệu AWS Glue với sơ đồ được điền sẵn. Sau khi bạn tạo định nghĩa bảng trên Danh mục dữ liệu AWS Glue, các dịch vụ phân tích AWS như Amazon Athena có thể truy vấn bảng Hudi.

Hoàn thành các bước sau để bắt đầu truy vấn trên Athena:

Mở bảng điều khiển Amazon Athena.
Chạy truy vấn sau.

SELECT * FROM "hudi_crawler_blog"."sample_hudi_cow_table" limit 10;

Ảnh chụp màn hình sau đây cho thấy đầu ra của chúng tôi:

Thu thập dữ liệu bảng Hudi MoR bằng trình thu thập thông tin AWS Glue với quyền dữ liệu AWS Lake Formation

Trong phần này, chúng ta hãy tìm hiểu cách thu thập dữ liệu bảng Hudi MoR bằng AWS Glue. Lần này, bạn sử dụng quyền dữ liệu AWS Lake Formation để thu thập thông tin nguồn dữ liệu Amazon S3 thay vì quyền IAM và Amazon S3. Đây là tùy chọn nhưng nó giúp đơn giản hóa cấu hình quyền khi hồ dữ liệu của bạn được quản lý bởi các quyền của AWS Lake Formation.

Điều kiện tiên quyết

Dưới đây là những điều kiện tiên quyết cho hướng dẫn này:

Cài đặt và cấu hình Giao diện dòng lệnh AWS (AWS CLI).
Tạo nhóm S3 của bạn nếu bạn chưa có.
Tạo vai trò IAM của bạn cho AWS Glue nếu bạn không có nó. Bạn cần lakeformation:GetDataAccess. Nhưng bạn không cần s3:GetObject cho s3://your_s3_bucket/data/sample_hudi_mor_table/ bởi vì chúng tôi sử dụng quyền dữ liệu của Lake Formation để truy cập các tệp.
Chạy lệnh sau để sao chép bảng Hudi mẫu vào vùng lưu trữ S3 của bạn. (Thay thế your_s3_bucket với tên bộ chứa S3 của bạn.)

$ aws s3 sync s3://aws-bigdata-blog/artifacts/hudi-crawler/product_mor/ s3://your_s3_bucket/data/sample_hudi_mor_table/

Ngoài các bước xử lý, hãy hoàn thành các bước sau để cập nhật cài đặt Danh mục dữ liệu AWS Glue để sử dụng quyền Lake Formation nhằm kiểm soát tài nguyên danh mục thay vì kiểm soát quyền truy cập dựa trên IAM:

Đăng nhập vào bảng điều khiển Lake Formation với tư cách quản trị viên hồ dữ liệu.
1. Nếu đây là lần đầu tiên truy cập bảng điều khiển Lake Formation, tự thêm mình làm quản trị viên hồ dữ liệu.
Theo Quản trị, chọn Cài đặt danh mục dữ liệu.
Trong Quyền mặc định cho cơ sở dữ liệu và bảng mới được tạo, bỏ chọn Chỉ sử dụng kiểm soát truy cập IAM cho cơ sở dữ liệu mới và Chỉ sử dụng kiểm soát truy cập IAM cho các bảng mới trong cơ sở dữ liệu mới.
Trong Cài đặt phiên bản tài khoản chéo, chọn Phiên bản 3.
Chọn Lưu.

Bước tiếp theo là đăng ký nhóm S3 của bạn tại các vị trí hồ dữ liệu Lake Formation:

Trên bảng điều khiển Lake Formation, hãy chọn Vị trí hồ dữ liệu, và lựa chọn Đăng ký vị trí.
Trong Đường dẫn Amazon S3, đi vào s3://your_s3_bucket/. (Thay thế your_s3_bucket với tên bộ chứa S3 của bạn.)
Chọn Đăng ký vị trí.

Sau đó, cấp cho vai trò trình thu thập thông tin Glue quyền truy cập vào vị trí dữ liệu để trình thu thập thông tin có thể sử dụng quyền Lake Formation để truy cập dữ liệu và tạo bảng trong vị trí đó:

Trên bảng điều khiển Lake Formation, hãy chọn Vị trí dữ liệu Và chọn Cấp.
Trong Người dùng IAM và vai trò, hãy chọn vai trò IAM bạn đã sử dụng cho trình thu thập thông tin.
Trong Khu vực lưu trữ, đi vào s3://your_s3_bucket/data/. (Thay thế your_s3_bucket với tên bộ chứa S3 của bạn.)
Chọn Cấp.

Sau đó, cấp vai trò trình thu thập thông tin để tạo bảng trong cơ sở dữ liệu hudi_crawler_blog:

Trên bảng điều khiển Lake Formation, hãy chọn Quyền của hồ dữ liệu.
Chọn Cấp.
Trong Hiệu trưởng, chọn Người dùng IAM và vai tròvà chọn vai trò của trình thu thập thông tin.
Trong Thẻ LF hoặc tài nguyên danh mục, chọn Tài nguyên danh mục dữ liệu được đặt tên.
Trong Cơ sở dữ liệu, chọn cơ sở dữ liệu hudi_crawler_blog.
Theo Quyền cơ sở dữ liệu, lựa chọn Tạo bảng.
Chọn Cấp.

Tạo trình thu thập dữ liệu Hudi với quyền dữ liệu Lake Formation

Hoàn thành các bước sau để tạo trình thu thập thông tin Hudi:

Trên bảng điều khiển AWS Glue, hãy chọn Trình thu thập thông tin.
Chọn Tạo trình thu thập thông tin.
Trong Họ tên, đi vào hudi_mor_crawler. Chọn Sau.
Theo Cấu hình nguồn dữ liệu, chọn Thêm nguồn dữ liệu.
1. Trong Nguồn dữ liệu, chọn hudi.
2. Trong Bao gồm các đường dẫn bảng hudi, đi vào s3://your_s3_bucket/data/sample_hudi_mor_table/. (Thay thế your_s3_bucket với tên bộ chứa S3 của bạn.)
3. Chọn Thêm nguồn dữ liệu Hudi.
Chọn Sau.
Trong Vai trò IAM hiện có, chọn vai trò IAM của bạn.
Theo Cấu hình Lake Formation – tùy chọn, lựa chọn Sử dụng thông tin xác thực của Lake Formation để thu thập dữ liệu nguồn dữ liệu S3.
Chọn Sau.
Trong Cơ sở dữ liệu mục tiêu, chọn hudi_crawler_blog. Chọn Sau.
Chọn Tạo trình thu thập thông tin.

Bây giờ trình thu thập thông tin Hudi mới đã được tạo thành công. Trình thu thập thông tin sử dụng thông tin xác thực Lake Formation để thu thập thông tin các tệp Amazon S3. Hãy chạy trình thu thập thông tin mới:

Chọn Chạy trình thu thập thông tin.
Đợi trình thu thập thông tin hoàn tất.

Sau khi trình thu thập thông tin chạy, bạn có thể thấy hai bảng định nghĩa bảng Hudi trong bảng điều khiển AWS Glue:

sample_hudi_mor_table_ro (đọc bảng tối ưu hóa)
sample_hudi_mor_table_rt (bảng thời gian thực)

Bạn đã đăng ký nhóm hồ dữ liệu với Lake Formation và đã bật quyền truy cập thu thập thông tin vào hồ dữ liệu bằng quyền Lake Formation. Bạn đã thu thập dữ liệu thành công bảng Hudi MoR với dữ liệu trên Amazon S3 và tạo bảng Danh mục dữ liệu AWS Glue với lược đồ đã được điền. Sau khi bạn tạo định nghĩa bảng trên Danh mục dữ liệu AWS Glue, các dịch vụ phân tích AWS như Amazon Athena có thể truy vấn bảng Hudi.

Hoàn thành các bước sau để bắt đầu truy vấn trên Athena:

Mở bảng điều khiển Amazon Athena.

Chạy truy vấn sau.

SELECT * FROM "hudi_crawler_blog"."sample_hudi_mor_table_rt" limit 10;

Ảnh chụp màn hình sau đây cho thấy đầu ra của chúng tôi:

Chạy truy vấn sau.

SELECT * FROM "hudi_crawler_blog"."sample_hudi_mor_table_ro" limit 10;

Ảnh chụp màn hình sau đây cho thấy đầu ra của chúng tôi:

Kiểm soát truy cập chi tiết bằng cách sử dụng quyền AWS Lake Formation

Để áp dụng biện pháp kiểm soát truy cập chi tiết trên bảng Hudi, bạn có thể hưởng lợi từ các quyền của AWS Lake Formation. Quyền của Lake Formation cho phép bạn hạn chế quyền truy cập vào các bảng, cột hoặc hàng cụ thể, sau đó truy vấn các bảng Hudi thông qua Amazon Athena với khả năng kiểm soát truy cập chi tiết. Hãy định cấu hình quyền Lake Formation cho bảng Hudi MoR.

Điều kiện tiên quyết

Dưới đây là những điều kiện tiên quyết cho hướng dẫn này:

Hoàn thành phần trước Thu thập dữ liệu bảng Hudi MoR bằng trình thu thập thông tin AWS Glue với quyền dữ liệu AWS Lake Formation.
Tạo DataAnalyst người dùng IAM, người có chính sách được quản lý AWS AmazonAthenaTruy cập đầy đủ.

Tạo bộ lọc ô dữ liệu Lake Formation

Trước tiên, hãy thiết lập bộ lọc cho bảng được tối ưu hóa đọc MoR.

Đăng nhập vào bảng điều khiển Lake Formation với tư cách quản trị viên hồ dữ liệu.
Chọn Bộ lọc dữ liệu.
Chọn Tạo bộ lọc mới.
Trong Tên bộ lọc dữ liệu, đi vào exclude_product_price.
Trong Cơ sở dữ liệu mục tiêu, chọn cơ sở dữ liệu hudi_crawler_blog.
Trong Bảng mục tiêu, chọn bàn sample_hudi_mor_table_ro.
Trong cấp cột truy cập, chọn Loại trừ các cộtvà chọn giá cột.
Trong Biểu thức bộ lọc hàng, đi vào true.
Chọn Tạo bộ lọc.

Cấp quyền cho Lake Formation cho người dùng DataAnalyst

Hoàn thành các bước sau để cấp quyền cho Lake Formation cho DataAnalyst người sử dụng

Trên bảng điều khiển Lake Formation, hãy chọn Quyền của hồ dữ liệu.
Chọn Cấp.
Trong Hiệu trưởng, chọn Người dùng IAM và vai tròvà chọn người dùng DataAnalyst.
Trong Thẻ LF hoặc tài nguyên danh mục, chọn Tài nguyên danh mục dữ liệu được đặt tên.
Trong Cơ sở dữ liệu, chọn cơ sở dữ liệu hudi_crawler_blog.
Trong Bảng - tùy chọn, chọn bàn sample_hudi_mor_table_ro.
Trong Bộ lọc dữ liệu - tùy chọn, lựa chọn exclude_product_price.
Trong Quyền lọc dữ liệu, lựa chọn Chọn.
Chọn Cấp.

Bạn đã cấp quyền cho Lake Formation trên cơ sở dữ liệu hudi_crawler_blog và cái bàn sample_hudi_mor_table_ro, không bao gồm cột price cho người dùng DataAnalyst. Bây giờ hãy xác thực quyền truy cập của người dùng vào dữ liệu bằng Athena.

Đăng nhập vào bảng điều khiển Athena với tư cách là người dùng DataAnalyst.

Trên trình soạn thảo truy vấn, hãy chạy truy vấn sau:

SELECT * FROM "hudi_crawler_blog"."sample_hudi_mor_table_ro" limit 10;

Ảnh chụp màn hình sau đây cho thấy đầu ra của chúng tôi:

Bây giờ bạn đã xác nhận rằng cột price không được hiển thị, nhưng các cột khác product_id, product_name, update_atvà category được thể hiện.

Làm sạch

Để tránh các khoản phí không mong muốn đối với tài khoản AWS của bạn, hãy xóa các tài nguyên AWS sau:

Xóa cơ sở dữ liệu AWS Glue hudi_crawler_blog.
Xóa trình thu thập thông tin AWS Glue hudi_cow_crawler và hudi_mor_crawler.
Xóa các tệp Amazon S3 trong s3://your_s3_bucket/data/sample_hudi_cow_table/ và s3://your_s3_bucket/data/sample_hudi_mor_table/.

Kết luận

Bài đăng này trình bày cách hoạt động của trình thu thập thông tin AWS Glue đối với các bảng Hudi. Với sự hỗ trợ của trình thu thập thông tin Hudi, bạn có thể nhanh chóng chuyển sang sử dụng Danh mục dữ liệu AWS Glue làm danh mục bảng Hudi chính của mình. Bạn có thể bắt đầu xây dựng hồ dữ liệu giao dịch không có máy chủ bằng Hudi trên AWS bằng AWS Glue, Danh mục dữ liệu AWS Glue và các biện pháp kiểm soát truy cập chi tiết của Lake Formation cho các bảng và định dạng được công cụ phân tích AWS hỗ trợ.

Giới thiệu về tác giả

Noritaka Sekiyama là Kiến trúc sư dữ liệu lớn chính trong nhóm AWS Glue. Anh ấy làm việc có trụ sở tại Tokyo, Nhật Bản. Ông chịu trách nhiệm xây dựng các hiện vật phần mềm để giúp đỡ khách hàng. Trong thời gian rảnh rỗi, anh ấy thích đạp xe bằng chiếc xe đạp đường trường của mình.

Kyle Dương là Kỹ sư phát triển phần mềm thuộc nhóm AWS Glue và Lake Formation. Anh ấy đam mê xây dựng công nghệ dữ liệu lớn và hệ thống phân tán.

Sandeep Adwankar là Giám đốc Sản phẩm Kỹ thuật Cấp cao tại AWS. Có trụ sở tại Khu vực Vịnh California, ông làm việc với khách hàng trên toàn cầu để chuyển các yêu cầu kinh doanh và kỹ thuật thành các sản phẩm cho phép khách hàng cải thiện cách họ quản lý, bảo mật và truy cập dữ liệu.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/big-data/introducing-apache-hudi-support-with-aws-glue-crawlers/

Trí thông minh dữ liệu tạo

Giới thiệu hỗ trợ Apache Hudi với trình thu thập thông tin AWS Glue | Dịch vụ web của Amazon

Cách trình thu thập thông tin AWS Glue hoạt động với các bảng Hudi

Thu thập dữ liệu bảng Hudi CoW bằng trình thu thập thông tin AWS Glue

Điều kiện tiên quyết

Tạo trình thu thập dữ liệu Hudi

Thu thập dữ liệu bảng Hudi MoR bằng trình thu thập thông tin AWS Glue với quyền dữ liệu AWS Lake Formation

Điều kiện tiên quyết

Tạo trình thu thập dữ liệu Hudi với quyền dữ liệu Lake Formation

Kiểm soát truy cập chi tiết bằng cách sử dụng quyền AWS Lake Formation

Điều kiện tiên quyết

Tạo bộ lọc ô dữ liệu Lake Formation

Cấp quyền cho Lake Formation cho người dùng DataAnalyst

Làm sạch

Kết luận

Giới thiệu về tác giả

🔴Ethereum ETF bị trì hoãn | Tuần này về tiền điện tử – ngày 11 tháng 2024 năm XNUMX

7 đồng xu Meme TỐT NHẤT để mua NGAY – SHIBA INU TIẾP THEO là gì?

Tin tức mới nhất

Bitcoin dẫn đầu doanh số bán NFT trong 30 ngày, vượt xa 24 đối thủ cạnh tranh Blockchain

Ưu tiên lợi thế của người đi đầu thay vì bảo mật khiến các giao thức Defi dễ bị tấn công – Nikita Ovchinnik

HKTDC tổ chức các sự kiện quà tặng, in ấn, đóng gói và cấp phép

Đánh giá về kẹo dẻo Lemme Chill CBD - Chúng có đáng tiền không? – Kết nối chương trình cần sa y tế

Carlie Hanson tri ân bằng bản cover chân thành ca khúc 'Nutshell' của Alice In Chains

Hyundai sẽ sản xuất thêm nhiều xe hybrid để bổ sung cho nhu cầu xe điện đang chậm lại – Autoblog