和風網標誌

Amazon DataZone 宣布與 AWS Lake Formation 混合存取模式整合以實現 AWS Glue 資料目錄 |亞馬遜網路服務

日期:

上週,我們宣布 一般情況 之間的整合 亞馬遜數據區AWS湖形成 混合接取方式。在這篇文章中,我們將分享這項新功能如何幫助您簡化使用 Amazon DataZone 的方式,從而在資料中心中安全、受管控地共享資料。 AWS膠水 數據目錄。我們還深入研究了資料生產者如何透過 Amazon DataZone 共享其 AWS Glue 表,而無需先在 Lake Formation 中註冊它們。

Amazon DataZone 與 Lake Formation 混合存取模式整合概述

Amazon DataZone 是一項完全託管的資料管理服務,用於編目、發現、分析、共享和管理組織中資料生產者和消費者之間的資料。透過 Amazon DataZone,資料生產者可以使用來自 AWS Glue 資料目錄等資料來源的資料資產填充業務資料目錄, 亞馬遜Redshift。他們也透過業務背景豐富自己的資產,使數據消費者能夠輕鬆理解。數據在目錄中可用後,分析師和數據科學家等數據消費者可以透過請求訂閱來搜尋和存取該數據。當請求獲得批准後,Amazon DataZone 可以透過管理 Lake Formation 或 Amazon Redshift 中的權限來自動配置對資料的存取權限,以便資料使用者可以開始使用以下工具查詢資料: 亞馬遜雅典娜 或亞馬遜紅移。

為了管理對 AWS Glue 資料目錄中資料的訪問​​,Amazon DataZone 使用 Lake Formation。以前,如果您想使用 Amazon DataZone 管理對 AWS Glue 資料目錄中資料的訪問​​,則必須先將資料載入到 Lake Formation。現在,Amazon DataZone 和 Lake Formation 混合存取模式的整合簡化了您開始 Amazon DataZone 之旅的方式,無需先將資料載入到 Lake Formation。

湖形成 混合接取方式 讓您開始透過 Lake Formation 管理 AWS Glue 資料庫和資料表的權限,同時繼續維護任何現有的 AWS身份和訪問管理 對這些表和資料庫的 (IAM) 權限。 Lake Formation 混合存取模式支援相同資料目錄資料庫和資料表的兩種權限路徑:

  • 在第一種途徑中,Lake Formation 允許您選擇特定主體(選擇加入主體),並透過選擇加入授予他們存取資料庫和表格的 Lake Formation 權限
  • 第二條路徑允許所有其他委託人(未加入為選擇加入委託人)透過 IAM 委託人策略存取這些資源 亞馬遜簡單存儲服務 (Amazon S3) 和 AWS Glue 操作

透過Amazon DataZone 和Lake Formation 混合存取模式之間的集成,如果您在AWS Glue 資料目錄中有透過基於IAM 的策略管理的表,您可以將這些表直接發佈到Amazon DataZone,而無需在Lake Formation 中註冊它們。 Amazon DataZone 使用混合存取模式在 Lake Formation 中註冊這些資料表的位置,該模式允許透過 Lake Formation 管理 AWS Glue 資料表的權限,同時繼續維護任何現有的 IAM 權限。

Amazon DataZone 可讓您在業務資料目錄中發佈任何類型的資產。對於其中一些資產,Amazon DataZone 可以自動管理存取授權。這些資產稱為 管理資產,並包括 Lake Formation 管理的資料目錄表以及 Amazon Redshift 表格和檢視。在此整合之前,您必須完成以下步驟,Amazon DataZone 才能將已發佈的 Data Catalog 表視為託管資產:

  1. 標識與資料目錄表關聯的 Amazon S3 位置。
  2. 使用混合存取模式向 Lake Formation 註冊 Amazon S3 位置 角色 具有適當的權限。
  3. 將表元資料發佈到 Amazon DataZone 業務資料目錄。

下圖說明了此工作流程。

透過 Amazon DataZone 與 Lake Formation 混合存取模式的集成,您可以簡單地將 AWS Glue 表發佈到 Amazon DataZone,而無需擔心註冊 Amazon S3 位置或透過將這些步驟委託給 Amazon DataZone 在 Lake Formation 中新增選擇加入主體。 AWS 帳戶的管理員可在下列位置啟用資料位置​​註冊設定: DefaultDataLake Amazon DataZone 控制台上的藍圖。現在,資料擁有者或發布者可以將其 AWS Glue 資料表(透過 IAM 權限管理)發佈到 Amazon DataZone,無需額外的設定步驟。當資料使用者訂閱此表時,Amazon DataZone 會以混合存取模式註冊該表的Amazon S3 位置,將資料使用者的IAM 角色新增為選擇加入主體,並透過管理該表的權限來授予對相同IAM 角色的存取權限。表格穿過湖層。這可確保表上的 IAM 權限可以與新授予的 Lake Formation 權限共存,而不會中斷任何現有工作流程。下圖說明了此工作流程。

解決方案概述

為了演示這項新功能,我們使用了一個範例客戶場景,其中財務團隊希望存取銷售團隊擁有的資料以進行財務分析和報告。銷售團隊有一個管道,用於建立一個資料集,其中包含有關門票銷售、熱門活動、場地和季節的有價值資訊。我們稱之為tickit 資料集。銷售團隊將此資料集儲存在 Amazon S3 中,並將其註冊到資料目錄的資料庫中。目前,對此表的存取是透過基於 IAM 的權限進行管理的。但是,銷售團隊希望將此表格發佈到 Amazon DataZone,以促進與財務團隊安全且受監管的資料共享。

配置該解決方案的步驟如下:

  1. Amazon DataZone 管理員啟用 Amazon DataZone 中的資料湖位置註冊設置,以在 Lake Formation 混合存取模式下自動註冊 AWS Glue 表的 Amazon S3 位置。
  2. 在 Amazon DataZone 中啟用混合存取模式整合後,財務團隊請求訂閱銷售資料資產。該資產顯示為託管資產,這意味著即使該資產的 Amazon S3 位置未在 Lake Formation 中註冊,Amazon DataZone 也可以管理對此資產的存取。
  3. 銷售團隊會收到財務團隊提出的訂閱請求的通知。他們審查並批准訪問請求。請求獲得批准後,Amazon DataZone 透過管理 Lake Formation 中的權限來滿足訂閱請求。它以 Lake Formation 混合模式註冊訂閱表的 Amazon S3 位置。
  4. 財務團隊可以存取其財務報告所需的銷售資料集。他們可以轉到 DataZone 環境並開始使用 Athena 針對其訂閱的資料集執行查詢。

條件:

要執行本文中的步驟,您需要一個 AWS 帳戶。如果您沒有帳戶,您可以 創造一個。此外,您的帳戶中必須配置以下資源:

  • 一個 S3 存儲桶
  • AWS Glue 資料庫和爬網程序
  • 不同角色和服務的 IAM 角色
  • Amazon DataZone 網域和項目
  • Amazon DataZone 環境設定檔與環境
  • Amazon DataZone 資料來源

如果您尚未配置這些資源,可以透過部署以下內容來建立它們 AWS 雲形成 堆:

  1. 選擇 啟動堆棧 部署 CloudFormation 模板。
  2. 完成部署模板的步驟並將所有設置保留為默認值。
  3. 選擇 我承認AWS CloudFormation可能會創建IAM資源“,然後選擇” 送出.

CloudFormation部署完成後,您可以登入Amazon DataZone入口網站並手動觸發資料來源運作。這會從來源中提取任何新的或修改的元數據,並更新清單中的關聯資產。此資料來源已配置為自動將資料資產發佈到目錄。

  1. 在 Amazon DataZone 控制台上,選擇 查看域名.

您應該使用與部署 CloudFormation 相同的角色登錄,並驗證您是否位於相同 AWS 區域。

  1. 尋找域名 blog_dz_domain“,然後選擇” 開放資料入口網站.
  2. 選擇 瀏覽所有項目 並選擇 銷售生產者項目.
  3. 數據 標籤,選擇 數據源 在導航窗格中。
  4. 找到並選擇您要執行的資料來源。

這將開啟資料來源詳細資訊頁面。

  1. 選擇旁邊的選項選單(三個垂直點) tickit_datasource 並選擇 .

隨著 Amazon DataZone 更新資產元數據,資料來源狀態變更為正在運作。

在 Amazon DataZone 中啟用混合模式集成

在此步驟中,Amazon DataZone 管理員將完成啟用 Amazon DataZone 與 Lake Formation 混合存取模式整合的過程。完成以下步驟:

  1. 在單獨的瀏覽器標籤上,開啟 Amazon DataZone 控制台。

驗證您是否位於部署 CloudFormation 範本的相同區域。

  1. 選擇 查看域名.
  2. 選擇AWS CloudFormation所建立的網域, blog_dz_domain.
  3. 在網域詳細資訊頁面上向下捲動並選擇 藍圖 標籤。

A 藍圖 定義了哪些 AWS 工具和服務可以與 Amazon DataZone 中發布的資料資產一起使用。這 DefaultDataLake 藍圖作為 CloudFormation 堆疊部署的一部分啟用。此藍圖可讓您使用 Athena 建立和查詢 AWS Glue 表。有關在您自己的部署中啟用此功能的步驟,請參閱 在擁有 Amazon DataZone 網域的 AWS 帳戶中啟用內建藍圖.

  1. 選擇 DefaultDataLake 藍圖。
  2. 配置 標籤,選擇 編輯.
  3. 選擇 允許 Amazon DataZone 使用 AWS Lake Formation 混合存取模式註冊 S3 位置.

如果您不希望 Amazon DataZone 自動將特定 Amazon S3 位置註冊到 Lake Formation 混合存取模式,您可以選擇排除它們。

  1. 選擇 保存更改.

申請進入

在此步驟中,您以財務團隊身分登入 Amazon DataZone,搜尋銷售資料資產並訂閱它。完成以下步驟:

  1. 返回您的 Amazon DataZone 資料入口網站瀏覽器標籤。
  2. 透過選擇項目名稱旁的下拉式選單並選擇來切換到金融消費者項目 金融消費項目.

從這一步開始,您將扮演希望訂閱上一步中發布的數據資產的金融用戶的角色。

  1. 在搜尋欄中搜尋並選擇 sales 數據資產。
  2. 選擇 訂閱.

該資產顯示為託管資產。這意味著 Amazon DataZone 可以透過管理 Lake Formation 中的權限向財務團隊的專案授予對此資料資產的存取權。

  1. 輸入存取請求的原因並選擇 訂閱.

批准存取請求

銷售團隊收到財務團隊已提交訪問請求的通知。若要批准請求,請完成以下步驟:

  1. 選擇項目名稱旁的下拉式選單,然後選擇 銷售生產者項目.

您現在假設銷售團隊的角色,他們是銷售資料資產的所有者和管理員。

  1. 選擇 DataZone 入口網站右上角的通知圖示。
  2. 選擇 訂閱請求已創建 任務。
  3. 向財務團隊授予對銷售數據資產的存取權限並選擇 批准.

分析數據

財務團隊現已獲得銷售資料的存取權限,並且該資料集已傳輸至他們的 Amazon DataZone 環境。他們可以存取環境並使用 Athena 查詢銷售資料集以及他們目前擁有的任何其他資料集。完成以下步驟:

  1. 在下拉式選單中,選擇 金融消費項目.

在項目概述畫面的右側窗格中,您可以找到可供使用的活動環境的清單。

  1. 選擇 Amazon DataZone 環境 finance_dz_environment.
  2. 在導航窗格中, 數據資產選擇 認購.
  3. 驗證您的環境現在是否可以存取銷售數據。

數據資產可能需要幾分鐘的時間才能自動添加到您的環境中。

  1. 選擇新選項卡圖標 查詢數據.

將開啟一個新選項卡,其中包含 Athena 查詢編輯器。

  1. 數據庫選擇 finance_consumer_db_tickitdb-<suffix>.

該資料庫將包含您訂閱的資料資產。

  1. 透過選擇選項選單(三個垂直點)並選擇來產生銷售表的預覽 預覽表.

清理

要清理您的資源,請完成以下步驟:

  1. 切換回您用於部署 CloudFormation 堆疊的管理員角色。
  2. 在 Amazon DataZone 控制台上, 刪除項目 在這篇文章中使用。這將刪除大多數與項目相關的對象,例如資料資產和環境。
  3. 在 AWS CloudFormation 控制台上,刪除您在本文開頭部署的堆疊。
  4. 在 Amazon S3 控制台上,刪除包含tickit 資料集的S3 儲存桶。
  5. 在 Lake Formation 控制台上,刪除 Amazon DataZone 註冊的 Lake Formation 管理員。
  6. 在 Lake Formation 控制台上,刪除 Amazon DataZone 建立的表格和資料庫。

結論

在本文中,我們討論了 Amazon DataZone 和 Lake Formation 混合存取模式之間的整合如何簡化開始使用 Amazon DataZone 對 AWS Glue 資料目錄中的資料進行端到端治理的流程。此整合可協助您在開始使用 Amazon DataZone 之前繞過加入 Lake Formation 的手動步驟。

有關如何開始使用 Amazon DataZone 的更多信息,請參閱 入門指南。 看看 YouTube播放列表 了解 Amazon DataZone 的一些最新演示以及可用功能的簡短描述。有關 Amazon DataZone 的更多信息,請參閱 Amazon DataZone 如何幫助客戶在海量資料中發現價值.


關於作者

烏特卡什·米塔爾 是 AWS 的 Amazon DataZone 資深技術產品經理。他熱衷於建立可簡化客戶端到端分析旅程的創新產品。在科技世界之外,烏特卡什喜歡演奏音樂,鼓是他最新的嘗試。

普拉文·庫瑪(Prveen Kumar) 是 AWS 的首席分析解決方案架構師,擁有使用以雲端為中心的服務設計、建置和實施現代資料和分析平台的專業知識。他感興趣的領域是無伺服器技術、現代雲端資料倉儲、串流媒體和生成式人工智慧應用程式。

保羅維萊納 是 AWS 的高級分析解決方案架構師,擁有建立現代數據和分析解決方案以推動業務價值的專業知識。他與客戶合作,幫助他們利用雲端的力量。他感興趣的領域是基礎設施即程式碼、無伺服器技術和 Python 編碼

現貨圖片

最新情報

現貨圖片