和风网标志

AWS Lake Formation 2023 年回顾 |亚马逊网络服务

日期:

AWS湖形成AWS胶水 数据目录是基于数据湖的数据治理解决方案的一个组成部分 亚马逊简单存储服务 (Amazon S3) 与多个 AWS 分析服务集成。在 2022,我们讨论了我们对这些服务所做的增强。我们继续倾听客户的故事,并回溯将他们的想法融入我们的产品中。在这篇文章中,我们很高兴总结 2023 年为改善和简化客户数据治理而努力工作的成果。

正如我们每年的惯例,我们在 AWS re:Invent 2023 期间宣布了我们的新特性和功能。以下是 re:Invent 2023 演讲,展示了 Lake Formation 和数据目录功能:

我们将新功能分为四类:

  • 发现并保护安全
  • 连接数据共享
  • 扩展和优化
  • 审计和监控

让我们更深入地讨论 2023 年推出的新功能。

发现并保护安全

使用 Lake Formation 和数据目录作为基础构建块,我们 推出 亚马逊数据区 将于 2023 年 XNUMX 月推出。DataZone 是一项数据管理服务,可让您更快、更直接地编目、发现、共享和管理跨 AWS、本地和第三方来源存储的数据。 DataZone 的发布和订阅工作流程增强了组织中各个角色之间的协作,并加快了从数据中获取业务洞察的速度。您可以使用 AI 支持的助手将数据目录的技术元数据增强到 DataZone 的业务元数据中,使其更容易被发现。 DataZone 自动管理 DataZone 项目中共享数据的权限。要了解有关 DataZone 的更多信息,请参阅 用户指南. 欢迎数据区!

AWS Glue搜寻器 对数据进行分类以确定原始数据的格式、架构和关联属性,将数据分组到表或分区中,并将元数据写入数据目录。 2023 年,我们发布了 AWS Glue 爬网程序的多项更新。我们增加了将您的 爬网程序中 JDBC 驱动程序的自定义版本 从数据源中提取数据架构并填充数据目录。为了优化分区检索,提高查询性能,我们添加了爬虫功能 自动添加分区索引 对于新发现的表。我们也 与 Lake Formation 集成的爬虫,支持S3数据湖的账户内和跨账户爬取的集中权限。这些是一些备受追捧的改进,可以简化使用爬虫的元数据发现。 爬虫们,致敬!

我们还看到开放表格式 (OTF) 的使用量大幅增加,例如 Linux Foundation Delta Lake、 阿帕奇·冰山阿帕奇·胡迪。为了支持这些流行的 OTF,我们添加了对将这三种表格式本地抓取到数据目录中的支持。此外,我们还与其他 AWS 分析服务合作,例如 亚马逊电子病历,启用 Lake Formation 细粒度权限 所有三种开放表格式。我们鼓励您探索 OTF 表支持 Lake Formation 的哪些功能. Bien intégré!

随着数据源和类型随着时间的推移而增加,您的数据湖中迟早会出现嵌套数据类型。为了在不扁平化数据集的情况下对这些数据集进行数据治理,Lake Formation 添加了对细粒度访问控制的支持 嵌套数据类型和列。我们还在运行时添加了对 Lake Formation 细粒度访问控制的支持 EC2 上的 Amazon EMR 上的 Apache Hive 作业亚马逊EMR Studio。 同 Amazon EMR 无服务器,现在使用 Lake Formation 进行细粒度访问控制 预览版中可用. 连接点!

在 AWS,我们与客户密切合作以了解他们的体验。我们逐渐了解到,加入 Lake Formation 是从 AWS身份和访问管理 可以简化 Amazon S3 和 AWS Glue 数据目录的基于 (IAM) 的权限。我们意识到您的用例在数据治理方面需要更大的灵活性。随着 混合接入方式 在 Lake Formation 中,我们为某些用户和数据库引入了选择性添加 Lake Formation 权限,而不会中断其他用户和工作负载。您可以在混合模式下定义目录表,并使用 Lake Formation 向数据分析师和数据科学家等新用户授予访问权限,同时您的生产提取、转换和加载 (ETL) 管道继续使用其现有的基于 IAM 的权限。 双赢!

我们来谈谈身份管理。您可以使用 IAM 主体, 亚马逊 Quicksight 用户和组以及外部账户和外部账户中的 IAM 委托人,以授予对 Lake Formation 中数据目录资源的访问权限。您的企业形象怎么样?您是否需要创建和维护多个 IAM 角色并将它们映射到各种公司身份?您可以看到访问该表的 IAM 角色,但如何找出哪个用户访问了该表?为了回答这些问题, Lake Formation 与 AWS IAM Identity Center 集成 并添加了可信身份传播功能。这样,您可以向组织现有身份提供商的身份授予细粒度的访问权限。其他 AWS 分析服务 还支持传播用户身份。您的审核员现在可以看到用户 john@anycompany.com,例如,已访问由 Lake Formation 权限管理的表,使用 亚马逊雅典娜、亚马逊 EMR 和 亚马逊红移频谱. 集成方便!

现在,您不必担心将数据移动或将数据目录复制到另一个 AWS 区域即可使用 AWS 服务进行数据治理。我们已经扩大并做出了 所有区域均提供湖泊形成瞧瞧!

连接数据共享

Lake Formation 提供了一种与内部和外部用户共享数据目录对象(例如数据库和表)的简单方法。该机制使组织能够快速、安全地访问数据,并加快其业务决策。让我们围绕这个主题回顾一下 2023 年的新功能和增强功能。

AWS Glue 数据目录是 Lake Formation 和 DataZone 数据治理的核心和基础组件。 2023 年,我们通过联合将数据目录扩展到 与外部 Apache Hive 元存储集成Redshift 数据共享。我们还提供了 连接器代码,您可以对其进行自定义,以将数据目录与其他与 Apache Hive 兼容的元存储连接起来。这些集成为将更多元数据纳入数据目录铺平了道路,并允许使用 Lake Formation 权限轻松地跨 AWS 账户进行细粒度访问控制和共享这些资源。我们还添加了使用以下命令从其他区域访问一个区域的数据目录表的支持 跨区域资源链接。此增强功能简化了许多用例,以避免元数据重复。

随着 AWS CloudTrail 湖联盟 功能,您可以发现、分析、联接 CloudTrail Lake 数据并与 Data Catalog 中的其他数据源共享。对于 CloudTrail Lake,可以通过 Athena 提供细粒度的访问控制以及查询和可视化功能。

我们进一步扩展了数据目录功能以支持统一的 意见 跨越您的数据湖。您可以使用不同的 SQL 方言创建视图,并从 Athena、Redshift Spectrum 和 Amazon EMR 进行查询。这允许您维护视图级别的权限并且不共享各个表。数据目录视图功能是 预览版中可用,在 re:Invent 2023 上宣布。

扩展和优化

随着 SQL 查询随着数据随时间的变化或具有多个联接而变得更加复杂,基于成本的优化器 (CBO) 可以根据表中数据的统计信息推动查询计划的优化并带来更快的性能。 2023 年,我们添加了对 数据目录中表的列级统计信息。在打开表列统计信息的情况下,客户已经看到 Athena 和 Redshift Spectrum 中的查询性能得到了改进。 Suivez les chiffres!

基于标签的访问控制无需在每次将新资源添加到数据湖时更新策略。相反,数据湖管理员创建 Lake Formation 标签 (LF-Tags) 来标记数据目录对象,并根据这些 LF-Tags 向用户和组授予访问权限。 2023 年,我们添加了对 LF 标签委托,数据湖管理员可以向数据管理员和其他用户授予管理 LF-Tags 的权限,而无需管理员权限。 LF标签民主化!

Apache Iceberg 格式使用元数据来跟踪组成表的数据文件。对表的更改(例如插入或更新)会导致创建新的数据文件。随着表的数据文件数量的增加,使用该表的查询的效率可能会降低。为了提高 Iceberg 表的查询性能,您需要通过将较小的更改捕获文件压缩为较大的文件来减少数据文件的数量。用户通常创建并运行脚本,以在自己的服务器中或通过 AWS Glue ETL 对这些 Iceberg 表文件执行优化。为了减轻 Iceberg 表的复杂维护工作,客户向我们寻求更好的解决方案。我们推出的功能是 自动压缩 Apache Iceberg 表 在数据目录中。打开自动压缩后,数据目录会自动管理表的元数据,并为您的 Iceberg 表提供始终优化的 Amazon S3 布局。要了解更多信息,请查看 优化 Iceberg 表. 自动!

审计和监控

了解谁有权访问哪些数据是数据治理的关键组成部分。审核员需要验证 Lake Formation 和数据目录中是否设置了正确的元数据和数据权限。数据湖管理员拥有对权限和元数据的完全访问权限,并且可以授予对数据本身的访问权限。为了向审核员提供搜索和审查元数据权限的选项,而不授予他们更改权限的权限,我们引入了 只读管理员角色 在湖泊形成中。此角色允许您审核目录元数据、Lake Formation 权限和 LF 标签,同时限制对其进行任何更改。

结论

我们度过了令人惊叹的 2023 年,开发产品增强功能,帮助您使用 Lake Formation 和 Data Catalog 简化和增强数据治理。我们邀请您尝试这些新功能。以下是我们发布的帖子列表,供参考:

  • 数据目录和爬虫功能:
  • 湖泊形成特点:

2024 年,我们将继续代表客户进行创新。请在评论部分或通过您的 AWS 客户团队分享您对我们产品改进的想法、用例和反馈。我们祝您 2024 年快乐、繁荣。 新年快乐!


关于作者

阿尔西·斯里尼瓦桑 是 AWS Lake Formation 的高级大数据架构师。 她喜欢为 AWS 客户和合作伙伴构建数据湖解决方案。 当不在键盘上时,她探索最新的科技趋势并与家人共度时光。

莱昂·斯蒂格特 是 AWS Lake Formation 的高级技术产品经理。 Leon 的重点是帮助开发人员更快地构建数据湖,并与分析工具无缝连接,将数据转化为改变游戏规则的见解。 Leon 对数据和无服务器技术感兴趣,并且喜欢探索不同的城市,其使命是随时随地品尝芝士蛋糕。

现货图片

最新情报

现货图片