AWS Lake Formation 2023 年度回顾 大数据博客
AWS Lake Formation 2023 年度回顾
作者:Aarthi Srinivasan 和 Leon Stigter,发表于 2024年1月18日,AWS Lake Formation永久链接 评论 分享
关键要点
AWS Lake Formation 和 AWS Glue 数据目录是构建在 Amazon S3 上的数据湖数据治理解决方案的重要组成部分。2023 年,我们推出了新功能,专注于提升数据发现和安全性、数据共享、可扩展性及优化、审计和监控。在 AWS reInvent 2023 上展示了诸多新功能,包括改进的爬虫、数据共享机制以及对开源表格式的支持。我们致力于根据客户反馈,不断改善和简化数据治理过程,欢迎客户试用我们的新功能。AWS Lake Formation 和 AWS Glue 数据目录一直是基于 Amazon S3 的数据湖数据治理解决方案的重要组成部分,并与多个 AWS 分析服务集成。在 2022 年,我们介绍了对这些服务的增强。今年,我们继续倾听客户故事,并根据他们的反馈对产品进行改进。在这篇文章中,我们很高兴总结2023年的努力成果,以改善和简化客户的数据治理。
我们在 AWS reInvent 2023 上首次宣布了新特性和功能,如同每年一样。以下是展示 Lake Formation 和数据目录功能的 reInvent 2023 讲座
AWS Lake Formation 的新功能 本次会议总结了新功能,以及如何最大程度地利用 Lake Formation。会议还突出了杜克能源与 Lake Formation 和 AWS Glue 数据目录的合作历程。轻松且安全地准备、共享和查询数据 本次会议展示了如何使用 Lake Formation 和 AWS Glue 数据目录来共享数据、无代码准备和转换数据,以及查询数据。大规模管理和策划数据 本次会议展示了如 AWS Glue、AWS Glue 数据质量 和 Lake Formation 等解决方案,如何帮助您管理最佳数据源和查找敏感信息。
我们将新功能分为四类:
新功能类别发现与安全数据共享可扩展性与优化审计与监控接下来,让我们深入探讨2023年推出的新功能。
发现与安全
以 Lake Formation 和数据目录为基础,我们在2023年10月推出了 Amazon DataZone。DataZone 是一项数据管理服务,使您能够更快速、简单地对 AWS、内部和第三方数据进行目录分类、发现、共享和治理。DataZone 的发布与订阅工作流增强了您组织内不同角色之间的协作,并加快了从数据中获得商业洞察的时间。您可以利用 AI 驱动的助手提高数据目录的技术元数据,使其更易于发现。DataZone 会自动管理您在 DataZone 项目中共享数据的权限。有关 DataZone 的更多信息,请参见 用户指南。 欢迎来到 DataZone!
AWS Glue 爬虫 用于分类数据,以确定原始数据的格式、结构和相关属性,将数据分组为表或分区,并将元数据写入数据目录。2023年,我们对 AWS Glue 爬虫进行了多项更新。我们增加了将自定义 JDBC 驱动程序带入爬虫中的能力,以便从数据源提取数据结构并填充数据目录。为了优化分区检索并改善查询性能,我们添加了自动为新发现的表创建分区索引的功能。我们还与 Lake Formation 集成爬虫,支持对 S3 数据湖的集中权限管理。这些改进大大简化了使用爬虫进行元数据发现的过程。 爬虫,你好!
我们还看到开放表格式OTFs如 Linux Foundation Delta Lake、Apache Iceberg 和 Apache Hudi 的使用急剧增加。为了支持这些流行的 OTFs,我们添加了原生爬虫对这三种表格式的支持。此外,我们与其他 AWS 分析服务如 Amazon EMR合作,启用了 Lake Formation 对这三种开放表格式的细粒度权限控制。我们鼓励您探索 Lake Formation 对 OTF 表支持的功能。 很好集成!
随着数据源和类型的增加,您最终会在数据湖中拥有嵌套数据类型。为了在不扁平化这些数据集的情况下实现数据治理,Lake Formation 添加了对 嵌套数据类型和列的细粒度访问控制 的支持。我们还在运行 Apache Hive jobs on Amazon EMR 和 Amazon EMR Studio 时增加了 Lake Formation 的细粒度访问控制支持。使用 Amazon EMR Serverless,细粒度访问控制功能目前已 可用预览。 连接点!
在 AWS,我们与客户保持密切合作,以了解其体验。我们明白从 AWS Identity and Access ManagementIAM基于 Amazon S3 和 AWS Glue 数据目录的权限迁移到 Lake Formation 的过程可以优化。我们意识到,您的用例需要更大的数据治理灵活性。通过 Lake Formation 的 混合访问模式,我们引入了 对某些用户和数据库选择性添加 Lake Formation 权限的功能,而不会干扰其他用户和工作负载。您可以在混合模式下定义一个目录表,并使用 Lake Formation 向新的用户如数据分析师和数据科学家授予访问权限,而您的生产提取、转换和加载ETL管道可以继续使用现有的 IAM 基于权限。 双重胜利!
让我们谈谈身份管理。您可以使用 IAM 实体、Amazon Quicksight 用户和组,和外部账户及其上的 IAM 实体授予对 Lake Formation 中数据目录资源的访问权限。您的公司身份是什么?您是否需要创建和维护多个 IAM 角色并将其映射到不同的公司身份?您可以看到访问表的 IAM 角色,但如何找出哪些用户访问了它?为了解答这些问题,Lake Formation 还与 AWS IAM 身份中心集成,并添加了受信任身份传播功能。通过此功能,您可以向来自现有身份提供者的身份授予细粒度访问权限。其他 AWS 分析服务 也支持用户身份传播。您的审计人员现在可以看到,像 john@anycompanycom 的用户通过 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 访问了由 Lake Formation 权限管理的表。 轻松集成!
现在,您无需担心将数据移到另一个 AWS 区域或复制数据目录以使用 AWS 的数据治理服务。我们在2023年将 Lake Formation 扩展到所有区域。 瞧!
与数据共享连接
Lake Formation 提供了一种简单的方法,与内部和外部用户共享数据目录对象如数据库和表。这一机制赋予组织快速、安全地访问数据的能力,并加快业务决策的速度。让我们回顾一下在2023年此主题下的新功能和改进。
AWS Glue 数据目录是 Lake Formation 和 DataZone 数据治理的核心和基础组件。在2023年,我们通过联合扩展数据目录,以 集成外部 Apache Hive 元存储和 Redshift 数据共享 等功能。我们还发布了 连接器代码,您可以自定义连接数据目录以配合其他 Apache Hive 兼容的元存储。这些集成使数据目录获得更多元数据,并能轻松地使用 Lake Formation 权限进行细粒度访问控制和资源共享。我们还支持通过 跨区域资源链接 从一个区域访问另一个区域的数据目录表。此改进简化了许多用例,避免了元数据重复。
通过 AWS CloudTrail Lake 联合 功能,您可以发现、分析、连接和与其他数据源共享 CloudTrail Lake 数据,使用数据目录的细粒度访问控制和查询可视化能力进行操作。
我们进一步扩展了数据目录的功能,以支持数据湖跨域的 统一视图。您可以使用不同的 SQL 方言创建视图,并从 Athena、Redshift Spectrum 和 Amazon EMR 查询。这允许您在视图级别维持权限,而不共享单个表。数据目录的视图功能 现已提供预览,并在 reInvent 2023 上宣布。
clash for abdroid可扩展性与优化
随着 SQL 查询随着时间的数据变化变得更加复杂或多重连接,成本优化器CBO可以基于表中数据的统计信息,驱动查询计划的优化并提升性能。2023年,我们增加了对数据目录中表的 列级统计信息支持。客户已经在 Athena 和 Redshift Spectrum 中看到开启表列统计后的查询性能提升。 跟随数字!
基于标签的访问控制消除了每次向数据湖添加新资源时更新策略的需要。相反,数据湖管理员创建 Lake Formation 标签LF 标签,对数据目录对象进行标记,并根据这些 LF 标签授予用户和组访问权限。在2023年,我们新增了 LF 标签委托 的支持,使数据湖管理员能够向数据保护员和其他用户授予管理 LF 标签的权限,而无需管理员权限。 LF 标签民主化!
Apache Iceberg 格式利用元数据追踪构成表的数据文件。对表进行的更改例如插入或更新会导致新数据文件的创建。随着表的数据文件数量增加,使用该表的查询效率可能降低。为了提高 Iceberg 表的查询性能,需要通过将较小的变更捕获文件压缩为更大的文件来减少数据文件的数量。用户通常会在自己的服务器或通过 AWS Glue ETL 创建和运行脚本来进行这些 Iceberg 表文件的优化。为了解决 Iceberg 表的复杂维护,客户向我们寻求更好的解决方案。我们引入了 Apache Iceberg 表的自动压缩功能,一旦您开启了自动压缩,数据目录会自动管理表的元数据,并为您的 Iceberg 表提供始终优化的 Amazon S3 布局。要了解更多信息,请查看 优化 Iceberg 表。 自动化!
审计与监控
了解谁可以访问何种数据是数据治理的关键组成部分。审计人员需要验证 Lake Formation 和数据目录中是否设置了正确的元数据和数据权限。数据湖管理员拥有完全的权限和元数据访问权限,并可以授予对数据本身的访问权限。为给审计人员提供审查权限和元数据的选项而不授予其修改权限的权限,我们在 Lake Formation 中引入了 只读管理员角色。该角色使您可以审计目录元数据及 Lake Formation 权限和 LF 标签,同时限制对权限和元数据的修改。
结论
我们度过了一个出色的 2023 年,开发了产品增强功能,帮助您使用 Lake Formation 和数据目录简化和增强数据治理。我们邀请您尝试这些新功能。以下是我们版本发布帖子以供参考的列表:
数据目录和爬虫功能:AWS Glue 爬虫支持跨账户爬取以支持数据网格架构有效爬取数据湖并通过 AWS Glue 爬虫提高数据访问,使用分区索引为 AWS Glue 爬虫引入原生 Delta Lake 表支持为 Apache Iceberg 格式引入 AWS Glue 爬虫和创建表支持为 AWS Glue 爬虫引入 Apache Hudi 支持使用 AWS Glue 数据目录列级统计信息增强查询性能AWS Glue 数据目录现在支持自动压缩 Apache Iceberg 表
Lake Formation 功能:
Amazon DataZone 现已普遍可用 跨组织边界协作数据项目基于 AWS Lake Formation 权限查询 Apache Hive 元存储[中心化管理 Amazon Redshift 数据共享的访问权限与 AWS Lake Formation](https//awsamazoncom/blogs/bigdata/centrallymanageaccessandpermissionsforamazonredshiftdatasharingwithawslake