如果没有有效和全面的验证,数据仓库就会变成数据沼泽。
随着雪花作为首选云数据仓库的加速采用,自主验证数据的需求变得至关重要。
虽然现有的数据质量解决方案提供了验证雪花数据的能力,但这些解决方案依赖于基于规则的方法,这种方法无法针对数百个数据资产进行扩展,并且通常容易出现规则覆盖问题。
了解如何实施和采用数据目录
通过我们的在线课程开始为您的组织创建和维护成功的数据目录。 在 31 月 25 日之前使用代码 DATAEDU 可享受 XNUMX% 的折扣!
当前方法和挑战
Snowflake 中的当前焦点 数据仓库 项目是关于数据摄取,将数据从多个数据源(通常具有不同格式)移动到单个目的地的过程。 数据摄取后,业务利益相关者使用和分析数据——这是数据错误和问题开始浮出水面的地方。 因此,企业对 Snowflake 中托管的数据的信心降低。 我们的研究估计,Snowflake 中的任何分析和报告项目平均有 20-30% 用于识别和修复数据问题。 在极端情况下,该项目可能会被完全放弃。
当前的数据验证工具旨在一次为一个表建立数据质量规则。 因此,在为数百个表实施这些解决方案时存在重大的成本问题。 以表格为重点通常会导致规则集不完整,或者通常不会为某些表格实施任何规则,从而导致风险无法缓解。
一般来说,数据工程团队在集成当前的数据验证解决方案时会遇到以下运营挑战:
- 分析数据和咨询主题专家以确定需要实施哪些规则所需的时间
- 执行特定于每个表的规则。 因此,工作量与 Snowflake 中的表格数量成线性比例
- 数据需要从 Snowflake 转移到 Data Quality 解决方案,导致延迟以及重大的安全风险
- 现有工具的审计跟踪能力有限。 为合规性要求生成规则执行结果的审计跟踪通常需要数据工程团队的时间和精力
- 随着数据的发展维护已实施的规则
解决方案框架
组织必须考虑至少满足以下标准的数据验证解决方案:
机器学习启用: 解决方案必须利用 AI/ML 来:
- 识别和编码数据指纹,以检测与新鲜度、完整性、一致性、一致性、唯一性和漂移相关的数据错误。
- 建立验证检查所需的努力不应取决于表的数量。 理想情况下,数据工程师或 数据管家 应该能够通过单击为数百个表建立验证检查。
现场: 解决方案必须在源头验证数据,而无需将数据移动到另一个位置以避免延迟和安全风险。 理想情况下,该解决方案应由 Snowflake 提供支持,以执行所有数据质量分析。
自主性: 解决方案 必须能够:
- 创建新表时自动建立验证检查。
- 当表中的基础数据发生变化时,自动更新现有的验证检查。
- 数据到达后立即对增量数据执行验证,并在错误数量变得不可接受时提醒相关资源。
可扩展性: 该解决方案必须提供与用于存储和计算的底层 Snowflake 平台相同级别的可扩展性。
无服务器: 解决方案必须提供无服务器的可扩展数据验证引擎。 理想情况下,解决方案必须使用 Snowflake 的底层功能。
数据验证管道的一部分: 该解决方案必须易于集成为 数据管道 工作。
集成和开放 API: 解决方案必须开放 API 集成,以便与企业调度、工作流和安全系统轻松集成。
审计追踪/结果的可见性: 解决方案必须提供易于浏览的验证测试结果审计跟踪。
业务利益相关者控制: 解决方案必须让业务利益相关者完全控制自动发现的实施规则。 业务利益相关者应该能够在不涉及数据工程师的情况下添加/修改/停用规则。
结论
数据是现代组织最宝贵的资产。 当前验证数据的方法,特别是 Snowflake,充满了操作挑战,导致信任缺陷和修复数据错误的昂贵、耗时的方法。 迫切需要采用标准化的自治方法来验证雪花数据,以防止数据仓库成为数据沼泽。