Logotipo de Zephyrnet

Integridad de datos versus calidad de datos: ¿Hay alguna diferencia? – Blog de IBM

Fecha:

Integridad de datos versus calidad de datos: ¿Hay alguna diferencia? – Blog de IBM



En resumen, sí. Cuando hablamos de integridad de datos, nos referimos a la integridad, precisión, consistencia, accesibilidad y seguridad generales de los datos de una organización. Juntos, estos factores determinan la confiabilidad de los datos de la organización. La calidad de los datos utiliza esos criterios para medir el nivel de integridad de los datos y, a su vez, su confiabilidad y aplicabilidad para el uso previsto. La calidad y la integridad de los datos son vitales para una organización basada en datos que emplea análisis para tomar decisiones comerciales, ofrece acceso a datos de autoservicio para las partes interesadas internas y brinda ofertas de datos a los clientes.

Integridad de datos

Para lograr un alto nivel de integridad de los datos, una organización implementa procesos, reglas y estándares que rigen cómo se recopilan, almacenan, acceden, editan y utilizan los datos. Estos procesos, reglas y estándares funcionan en conjunto para:

  • Validar datos y entrada
  • Eliminar datos duplicados
  • Proporcione copias de seguridad de datos y garantice la continuidad del negocio
  • Proteja los datos a través de controles de acceso
  • Mantener un registro de auditoría para la rendición de cuentas y el cumplimiento

Una organización puede usar cualquier cantidad de herramientas y entornos de nube pública o privada a lo largo del ciclo de vida de los datos para mantener la integridad de los datos a través de algo conocido como el gobierno de datos. Esta es la práctica de crear, actualizar y hacer cumplir constantemente los procesos, reglas y estándares que evitan errores, pérdida de datos, corrupción de datos, mal manejo de datos confidenciales o regulados y violaciones de datos.

Los beneficios de la integridad de datos

Una organización con un alto nivel de integridad de datos puede:

  • Aumente la probabilidad y la velocidad de recuperación de datos en caso de una infracción o un tiempo de inactividad no planificado
  • Protéjase contra el acceso no autorizado y la modificación de datos
  • Lograr y mantener el cumplimiento de manera más eficaz

Una buena integridad de los datos también puede mejorar los resultados de las decisiones comerciales al aumentar la precisión de los análisis de una organización. Cuanto más completo, preciso y consistente es un conjunto de datos, más informados se vuelven la inteligencia comercial y los procesos comerciales. Como resultado, los líderes están mejor equipados para establecer y lograr objetivos que beneficien a su organización e impulsen la confianza de los empleados y consumidores.

Las tareas de ciencia de datos, como el aprendizaje automático, también se benefician enormemente de una buena integridad de datos. Cuando un modelo de aprendizaje automático subyacente se entrena en registros de datos que son confiables y precisos, mejor será ese modelo para hacer predicciones comerciales o automatizar tareas.

Los diferentes tipos de integridad de datos.

Hay dos categorías principales de integridad de datos: integridad de datos físicos e integridad de datos lógicos.

La integridad física de los datos es la protección de la integridad de los datos (lo que significa que no les falta información importante), la accesibilidad y la precisión mientras los datos están almacenados o en tránsito. Los desastres naturales, los cortes de energía, los errores humanos y los ciberataques plantean riesgos para la integridad física de los datos.

La integridad lógica de los datos se refiere a la protección de la consistencia y la integridad de los datos mientras las diferentes partes interesadas y las aplicaciones acceden a ellos en todos los departamentos, disciplinas y ubicaciones. La integridad de los datos lógicos se logra mediante:

  • Prevención de la duplicación (integridad de la entidad)
  • Dictar cómo se almacenan y utilizan los datos (integridad referencial)
  • Preservar los datos en un formato aceptable (integridad del dominio)
  • Asegurar que los datos satisfagan las necesidades únicas o específicas de la industria de una organización (integridad definida por el usuario)

En qué se diferencia la integridad de los datos de la seguridad de los datos

La seguridad de los datos es un subcomponente de la integridad de los datos y se refiere a las medidas adoptadas para evitar el acceso o la manipulación no autorizados de los datos. Los protocolos y herramientas de seguridad de datos efectivos contribuyen a una sólida integridad de los datos. En otras palabras, la seguridad de los datos es el medio, mientras que la integridad de los datos es el objetivo. La capacidad de recuperación de datos, en caso de una violación, ataque, corte de energía o interrupción del servicio, cae dentro del ámbito de la seguridad de datos.

Las consecuencias de una mala integridad de los datos

Los errores humanos, los errores de transferencia, los actos maliciosos, la seguridad insuficiente y el mal funcionamiento del hardware contribuyen a los "datos incorrectos", lo que afecta negativamente la integridad de los datos de una organización. Una organización que se enfrenta a uno o más de estos problemas corre el riesgo de experimentar:

Mala calidad de los datos

Los datos de baja calidad conducen a una mala toma de decisiones debido a análisis inexactos y desinformados. La calidad de datos reducida puede resultar en pérdidas de productividad, disminución de ingresos y daños a la reputación.

Seguridad de datos insuficiente

Los datos que no están debidamente protegidos corren un mayor riesgo de sufrir una filtración de datos o perderse debido a un desastre natural u otro evento no planificado. Y sin la información y el control adecuados sobre la seguridad de los datos, una organización puede incumplir más fácilmente las normativas locales, regionales y globales, como el Reglamento General de Protección de Datos de la Unión Europea.

Calidad de datos

La calidad de los datos es esencialmente la medida de la integridad de los datos. La precisión, integridad, consistencia, validez, singularidad y puntualidad de un conjunto de datos son las medidas de calidad de los datos que las organizaciones emplean para determinar la utilidad y eficacia de los datos para un caso de uso empresarial determinado.

Cómo determinar la calidad de los datos

Los analistas de calidad de datos evaluarán un conjunto de datos utilizando las dimensiones enumeradas anteriormente y asignarán una puntuación general. Cuando los datos ocupan un lugar destacado en todas las dimensiones, se consideran datos de alta calidad que son fiables y dignos de confianza para el caso de uso o la aplicación previstos. Para medir y mantener datos de alta calidad, las organizaciones utilizan reglas de calidad de datos, también conocidas como reglas de validación de datos, para garantizar que los conjuntos de datos cumplan con los criterios definidos por la organización.

Los beneficios de una buena calidad de datos

mejorar la eficiencia

Los usuarios comerciales y los científicos de datos no tienen que perder el tiempo localizando o formateando datos en sistemas dispares. En cambio, pueden acceder fácilmente y analizar conjuntos de datos con mayor confianza. Se ahorra tiempo adicional que de otro modo se habría desperdiciado al actuar sobre datos incompletos o inexactos.

Aumento del valor de los datos

Debido a que los datos tienen un formato coherente y están contextualizados para el usuario o la aplicación, las organizaciones pueden obtener valor de los datos que, de otro modo, podrían haberse descartado o ignorado.

Mejor colaboración y mejor toma de decisiones

Los datos de alta calidad eliminan las incongruencias entre sistemas y departamentos y garantizan datos consistentes en todos los procesos y procedimientos. La colaboración y la toma de decisiones entre las partes interesadas mejoran porque todos se basan en los mismos datos.

Costes reducidos y cumplimiento normativo mejorado

Los datos de alta calidad son fáciles de localizar y acceder. Debido a que no hay necesidad de volver a crear o rastrear conjuntos de datos, los costos de mano de obra se reducen y los errores de entrada manual de datos son menos probables. Y debido a que los datos de alta calidad son fáciles de almacenar en el entorno correcto, así como recopilar y compilar en informes obligatorios, una organización puede garantizar mejor el cumplimiento y evitar sanciones reglamentarias.

Experiencias mejoradas de empleados y clientes

Los datos de alta calidad brindan información más precisa y profunda que una organización puede usar para brindar una experiencia más personalizada e impactante para empleados y clientes.

Las seis dimensiones de la calidad de los datos

Para determinar la calidad de los datos y asignar una puntuación general, los analistas evalúan un conjunto de datos utilizando estas seis dimensiones, también conocidas como características de los datos:

  1. Precisión: ¿Se puede demostrar que los datos son correctos y reflejan el conocimiento del mundo real?
  2. Completitud: ¿Los datos comprenden toda la información relevante y disponible? ¿Hay elementos de datos faltantes o campos en blanco?
  3. Coherencia: ¿Coinciden los valores de datos correspondientes entre ubicaciones y entornos?
  4. Validez: ¿Se recopilan los datos en el formato correcto para el uso previsto?
  5. Unicidad: ¿Los datos están duplicados o superpuestos con otros datos?
  6. Puntualidad: ¿Los datos están actualizados y fácilmente disponibles cuando se necesitan?

Cuanto más alto sea el puntaje de un conjunto de datos en cada una de estas dimensiones, mayor será su puntaje general. Una puntuación general alta indica que un conjunto de datos es confiable, de fácil acceso y relevante.

Cómo mejorar la calidad de los datos

Algunos métodos e iniciativas comunes que utilizan las organizaciones para mejorar la calidad de los datos incluyen:

Perfil de datos

La creación de perfiles de datos, también conocida como evaluación de la calidad de los datos, es el proceso de auditar los datos de una organización en su estado actual. Esto se hace para descubrir errores, inexactitudes, lagunas, datos inconsistentes, duplicaciones y barreras de accesibilidad. Se puede usar cualquier cantidad de herramientas de calidad de datos para perfilar conjuntos de datos y detectar anomalías de datos que necesitan corrección.

Limpieza de datos

La limpieza de datos es el proceso de remediar los problemas de calidad de los datos y las inconsistencias descubiertas durante la creación de perfiles de datos. Esto incluye la deduplicación de conjuntos de datos, de modo que no existan múltiples entradas de datos sin querer en varias ubicaciones.

Estandarización de datos

Este es el proceso de conformar activos de datos dispares y big data no estructurados en un formato coherente que garantiza que los datos estén completos y listos para usar, independientemente de la fuente de datos. Para estandarizar los datos, se aplican reglas comerciales para garantizar que los conjuntos de datos se ajusten a los estándares y necesidades de una organización.

Geocodificación

La geocodificación es el proceso de agregar metadatos de ubicación a los conjuntos de datos de una organización. Al etiquetar datos con coordenadas geográficas para rastrear de dónde se originaron, dónde han estado y dónde residen, una organización puede garantizar que se cumplan los estándares de datos geográficos nacionales y globales. Por ejemplo, los metadatos geográficos pueden ayudar a una organización a garantizar que su gestión de los datos de los clientes cumpla con el RGPD.

Emparejar o vincular

Este es el método para identificar, fusionar y resolver datos duplicados o redundantes.

Supervisión de la calidad de los datos

Mantener una buena calidad de los datos requiere una gestión continua de la calidad de los datos. El monitoreo de la calidad de los datos es la práctica de revisar conjuntos de datos previamente puntuados y reevaluarlos en función de las seis dimensiones de la calidad de los datos. Muchos analistas de datos usan un tablero de calidad de datos para visualizar y rastrear los KPI de calidad de datos.

Validación por lotes y en tiempo real

Esta es la implementación de reglas de validación de datos en todas las aplicaciones y tipos de datos a escala para garantizar que todos los conjuntos de datos se adhieran a estándares específicos. Esto se puede hacer periódicamente como un proceso por lotes o de forma continua en tiempo real a través de procesos como la captura de datos modificados.

Gestión de datos maestros

La gestión de datos maestros (MDM) es el acto de crear y mantener un registro de datos centralizado en toda la organización donde se catalogan y rastrean todos los datos. Esto le da a la organización una ubicación única para ver y evaluar rápidamente sus conjuntos de datos, independientemente de dónde residan esos datos o de su tipo. Por ejemplo, los datos de los clientes, la información de la cadena de suministro y los datos de marketing residirían en un entorno de MDM.

Integridad de datos, calidad de datos e IBM

IBM ofrece una amplia gama de capacidades integradas de calidad y gobierno de datos, que incluyen creación de perfiles de datos, limpieza de datos, monitoreo de datos, comparación de datos y enriquecimiento de datos para garantizar que los consumidores de datos tengan acceso a datos confiables y de alta calidad. Solución de gobierno de datos de IBM ayuda a las organizaciones a establecer una base automatizada basada en metadatos que asigna puntajes de calidad de datos a los activos y mejora la conservación a través de reglas de automatización listas para usar para simplificar la gestión de calidad de datos.

Con capacidades de observación de datos, IBM puede ayudar a las organizaciones a detectar y resolver problemas dentro de las canalizaciones de datos más rápidamente. La asociación con Manta para capacidades de linaje de datos automatizado permite a IBM ayudar a los clientes a encontrar, rastrear y prevenir problemas más cerca de la fuente.

Obtenga más información sobre cómo diseñar la arquitectura de datos adecuada para elevar la calidad de sus datos aquí.

Categorias relacionadas

Más de Analítica

Las empresas necesitan IA generativa adaptada a sus necesidades únicas, con sus propios datos únicos

3 min leerEn menos de un año, hemos pasado del paradigma de "gestionar su negocio y aplicar la IA para ayudar" a una realidad en la que las empresas de todos los sectores están explorando cómo integrar la IA en la estructura de sus estrategias. La IA generativa basada en modelos básicos nos ha llevado a este punto de inflexión. De hecho, una nueva investigación del estudio de CEO del Institute for Business Value de IBM encontró que tres de cada cuatro (75%) de los CEO encuestados creen que la organización con la IA generativa más avanzada gana, y...

3 min leer

IBM anuncia la disponibilidad de Netezza Performance Server como servicio de alto rendimiento y nativo de la nube en AWS

4 min leerLa revolución de la IA está aquí, pero también lo están la multitud de desafíos de datos que las organizaciones enfrentan ahora para hacer que la IA funcione de manera efectiva para ellos. Cuando se trata de escalar nuevas cargas de trabajo, los almacenes de datos en la nube tradicionales han dejado a los clientes con un aprovisionamiento excesivo, bloqueo de proveedores y una capacidad limitada para optimizar tanto el análisis de alto rendimiento como las cargas de trabajo de IA. Las empresas de hoy tienen una opción: o se auto-interrumpen o se ven interrumpidas por modelos comerciales más nuevos y ágiles. Estos modelos se han puesto en práctica con éxito...

4 min leer

Presentamos la próxima generación de Db2 Warehouse: nuestro almacén de datos rentable y nativo de la nube creado para cargas de trabajo críticas y siempre activas

4 min leerEstamos encantados de presentar la disponibilidad general de nuestra próxima generación de Db2 Warehouse en Amazon Web Services (AWS) nativo de la nube. Este es un cambio de juego para las organizaciones que buscan optimizar costos, mejorar el rendimiento, compartir datos de manera responsable y desbloquear todo el potencial de sus datos para análisis e inteligencia artificial. Con la próxima generación de Db2 Warehouse, estamos introduciendo una gran cantidad de nuevas capacidades. ¿Qué hay de nuevo? 1. Reduzca sus costos de análisis hasta 34 × 1 La próxima generación de Db2 Warehouse presenta soporte nativo en la nube para...

4 min leer

Db2 Warehouse ofrece un rendimiento de consultas 4 veces más rápido que antes, al tiempo que reduce los costos de almacenamiento en 34 veces

5 min leerLos almacenes de datos son un componente crítico del ecosistema tecnológico de cualquier organización. Proporcionan la columna vertebral para una variedad de casos de uso, como informes de inteligencia comercial (BI), tableros y análisis predictivos basados ​​en aprendizaje automático (ML) que permiten una toma de decisiones y conocimientos más rápidos. La próxima generación de IBM Db2 Warehouse trae una serie de nuevas capacidades que agregan soporte de almacenamiento de objetos en la nube con almacenamiento en caché avanzado para ofrecer un rendimiento de consultas 4 veces más rápido que antes, al tiempo que reduce los costos de almacenamiento en 34 × 1. Leer la AG...

5 min leer

punto_img

Información más reciente

punto_img