Logotipo de Zephyrnet

Auditoría de datos en la era del aprendizaje automático: objetivos y desafíos

Fecha:

A pesar de sus muchos beneficios, la aparición de sistemas de aprendizaje automático de alto rendimiento para analítica aumentada en los últimos 10 años ha llevado a una creciente cultura analítica "plug-and-play", donde grandes volúmenes de datos opacos se lanzan arbitrariamente a un algoritmo hasta que produce inteligencia comercial útil. ¿Qué significa esto en términos de auditoría de datos? Discutámoslo.

Auditoría de datos y el problema de la caja negra

Debido a la naturaleza de caja negra de un flujo de trabajo típico de aprendizaje automático, puede ser difícil comprender o dar cuenta del alcance de los datos "oscuros" que sobreviven a estos procesos; o la medida en que la procedencia no reconocida o el alcance inexplorado de las fuentes de datos podría exponer legalmente una aplicación posterior más adelante.

APRENDE A IMPLEMENTAR UN CATÁLOGO DE DATOS

Comience a crear y mantener un catálogo de datos exitoso para su organización con nuestros cursos en línea.

Esto plantea varias preguntas:

  • ¿Cuáles son las implicaciones de máquina de aprendizaje's naturaleza desconcertante para la auditoría de datos?
  • ¿Pasaron los datos por jurisdicciones que gravan a la empresa con obligaciones legales con respecto a su almacenamiento?
  • ¿Se comprenden suficientemente bien el esquema evolutivo y los orígenes de los datos para aplacar las preocupaciones de los socios o para satisfacer la fase de "diligencia debida" de una compra total?
  • ¿Es su opacidad una responsabilidad potencialmente fatal frente a los próximos estándares regulatorios que no existían cuando se introdujeron los datos por primera vez?

Aquí, veremos posibles respuestas a algunas de estas preguntas, aclarando las razones detrás de la auditoría de datos y definiendo algunas pautas para abordar la auditoría de datos en el campo de la IA y el aprendizaje automático. 

Objetivos de la auditoría de datos

En la mayoría de las jurisdicciones, una auditoría de datos no es actualmente un evento oficial y prescrito. Más bien, es un proceso que puede involucrar diferentes estándares de transparencia y divulgación. 

Aunque los objetivos de una auditoría de datos pueden variar dependiendo de si la auditoría se realiza para el cumplimiento (demandas externas) o el desempeño (revisión comercial interna de los procesos), cualquier tipo de auditoría es una oportunidad que vale la pena para ajustar su recopilación de datos y procedimientos y políticas de gobierno, y tener en cuenta ambos conjuntos de necesidades.

Por lo tanto, algunos de los objetivos de una auditoría de datos pueden incluir:

  • El uso de recursos de datos sin explotar para desarrollar nuevos procesos.
  • La reducción de la carga de almacenamiento de una empresa mediante la identificación de datos no procesables y legalmente irrelevantes
  • La necesidad de cumplir con las regulaciones (como las políticas de privacidad) y los términos de la licencia (incluidas las cláusulas de "uso justo"), evitando así responsabilidades legales
  • La identificación de material no indexado, con miras a desarrollar un plan futuro para él (como eliminación, evaluación de requisitos de gobernanza o indexación general)
  • La detección y eliminación de datos maliciosos mientras se aseguran los canales y protocolos que permitieron su entrada.
  • El establecimiento de flujos de trabajo para el manejo automático de anomalías de datos en auditorías futuras (por ejemplo, si los datos no conformes o mal etiquetados activan una alerta manual)

Arrojando luz sobre los datos de origen

Por naturaleza, los algoritmos de aprendizaje automático absorben y oscurecen sus fuentes de datos (conjuntos de datos), definiendo las características deseadas que se extraerán de un conjunto de datos y generalizando esas características en el espacio latente del proceso de entrenamiento. Los algoritmos resultantes son, por lo tanto, representativos y abstractos y, en general, se consideran incapaces de exponer explícitamente sus datos de origen contribuyentes.

Sin embargo, la confianza en esta oscuridad automática se ve cada vez más cuestionada por los métodos recientes para exponer los datos de origen de la salida algorítmica, como la inversión del modelo. 

El papel de la inversión del modelo

Las técnicas de inversión de modelos están demostrando ser capaces de revelar información confidencial que estaba destinada a ser protegida por la forma en que el aprendizaje automático modela los datos de origen "abstractos". Cubre una variedad de técnicas que hacen posible sondear un sistema de IA y armar una imagen de los datos que contribuyen de sus diversas respuestas a diferentes consultas.

Esto incluye descubrir los "pesos" de un modelo, que a menudo representan el valor intrínseco de un marco de aprendizaje automático. De hecho, si los pesos fueron generados por material que luego se bloquea con IP y se puede mapear (es decir, su uso de datos protegidos por derechos de autor expuestos) mediante la inversión del modelo, no importará si el conjunto de datos actual es impecable desde el punto de vista de la gobernanza.

Tres escenarios de auditoría de datos

Teniendo en cuenta lo anterior, auditar sus activos de datos para garantizar el cumplimiento de los estándares con una anticipación razonable de posibles auditorías de terceros en una fecha posterior se convierte en una prioridad absoluta. En este sentido, examinemos tres posibles escenarios relevantes:

  • Conjuntos de datos de FOSS: Si su sistema de análisis ha utilizado un conjunto de datos gratuito o de código abierto (FOSS) y se produce un cambio restrictivo en la licencia, cualquier software (incluidos los algoritmos de aprendizaje automático) desarrollado involuntariamente con datos bloqueados por IP también estará sujeto a restricciones. Por lo tanto, siempre debe evaluar la viabilidad a largo plazo de la licencia y los datos. Otro riesgo potencial a tener en cuenta es el uso de un conjunto de datos FOSS cuya procedencia e integridad de IP sean impugnadas posteriormente por terceros que reclaman los datos.
  • Conjuntos de datos sintéticos: Esto representa un enfoque cada vez más popular para la generación de datos que incluye texto producido artificialmente o imágenes generadas por CGI. También vale la pena ser consciente de la procedencia de la información en un conjunto de datos sintético que no creó usted mismo. ¿Todas las fuentes de datos contribuyentes se divulgan públicamente y están disponibles para su inspección? ¿Puede seguir toda su cadena de creación hasta la primera fuente y estar satisfecho con la validez y perpetuidad de los términos de la licencia?
  • Conjuntos de datos propietarios: Generar su propio conjunto de datos es la forma más segura posible de desarrollar datos de origen inexpugnables, pero también la solución más costosa y que requiere más tiempo. Es por eso que varias empresas aprovechan las regulaciones laxas actuales sobre el raspado de datos y explotan material en línea que un dominio podría prohibir para tal uso. Sin embargo, las cosas pueden cambiar en el futuro, dando lugar a disputas definidas en el ámbito legal. Por lo tanto, es prudente anticipar esto al diseñar políticas de gobernanza, custodia y extracción de datos a largo plazo.

Un catalizador para la auditoría de datos

En este período, el sector de la inversión modelo está alimentado por una creciente cruzada en torno a privacidad de datos y seguridad de IA. 

De hecho, la historia del troleo de patentes en los últimos 30 años sugiere que los investigadores que se aprovechan de los datos públicos llamarán la atención de los encargados de hacer cumplir los derechos de autor en los próximos 10 años a medida que maduren las políticas nacionales de IA, y que los crecientes requisitos de transparencia de datos coincidirán con la capacidades de inversión de modelos para exponer fuentes de datos.

punto_img

Información más reciente

punto_img