Logotipo de Zephyrnet

Cómo los datos sintéticos podrían salvar la IA

Fecha:

Únase a Transform 2021 para conocer los temas más importantes de la inteligencia artificial y los datos empresariales. Más información.


La IA se enfrenta a varios desafíos críticos. No solo necesita grandes cantidades de datos para ofrecer resultados precisos, sino que también debe poder garantizar que los datos no estén sesgados y debe cumplir con las regulaciones de privacidad de datos cada vez más restrictivas. Hemos visto varias soluciones propuestas en los últimos años para abordar estos desafíos, incluidas varias herramientas diseñadas para identificar y reducir el sesgo, herramientas que anonimizan los datos del usuario y programas para garantizar que los datos solo se recopilen con el consentimiento del usuario. Pero cada una de estas soluciones enfrenta desafíos propios.

Ahora estamos viendo surgir una nueva industria que promete ser una gracia salvadora: datos sintéticos. Los datos sintéticos son artificiales datos generados por computadora que puede reemplazar los datos obtenidos del mundo real.

Un conjunto de datos sintéticos debe tener las mismas propiedades matemáticas y estadísticas como conjunto de datos del mundo real, está reemplazando pero no representa explícitamente a individuos reales. Piense en esto como un espejo digital de datos del mundo real que refleja estadísticamente ese mundo. Esto permite entrenar sistemas de IA en un ámbito completamente virtual. Y se puede personalizar fácilmente para una variedad de casos de uso que van desde la atención médica hasta el comercio minorista, las finanzas, el transporte y la agricultura.

Hay un movimiento significativo en este frente. Más que vendedores de 50 ya han desarrollado soluciones de datos sintéticos, según una investigación realizada en junio pasado por StartUs Insights. En un momento describiré algunos de los protagonistas principales. Primero, sin embargo, echemos un vistazo más de cerca a los problemas que prometen resolver.

El problema con los datos reales

En los últimos años, ha aumentado preocupación acerca de lo inherente los prejuicios en conjuntos de datos puede conducir involuntariamente a algoritmos de IA que perpetúan la discriminación. De hecho, Gartner predice que hasta 2022, el 85% de los proyectos de inteligencia artificial generarán resultados erróneos debido al sesgo en los datos, los algoritmos o los equipos responsables de administrarlos.

La proliferación de algoritmos de inteligencia artificial también ha generado preocupaciones crecientes sobre la privacidad de los datos. A su vez, esto ha llevado a leyes de protección y privacidad de datos de los consumidores más estrictas en la UE con GDPR, así como en jurisdicciones de EE. más reciente Virginia.

Estas leyes dan a los consumidores más control sobre sus datos personales. Por ejemplo, la ley de Virginia otorga a los consumidores el derecho acceder, corregir, eliminar y obtener una copia de los datos personales, así como optar por no participar en la venta de datos personales y denegar el acceso algorítmico a los datos personales con fines de publicidad dirigida o elaboración de perfiles del consumidor.

By restringiendo el acceso a esta información, se obtiene una cierta cantidad de protección individual, pero a costa de la efectividad del algoritmo. Cuantos más datos pueda utilizar un algoritmo de IA, más precisos y efectivos serán los resultados. Sin acceso a una gran cantidad de datos, las ventajas de la IA, como ayudar con los diagnósticos médicos y la investigación de medicamentos, también podrían ser limitadas.

Una alternativa que se utiliza a menudo para compensar las preocupaciones por la privacidad es el anonimato. Los datos personales, por ejemplo, se pueden anonimizar enmascarando o eliminando características de identificación, como eliminar nombres y números de tarjetas de crédito de las transacciones de comercio electrónico o eliminar el contenido de identificación de los registros de atención médica. Pero existe una creciente evidencia de que incluso si los datos se han anonimizado de una fuente, pueden correlacionarse con conjuntos de datos de consumidores expuestos a violaciones de seguridad. De hecho, al combinar datos de múltiples fuentes, es posible formar una sorprendente imagen clara de nuestras identidades incluso si ha habido un cierto grado de anonimización. En algunos casos, esto incluso se puede hacer correlacionar datos de fuentes públicas, sin un infame truco de seguridad.

Solución de datos sintéticos

Los datos sintéticos prometen ofrecer las ventajas de la IA sin las desventajas. No solo saca nuestros datos personales reales de la ecuación, sino que un objetivo general para los datos sintéticos es tener un mejor rendimiento que los datos del mundo real al corregir el sesgo que a menudo está arraigado en el mundo real.

Aunque es ideal para aplicaciones que utilizan datos personales, la información sintética también tiene otros casos de uso. Un ejemplo es el modelado complejo de visión por computadora donde muchos factores interactúan en tiempo real. Se pueden crear conjuntos de datos de video sintéticos que aprovechan motores de juegos avanzados con imágenes hiperrealistas para retratar todas las posibles eventualidades en un escenario de conducción autónoma, mientras que intentar tomar fotos o videos del mundo real para capturar todos estos eventos sería poco práctico, quizás imposible y probablemente peligroso. Estos conjuntos de datos sintéticos pueden acelerar y mejorar drásticamente el entrenamiento de los sistemas de conducción autónomos.

(Imagen superior: las imágenes sintéticas se utilizan para entrenar algoritmos de vehículos autónomos. Fuente: proveedor de datos sintéticos Dominio paralelo.)

Quizás irónicamente, una de las herramientas principales para crear datos sintéticos es la misma que se usa para crear videos deepfake. Ambos hacen uso de redes generativas adversarias (GAN), un par de redes neuronales. Una red genera los datos sintéticos y la segunda intenta detectar si son reales. Esto se opera en un bucle, con la red del generador mejorando la calidad de los datos hasta que el discriminador no puede diferenciar entre real y sintético.

El ecosistema emergente

Forrester Research identificó recientemente varios tecnologías críticas, incluidos los datos sintéticos, que comprenderán lo que ellos consideran "IA 2.0", avances que amplían radicalmente las posibilidades de la IA. Al anonimizar más los datos y corregir los sesgos inherentes, así como al crear datos que de otro modo serían difíciles de obtener, los datos sintéticos podrían convertirse en la salvación para muchas aplicaciones de big data.

Los datos sintéticos también tienen otros grandes beneficios: puede crear conjuntos de datos de forma rápida y frecuente con los datos etiquetados para el aprendizaje supervisado. Y no es necesario limpiarlo ni mantenerlo como lo hacen los datos reales. Entonces, al menos teóricamente, viene con un gran ahorro de tiempo y costos.

Varias empresas bien establecidas se encuentran entre las que generan datos sintéticos. IBM describe esto como fabricación de datos, creando datos de prueba sintéticos para eliminar el riesgo de fuga de información confidencial y abordar los problemas regulatorios y del RGPD. AWS ha desarrollado herramientas internas de datos sintéticos para generar conjuntos de datos para entrenar a Alexa en nuevos idiomas. Y Microsoft ha desarrollado una herramienta en colaboración con Harvard con una capacidad de datos sintéticos que permite una mayor colaboración entre las partes de la investigación. A pesar de estos ejemplos, todavía es temprano para los datos sintéticos y el mercado en desarrollo está siendo liderado por las nuevas empresas.

Para terminar, echemos un vistazo a algunos de los primeros líderes de esta industria emergente. La lista se construye en base a mi propia investigación y organizaciones de investigación de la industria, incluidas G2 y StartUs Insights.

  1. Ai-Fi - Utiliza datos generados sintéticamente para simular las tiendas minoristas y el comportamiento de los compradores.
  2. AI.Reverie - Genera datos sintéticos para entrenar algoritmos de visión por computadora para el reconocimiento de actividades, detección de objetos y segmentación. El trabajo ha incluido escenas de amplio alcance como ciudades inteligentes, identificación de aviones raros y agricultura, junto con la venta minorista de tiendas inteligentes.
  3. cualquierverso - Simula escenarios para crear conjuntos de datos sintéticos utilizando datos de sensores sin procesar, funciones de procesamiento de imágenes y configuraciones LiDAR personalizadas para la industria automotriz.
  4. Cvedia - Crea imágenes sintéticas que simplifican la obtención de grandes volúmenes de datos etiquetados, reales y visuales. La plataforma de simulación emplea múltiples sensores para sintetizar entornos fotorrealistas que dan como resultado la creación de conjuntos de datos empíricos.
  5. Generación de datos - Casos de uso de entornos interiores, como tiendas inteligentes, robótica en el hogar y realidad aumentada.
  6. Avión de buceo - Crea conjuntos de datos sintéticos 'gemelos' para la industria de la salud con las mismas propiedades estadísticas de los datos originales.
  7. Gretel - Con el objetivo de ser el equivalente de GitHub para los datos, la empresa produce conjuntos de datos sintéticos para desarrolladores que conservan la misma información que la fuente de datos original.
  8. Brumoso - genera conjuntos de datos para impulsar la detección de fraudes y blanqueo de capitales para combatir los delitos financieros.
  9. Mayormente IA - Se centra en los sectores de seguros y finanzas y fue una de las primeras empresas en crear datos estructurados sintéticos.
  10. Una vista - Desarrolla conjuntos de datos sintéticos virtuales para el análisis de imágenes de observación de la tierra mediante algoritmos de aprendizaje automático.

Gary Grossman es el vicepresidente senior de práctica tecnológica de Edelman y Líder Global del Centro de Excelencia de Edelman AI.

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio brinda información esencial sobre tecnologías y estrategias de datos para guiarlo mientras dirige sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:

  • información actualizada sobre los temas de su interés
  • nuestros boletines
  • contenido exclusivo de líderes de opinión y acceso con descuento a nuestros preciados eventos, como Transformar NO: Aprende más
  • funciones de red y más

Conviértete en miembro

Coinsmart. Mejor Bitcoin-Börse en Europa
Fuente: https://venturebeat.com/2021/03/20/how-synthetic-data-could-save-ai/

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?