Logotipo de Zephyrnet

Importe datos de cuentas cruzadas de Amazon Redshift en Amazon SageMaker Data Wrangler para análisis de datos exploratorios y preparación de datos

Fecha:

Las organizaciones que avanzan hacia una cultura basada en datos adoptan el uso de datos y aprendizaje automático (ML) en la toma de decisiones. Para tomar decisiones basadas en ML a partir de datos, necesita que sus datos estén disponibles, accesibles, limpios y en el formato adecuado para entrenar modelos de ML. Las organizaciones con una arquitectura de varias cuentas quieren evitar situaciones en las que deben extraer datos de una cuenta y cargarlos en otra para actividades de preparación de datos. Crear y mantener manualmente los diferentes trabajos de extracción, transformación y carga (ETL) en diferentes cuentas agrega complejidad y costo, y hace que sea más difícil mantener las mejores prácticas de gobierno, cumplimiento y seguridad para mantener sus datos seguros.

Desplazamiento al rojo de Amazon es un almacén de datos en la nube rápido y completamente administrado. La característica de uso compartido de datos entre cuentas de Amazon Redshift proporciona una manera simple y segura de compartir datos actualizados, completos y coherentes en su almacén de datos de Amazon Redshift con cualquier número de partes interesadas en diferentes cuentas de AWS. Wrangler de datos de Amazon SageMaker es una capacidad de Amazon SageMaker eso hace que sea más rápido para los científicos e ingenieros de datos preparar datos para aplicaciones de ML mediante el uso de una interfaz visual. Data Wrangler le permite explorar y transformar datos para ML conectándose a recursos compartidos de datos de Amazon Redshift.

En esta publicación, analizamos la configuración de una integración entre cuentas con un recurso compartido de datos de Amazon Redshift y la preparación de datos con Data Wrangler.

Resumen de la solución

Comenzamos con dos cuentas de AWS: una cuenta de productor con el almacén de datos de Amazon Redshift y una cuenta de consumidor para los casos de uso de SageMaker ML. Para esta publicación, usamos el conjunto de datos bancarios. Para seguir, descargue el conjunto de datos a su máquina local. La siguiente es una descripción general de alto nivel del flujo de trabajo:

  1. Cree una instancia de un clúster RA3 de Amazon Redshift en la cuenta del productor y cargue el conjunto de datos.
  2. Cree un recurso compartido de datos de Amazon Redshift en la cuenta del productor y permita que la cuenta del consumidor acceda a los datos.
  3. Acceda al recurso compartido de datos de Amazon Redshift en la cuenta del consumidor.
  4. Analice y procese datos con Data Wrangler en la cuenta del consumidor y cree sus flujos de trabajo de preparación de datos.

Sea consciente de la consideraciones para trabajar con el uso compartido de datos de Amazon Redshift:

  • Múltiples cuentas de AWS – Necesita al menos dos cuentas de AWS: una cuenta de productor y una cuenta de consumidor.
  • Tipo de clúster – El uso compartido de datos es compatible con el tipo de clúster RA3. Al crear una instancia de un clúster de Amazon Redshift, asegúrese de elegir el tipo de clúster RA3.
  • Cifrado – Para que funcione el uso compartido de datos, tanto el clúster productor como el consumidor deben estar cifrados y deben estar en la misma región de AWS.
  • Regiones – El intercambio de datos entre cuentas está disponible para todos los Amazon Redshift Tipos de nodos RA3 en EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Norte de California), EE.UU. Oeste (Oregón), Asia Pacífico (Mumbai), Asia Pacífico (Seúl), Asia Pacífico (Singapur), Asia Pacífico ( Sydney), Asia Pacífico (Tokio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Estocolmo) y América del Sur (São Paulo).
  • Precios – El intercambio de datos entre cuentas está disponible en todos los clústeres que se encuentran en la misma región. No hay costo para compartir datos. Solo paga por los clústeres de Amazon Redshift que participan en el uso compartido.

El intercambio de datos entre cuentas es un proceso de dos pasos. Primero, un administrador del clúster de productores crea un recurso compartido de datos, agrega objetos y otorga acceso a la cuenta del consumidor. Luego, el administrador de la cuenta del productor autoriza el intercambio de datos para el consumidor especificado. Puede hacerlo desde la consola de Amazon Redshift.

Cree un recurso compartido de datos de Amazon Redshift en la cuenta del productor

Para crear su recurso compartido de datos, complete los siguientes pasos:

  1. En la consola de Amazon Redshift, cree un clúster de Amazon Redshift.
  2. Especificar Producción y elija el tipo de nodo RA3.
  3. under Configuraciones adicionales, deseleccionar Usar valores predeterminados.
  4. under Configuraciones de base de datos, configure el cifrado para su clúster.
  5. Después de crear el clúster, importe el conjunto de datos del banco de marketing directo. Puede descargar desde la siguiente URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
  6. Subir bank-additional-full.csv a una Servicio de almacenamiento simple de Amazon (Amazon S3) depósito al que tiene acceso su clúster.
  7. Utilice el editor de consultas de Amazon Redshift y ejecute la siguiente consulta SQL para copiar los datos en Amazon Redshift:
    create table bank_additional_full (
      age char(40),
      job char(40),
      marital char(40),
      education char(40),
      default_history varchar(40),
      housing char(40),
      loan char(40),
      contact char(40),
      month char(40),
      day_of_week char(40),
      duration char(40),
      campaign char(40),
      pdays char(40),
      previous char(40),
      poutcome char(40),
      emp_var_rate char(40),
      cons_price_idx char(40),
      cons_conf_idx char(40),
      euribor3m char(40),
      nr_employed char(40),
      y char(40));
    copy bank_additional_full
    from <S3 LOCATION OF THE CSV FILE>
    credentials <CLUSTER ROLE ARN>
    region 'us-east-1'
    format csv
    IGNOREBLANKLINES
    IGNOREHEADER 1

  8. Vaya a la página de detalles del clúster y en el Compartir datos pestaña, elegir Crear recurso compartido de datos.
  9. Nombre del recurso compartido de datos, ingresa un nombre.
  10. Nombre de la base de datos, elija una base de datos.
  11. En Agregar objetos de uso compartido de datos sección, elija los objetos de la base de datos que desea incluir en el recurso compartido de datos.
    Tiene control granular de lo que elige compartir con los demás. Para simplificar, compartimos todas las tablas. En la práctica, puede elegir una o más tablas, vistas o funciones definidas por el usuario.
  12. Elige Añada.
  13. Para agregar consumidores de datos, seleccione Agregar cuentas de AWS al recurso compartido de datos y agregue su ID de cuenta de AWS secundaria.
  14. Elige Crear recurso compartido de datos.
  15. Para autorizar al consumidor de datos que acaba de crear, vaya a la Compartir datos en la consola de Amazon Redshift y elija el nuevo recurso compartido de datos.
  16. Seleccione el consumidor de datos y elija Autorizar.

El estado del consumidor cambia de Pending authorization a Authorized.

Acceda a los datos compartidos entre cuentas de Amazon Redshift en la cuenta de consumidor de AWS

Ahora que el recurso compartido de datos está configurado, cambie a su cuenta de consumidor de AWS para consumir el recurso compartido de datos. Asegúrese de tener al menos un clúster de Amazon Redshift creado en su cuenta de consumidor. El clúster debe estar cifrado y en la misma región que el origen.

  1. En la consola de Amazon Redshift, elija Compartir datos en el panel de navegación.
  2. En De otras cuentas pestaña, seleccione el recurso compartido de datos que creó y elija Consejos.
  3. Puede asociar el recurso compartido de datos con uno o más clústeres en esta cuenta o asociar el recurso compartido de datos a toda la cuenta para que los clústeres actuales y futuros en la cuenta del consumidor obtengan acceso a este recurso compartido.
  4. Especifique los detalles de su conexión y elija Conectar.
  5. Elige Crear base de datos desde datashare e ingrese un nombre para su nueva base de datos.
  6. Para probar el recurso compartido de datos, vaya al editor de consultas y ejecute consultas en la nueva base de datos para asegurarse de que todos los objetos estén disponibles como parte del recurso compartido de datos.

Analice y procese datos con Data Wrangler

Ahora puede usar Data Wrangler para acceder a los datos de varias cuentas creados como un recurso compartido de datos en Amazon Redshift.

  1. Abierto Estudio Amazon SageMaker.
  2. En Archive menú, seleccione Nuevo y Flujo de Data Wrangler.
  3. En Importa pestaña, elegir Añadir fuente de datos y Desplazamiento al rojo de Amazon.
  4. Ingrese los detalles de conexión del clúster de Amazon Redshift que acaba de crear en la cuenta del consumidor para el recurso compartido de datos.
  5. Elige Conectar.
  6. Ingrese al Gestión de identidades y accesos de AWS (IAM) que utilizó para su clúster de Amazon Redshift.

Tenga en cuenta que, aunque el recurso compartido de datos es una base de datos nueva en el clúster de Amazon Redshift, no puede conectarse directamente desde Data Wrangler.

La forma correcta es conectarse primero a la base de datos del clúster predeterminada y luego usar SQL para consultar la base de datos compartida. Proporcione la información necesaria para conectarse a la base de datos del clúster predeterminada. Tenga en cuenta que un Servicio de administración de claves de AWS (AWS KMS) no se requiere ID de clave para conectarse.

Data Wrangler ahora está conectado a la instancia de Amazon Redshift.

  1. Consulte los datos en la base de datos compartida de datos de Amazon Redshift mediante un editor de SQL.
  2. Elige Importa para importar el conjunto de datos a Data Wrangler.
  3. Introduzca un nombre para el conjunto de datos y seleccione Añada.

Ahora puede ver el flujo en la Flujo de datos pestaña de Data Wrangler.

Una vez que haya cargado los datos en Data Wrangler, puede realizar análisis exploratorios de datos y preparar datos para ML.

  1. Elija el signo más y elija Agregar análisis.

Data Wrangler proporciona análisis integrados. Estos incluyen, entre otros, un informe de información y calidad de datos, correlación de datos, un informe de sesgo previo al entrenamiento, un resumen de su conjunto de datos y visualizaciones (como histogramas y diagramas de dispersión). También puede crear su propia visualización personalizada.

Puede utilizar el Informe de información y calidad de datos para generar automáticamente visualizaciones y análisis para identificar problemas de calidad de datos y recomendar la transformación correcta requerida para su conjunto de datos.

  1. Elige Informe de información y calidad de datosy elija el columna de destino as y.
  2. Debido a que este es un enunciado de un problema de clasificación, por Tipo de problema, seleccione Clasificación.
  3. Elige Crear.

Data Wrangler crea un informe detallado sobre su conjunto de datos. También puede descargar el informe a su máquina local.

  1. Para la preparación de datos, elija el signo más y elija Agregar análisis.
  2. Elige Agregar paso para empezar a construir tus transformaciones.

En el momento de escribir este artículo, Data Wrangler proporciona más de 300 transformaciones integradas. También puede escribir sus propias transformaciones usando Pandas o PySpark.

Ahora puede comenzar a crear sus transformaciones y análisis en función de los requisitos de su negocio.

Conclusión

En esta publicación, exploramos el uso compartido de datos entre cuentas mediante el uso compartido de datos de Amazon Redshift sin tener que descargar y cargar datos manualmente. Explicamos cómo acceder a los datos compartidos usando Data Wrangler y preparar los datos para sus casos de uso de ML. Esta capacidad de código bajo/sin código de los recursos compartidos de datos de Amazon Redshift y Data Wrangler acelera la preparación de datos de capacitación y aumenta la agilidad de los ingenieros y científicos de datos con una preparación de datos iterativa más rápida.

Para obtener más información sobre Amazon Redshift y SageMaker, consulte el Guía para desarrolladores de bases de datos de Amazon Redshift y Documentación de Amazon SageMaker.


Acerca de los autores

 Meenakshisundaram Thandavarayan es un especialista sénior en IA/ML de AWS. Ayuda a las cuentas estratégicas de alta tecnología en su viaje de IA y ML. Es un apasionado de la IA basada en datos.

James Wu es un arquitecto de soluciones especialista en inteligencia artificial/aprendizaje automático sénior en AWS. ayudar a los clientes a diseñar y crear soluciones de IA/ML. El trabajo de James cubre una amplia gama de casos de uso de ML, con un interés principal en la visión artificial, el aprendizaje profundo y la ampliación de ML en toda la empresa. Antes de unirse a AWS, James fue arquitecto, desarrollador y líder tecnológico durante más de 10 años, incluidos 6 años en ingeniería y 4 años en las industrias de marketing y publicidad.

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?