Импорт данных из кросс-аккаунта Amazon Redshift в Amazon SageMaker Data Wrangler для исследовательского анализа и подготовки данных

Организации, переходящие к культуре, основанной на данных, используют данные и машинное обучение (МО) при принятии решений. Чтобы принимать решения на основе машинного обучения на основе данных, вам нужны данные, доступные, чистые и в правильном формате для обучения моделей машинного обучения. Организации с архитектурой с несколькими учетными записями хотят избежать ситуаций, когда им необходимо извлекать данные из одной учетной записи и загружать их в другую для подготовки данных. Ручное создание и поддержка различных заданий извлечения, преобразования и загрузки (ETL) в разных учетных записях усложняет и увеличивает стоимость, а также затрудняет соблюдение передовых методов управления, соответствия и безопасности для обеспечения безопасности ваших данных.

Амазонка Redshift — это быстрое, полностью управляемое облачное хранилище данных. Функция обмена данными между учетными записями Amazon Redshift обеспечивает простой и безопасный способ обмена свежими, полными и непротиворечивыми данными в хранилище данных Amazon Redshift с любым количеством заинтересованных сторон в разных учетных записях AWS. Обработчик данных Amazon SageMaker это способность Создатель мудреца Амазонки Это позволяет специалистам по данным и инженерам быстрее подготавливать данные для приложений машинного обучения с помощью визуального интерфейса. Data Wrangler позволяет исследовать и преобразовывать данные для машинного обучения, подключаясь к общим ресурсам Amazon Redshift.

В этом посте мы рассмотрим настройку интеграции между учетными записями с использованием ресурса обмена данными Amazon Redshift и подготовку данных с помощью Data Wrangler.

Обзор решения

Мы начинаем с двух учетных записей AWS: учетной записи производителя с хранилищем данных Amazon Redshift и учетной записи потребителя для сценариев использования SageMaker ML. Для этого поста мы используем набор банковских данных. Чтобы продолжить, загрузите набор данных на локальный компьютер. Ниже приведен общий обзор рабочего процесса:

Создайте экземпляр кластера Amazon Redshift RA3 в учетной записи производителя и загрузите набор данных.
Создайте общий ресурс Amazon Redshift в учетной записи производителя и разрешите учетной записи потребителя доступ к данным.
Получите доступ к общему ресурсу Amazon Redshift в учетной записи потребителя.
Анализируйте и обрабатывайте данные с помощью Data Wrangler в учетной записи потребителя и создавайте рабочие процессы подготовки данных.

Помните о соображения для работы с обменом данными Amazon Redshift:

Несколько учетных записей AWS – Вам нужны как минимум две учетные записи AWS: учетная запись производителя и учетная запись потребителя.
Тип кластера – Совместное использование данных поддерживается в типе кластера RA3. При создании экземпляра кластера Amazon Redshift обязательно выберите тип кластера RA3.
Шифрование – Чтобы совместное использование данных работало, кластеры производителя и потребителя должны быть зашифрованы и находиться в одном и том же регионе AWS.
Регионы – Обмен данными между учетными записями доступен для всех Amazon Redshift. Типы узлов RA3 на Востоке США (Сев. Вирджиния), Востоке США (Огайо), Западе США (Сев. Калифорния), Западе США (Орегон), Азиатско-Тихоокеанском регионе (Мумбаи), Азиатско-Тихоокеанском регионе (Сеул), Азиатско-Тихоокеанском регионе (Сингапур), Азиатско-Тихоокеанском регионе ( Сидней), Азиатско-Тихоокеанский регион (Токио), Канада (Центральная), Европа (Франкфурт), Европа (Ирландия), Европа (Лондон), Европа (Париж), Европа (Стокгольм) и Южная Америка (Сан-Паулу).
Цены – Обмен данными между учетными записями доступен между кластерами, которые находятся в одном и том же регионе. Обмен данными не требует затрат. Вы просто платите за кластеры Amazon Redshift, которые участвуют в совместном использовании.

Обмен данными между учетными записями — это двухэтапный процесс. Сначала администратор кластера производителя создает общий ресурс, добавляет объекты и предоставляет доступ к учетной записи потребителя. Затем администратор учетной записи производителя разрешает совместное использование данных для указанного потребителя. Это можно сделать из консоли Amazon Redshift.

Создайте общий ресурс Amazon Redshift в учетной записи производителя.

Чтобы создать общий доступ к данным, выполните следующие действия:

В консоли Amazon Redshift создайте кластер Amazon Redshift.
Указывать Производство и выберите тип узла RA3.
Под Дополнительные конфигурации, отменить выбор Использовать значения по умолчанию.
Под Конфигурации базы данных, настройте шифрование для своего кластера.
После создания кластера импортируйте набор данных банка прямого маркетинга. Вы можете скачать со следующего URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Загрузите bank-additional-full.csv к Простой сервис хранения Amazon (Amazon S3), к которому у вашего кластера есть доступ.

Используйте редактор запросов Amazon Redshift и выполните следующий запрос SQL, чтобы скопировать данные в Amazon Redshift:

create table bank_additional_full (
  age char(40),
  job char(40),
  marital char(40),
  education char(40),
  default_history varchar(40),
  housing char(40),
  loan char(40),
  contact char(40),
  month char(40),
  day_of_week char(40),
  duration char(40),
  campaign char(40),
  pdays char(40),
  previous char(40),
  poutcome char(40),
  emp_var_rate char(40),
  cons_price_idx char(40),
  cons_conf_idx char(40),
  euribor3m char(40),
  nr_employed char(40),
  y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Перейдите на страницу сведений о кластере и на Обмен данными , выберите Создать общий доступ к данным.
Что касается Имя общего доступа к даннымвведите имя.
Что касается Имя базы данных, выберите базу данных.
В Добавить объекты обмена данными выберите объекты из базы данных, которые вы хотите включить в общий ресурс.
У вас есть детальный контроль над тем, чем вы хотите поделиться с другими. Для простоты разделим все таблицы. На практике вы можете выбрать одну или несколько таблиц, представлений или пользовательских функций.
Выберите Добавить.
Чтобы добавить потребителей данных, выберите Добавьте учетные записи AWS в общий доступ к данным и добавьте свой дополнительный идентификатор учетной записи AWS.
Выберите Создать общий доступ к данным.
Чтобы авторизовать только что созданного потребителя данных, перейдите в Обмен данными на странице консоли Amazon Redshift и выберите новый общий ресурс.
Выберите потребителя данных и выберите санкционировать.

Статус потребителя меняется с Pending authorization в Authorized.

Получите доступ к совместно используемому ресурсу данных Amazon Redshift в пользовательской учетной записи AWS.

Теперь, когда общий доступ к данным настроен, переключитесь на свою потребительскую учетную запись AWS, чтобы использовать общий доступ к данным. Убедитесь, что в вашей учетной записи потребителя создан хотя бы один кластер Amazon Redshift. Кластер должен быть зашифрован и находиться в том же регионе, что и источник.

В консоли Amazon Redshift выберите Обмен данными в навигационной панели.
На С других аккаунтов выберите созданный общий ресурс и выберите Юрист.
Вы можете связать общий ресурс с одним или несколькими кластерами в этой учетной записи или связать общий ресурс со всей учетной записью, чтобы текущий и будущие кластеры в учетной записи потребителя получили доступ к этому общему ресурсу.
Укажите данные подключения и выберите Свяжитесь.
Выберите Создать базу данных из datashare и введите имя для вашей новой базы данных.
Чтобы протестировать общий доступ к данным, перейдите в редактор запросов и выполните запросы к новой базе данных, чтобы убедиться, что все объекты доступны как часть общего доступа к данным.

Анализируйте и обрабатывайте данные с помощью Data Wrangler

Теперь вы можете использовать Data Wrangler для доступа к данным нескольких учетных записей, созданным в виде общей папки данных в Amazon Redshift.

Откройте Студия Amazon SageMaker.
На Файл Меню, выберите Новые и Поток обработчика данных.
На Импортировать , выберите Добавить источник данных и Амазонка Redshift.
Введите сведения о подключении кластера Amazon Redshift, который вы только что создали, в учетной записи потребителя для общего доступа к данным.
Выберите Свяжитесь.
Использовать Управление идентификацией и доступом AWS (IAM), которую вы использовали для своего кластера Amazon Redshift.

Обратите внимание, что несмотря на то, что общая база данных является новой базой данных в кластере Amazon Redshift, вы не можете подключиться к ней напрямую из Data Wrangler.

Правильный способ — сначала подключиться к базе данных кластера по умолчанию, а затем использовать SQL для запроса базы данных общего доступа. Предоставьте необходимую информацию для подключения к базе данных кластера по умолчанию. Обратите внимание, что Служба управления ключами AWS (AWS KMS) идентификатор ключа не требуется для подключения.

Теперь Data Wrangler подключен к экземпляру Amazon Redshift.

Запросите данные в базе данных Amazon Redshift с помощью редактора SQL.
Выберите Импортировать чтобы импортировать набор данных в Data Wrangler.
Введите имя для набора данных и выберите Добавить.

Теперь вы можете видеть поток на Поток данных вкладка Data Wrangler.

После загрузки данных в Data Wrangler вы можете выполнить исследовательский анализ данных и подготовить данные для машинного обучения.

Нажми плюсик и выбери Добавить анализ.

Data Wrangler предоставляет встроенный анализ. К ним относятся, помимо прочего, отчет о качестве данных и аналитических сведениях, корреляция данных, отчет о смещении перед обучением, сводка набора данных и визуализации (например, гистограммы и диаграммы рассеяния). Вы также можете создать свою собственную визуализацию.

Вы можете использовать отчет Data Quality and Insights Report для автоматического создания визуализаций и анализа, чтобы выявить проблемы с качеством данных и рекомендовать правильное преобразование, необходимое для вашего набора данных.

Выберите Отчет о качестве данных и аналитических данных, и выберите Целевой столбец as y.
Поскольку это постановка задачи классификации, для Тип проблемы, наведите на классификация.
Выберите Создавай.

Data Wrangler создает подробный отчет о вашем наборе данных. Вы также можете загрузить отчет на локальный компьютер.

Для подготовки данных выберите знак плюс и выберите Добавить анализ.
Выберите Добавить шаг чтобы начать строить свои преобразования.

На момент написания этой статьи Data Wrangler предоставляет более 300 встроенных преобразований. Вы также можете написать свои собственные преобразования, используя Pandas или PySpark.

Теперь вы можете начать создавать свои преобразования и анализ на основе ваших бизнес-требований.

Заключение

В этом посте мы рассмотрели совместное использование данных между учетными записями с помощью общих ресурсов Amazon Redshift без загрузки и отправки данных вручную. Мы рассмотрели, как получить доступ к общим данным с помощью Data Wrangler и подготовить данные для ваших вариантов использования ML. Эта возможность совместного использования данных Amazon Redshift и Data Wrangler без кода или с малым количеством кода ускоряет подготовку обучающих данных и повышает гибкость инженеров по данным и специалистов по данным за счет более быстрой итеративной подготовки данных.

Чтобы узнать больше об Amazon Redshift и SageMaker, см. Руководство разработчика баз данных Amazon Redshift и Документация по Amazon SageMaker.

Об авторах

Минакшисундарам Тандавараян является старшим специалистом по AI/ML в AWS. Он помогает высокотехнологичным стратегическим клиентам в их путешествии по искусственному интеллекту и машинному обучению. Он очень увлечен искусственным интеллектом, управляемым данными.

Джеймс Ву является старшим специалистом по архитектуре решений AI/ML в AWS. помогая клиентам разрабатывать и создавать решения AI/ML. Работа Джеймса охватывает широкий спектр вариантов использования машинного обучения, в первую очередь интересуясь компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. До прихода в AWS Джеймс более 10 лет был архитектором, разработчиком и руководителем технологий, в том числе 6 лет в области проектирования и 4 года в сфере маркетинга и рекламы.

Генеративный анализ данных

Импортируйте данные из кросс-аккаунта Amazon Redshift в Amazon SageMaker Data Wrangler для исследовательского анализа и подготовки данных.

Обзор решения

Создайте общий ресурс Amazon Redshift в учетной записи производителя.

Получите доступ к совместно используемому ресурсу данных Amazon Redshift в пользовательской учетной записи AWS.

Анализируйте и обрабатывайте данные с помощью Data Wrangler

Заключение

Об авторах

Ускорьте рабочие процессы машинного обучения с помощью локального режима Amazon SageMaker Studio и поддержки Docker | Веб-сервисы Amazon

Навигация по современным и устаревшим представлениям о сушке

Последняя разведка

Greenlight Garage 420 Фотогалерея фермерского рынка каннабиса

Индия успешно испытала на Андаманских островах новую баллистическую ракету воздушного базирования Crystal Maze-250 с дальностью поражения 2 км

Индийские ВВС планируют получить истребители TEJAS MK-2 к концу десятилетия: международные СМИ

Ирак оснастит F-16 комплексом РЭБ AIDEWS

Расширенная генерация поиска: где поиск информации сочетается с генерацией текста – KDnuggets

5 лучших устройств искусственного интеллекта, которые можно будет использовать в 2024 году

Чат с нами