Логотип Зефирнет

Управление жизненным циклом машинного обучения в больших масштабах. Часть 1. Платформа для проектирования рабочих нагрузок машинного обучения с использованием Amazon SageMaker | Веб-сервисы Amazon

Дата:

Клиенты всех размеров и отраслей внедряют инновации на AWS, внедряя машинное обучение (ML) в свои продукты и услуги. Недавние разработки в области генеративных моделей искусственного интеллекта еще больше ускорили необходимость внедрения машинного обучения во всех отраслях. Однако обеспечение безопасности, конфиденциальности данных и средств управления по-прежнему остаются ключевыми проблемами, с которыми сталкиваются клиенты при масштабном внедрении рабочих нагрузок машинного обучения. Решение этих проблем создает основу и основу для снижения рисков и ответственного использования продуктов, основанных на машинном обучении. Хотя генеративный ИИ может нуждаться в дополнительных средствах контроля, таких как устранение токсичности и предотвращение взлома и галлюцинаций, он имеет те же основополагающие компоненты для безопасности и управления, что и традиционное машинное обучение.

Мы слышим от клиентов, что им требуются специальные знания и инвестиции на срок до 12 месяцев для создания индивидуального проекта. Создатель мудреца Амазонки Внедрение платформы ML для обеспечения масштабируемой, надежной, безопасной и управляемой среды ML для своих подразделений или команд ML. Если у вас нет структуры для управления жизненным циклом машинного обучения в масштабе, вы можете столкнуться с такими проблемами, как изоляция ресурсов на уровне команды, масштабирование ресурсов экспериментирования, ввод в эксплуатацию рабочих процессов машинного обучения, масштабирование управления моделью, а также управление безопасностью и соответствием рабочих нагрузок машинного обучения.

Управление жизненным циклом машинного обучения в любом масштабе — это основа, которая поможет вам создать платформу машинного обучения со встроенными средствами безопасности и управления на основе лучших отраслевых практик и корпоративных стандартов. Эта структура решает проблемы, предоставляя предписывающие рекомендации посредством модульного подхода, расширяющего Башня управления AWS среда AWS с несколькими учетными записями и подход, обсуждаемый в публикации Настройка безопасной и хорошо управляемой среды машинного обучения на AWS.

Он предоставляет предписывающие рекомендации для следующих функций платформы ML:

  • Мультиаккаунты, безопасность и сетевые основы – Эта функция использует AWS Control Tower и хорошо продуманные принципы для настройки и эксплуатации среды с несколькими учетными записями, безопасности и сетевых служб.
  • Основы данных и управления – Эта функция использует архитектура сетки данных для настройки и эксплуатации озера данных, центрального хранилища функций и основ управления данными для обеспечения детального доступа к данным.
  • Общие услуги и услуги управления платформой ML – Эта функция позволяет настраивать и использовать общие службы, такие как CI/CD, Каталог сервисов AWS для обеспечения сред и центрального реестра моделей для продвижения моделей и происхождения.
  • Командная среда ML – Эта функция позволяет настраивать и использовать среды для команд ML для разработки моделей, тестирования и развертывания вариантов использования для внедрения средств управления безопасностью и управлением.
  • Наблюдаемость за платформой машинного обучения – Эта функция помогает устранять неполадки и выявлять первопричины проблем в моделях ML за счет централизации журналов и предоставления инструментов для визуализации анализа журналов. Он также предоставляет рекомендации по созданию отчетов о затратах и ​​использовании для сценариев использования машинного обучения.

Хотя эта структура может предоставить преимущества всем клиентам, она наиболее выгодна для крупных, зрелых, регулируемых или глобальных корпоративных клиентов, которые хотят масштабировать свои стратегии ML с помощью контролируемого, соответствующего требованиям и скоординированного подхода во всей организации. Это помогает обеспечить внедрение машинного обучения и одновременно снизить риски. Эта структура полезна для следующих клиентов:

  • Крупные корпоративные клиенты, у которых много бизнес-подразделений или отделов, заинтересованных в использовании машинного обучения. Эта структура позволяет различным командам независимо создавать и развертывать модели машинного обучения, обеспечивая при этом централизованное управление.
  • Корпоративные клиенты со средним и высоким уровнем зрелости в области машинного обучения. Они уже внедрили некоторые первоначальные модели машинного обучения и планируют масштабировать свои усилия по машинному обучению. Эта структура может помочь ускорить внедрение машинного обучения во всей организации. Эти компании также признают необходимость управления такими вещами, как контроль доступа, использование данных, эффективность моделей и несправедливая предвзятость.
  • Компании в регулируемых отраслях, таких как финансовые услуги, здравоохранение, химия и частный сектор. Этим компаниям необходимо надежное управление и прозрачность для любых моделей машинного обучения, используемых в их бизнес-процессах. Принятие этой структуры может помочь облегчить соблюдение требований, одновременно позволяя разрабатывать местные модели.
  • Глобальные организации, которым необходимо сбалансировать централизованный и местный контроль. Интегрированный подход этой структуры позволяет команде разработчиков центральной платформы устанавливать некоторые политики и стандарты высокого уровня, а также дает LOB-командам гибкость в адаптации в зависимости от местных потребностей.

В первой части этой серии мы рассмотрим эталонную архитектуру для настройки платформы машинного обучения. В следующем посте мы предоставим инструкции по внедрению различных модулей эталонной архитектуры в вашей организации.

Возможности платформы машинного обучения сгруппированы в четыре категории, как показано на следующем рисунке. Эти возможности составляют основу эталонной архитектуры, обсуждаемой далее в этом посте:

  • Создайте основу машинного обучения
  • Масштабируйте операции машинного обучения
  • Наблюдаемый ML
  • Безопасное машинное обучение

Обзор решения

Структура управления жизненным циклом машинного обучения в масштабе позволяет организациям внедрять средства управления безопасностью и управлением на протяжении всего жизненного цикла машинного обучения, что, в свою очередь, помогает организациям снизить риски и ускорить внедрение машинного обучения в свои продукты и услуги. Эта платформа помогает оптимизировать настройку и управление безопасными, масштабируемыми и надежными средами машинного обучения, которые можно масштабировать для поддержки растущего числа моделей и проектов. Фреймворк обеспечивает следующие возможности:

  • Предоставление учетной записи и инфраструктуры с использованием ресурсов инфраструктуры, соответствующих политике организации.
  • Самостоятельное развертывание сред обработки данных и шаблонов сквозных операций машинного обучения (MLOps) для сценариев использования машинного обучения.
  • Изоляция ресурсов на уровне LOB или на уровне команды для обеспечения соответствия требованиям безопасности и конфиденциальности.
  • Регулируемый доступ к производственным данным для экспериментов и готовых к производству рабочих процессов.
  • Управление репозиториями кода, конвейерами кода, развернутыми моделями и функциями данных.
  • Реестр моделей и хранилище функций (локальные и центральные компоненты) для улучшения управления.
  • Средства контроля безопасности и управления для сквозного процесса разработки и развертывания модели.

В этом разделе мы предоставляем обзор нормативных рекомендаций, которые помогут вам создать платформу машинного обучения на AWS со встроенными средствами управления безопасностью и управлением.

Функциональная архитектура, связанная с платформой машинного обучения, показана на следующей схеме. Архитектура сопоставляет различные возможности платформы ML с учетными записями AWS.

Функциональная архитектура с различными возможностями реализована с помощью ряда сервисов AWS, в том числе AWS Организации, SageMaker, сервисы AWS DevOps и озеро данных. Эталонная архитектура платформы машинного обучения с различными сервисами AWS показана на следующей схеме.

Эта структура учитывает множество персон и сервисов для управления жизненным циклом ML в масштабе. Мы рекомендуем следующие шаги для организации ваших команд и служб:

  1. Используя AWS Control Tower и инструменты автоматизации, ваш облачный администратор настраивает основы нескольких учетных записей, такие как организации и Центр идентификации AWS IAM (преемник AWS Single Sign-On), а также сервисы безопасности и управления, такие как Служба управления ключами AWS (AWS KMS) и Каталог услуг. Кроме того, администратор настраивает различные организационные подразделения (OU) и начальные учетные записи для поддержки рабочих процессов машинного обучения и аналитики.
  2. Администраторы озера данных настраивают ваше озеро данных и каталог данных, а также настраивают центральное хранилище функций совместно с администратором платформы машинного обучения.
  3. Администратор платформы ML предоставляет общие службы ML, такие как AWS CodeCommit, Кодовый конвейер AWS, Реестр Amazon Elastic Container (Amazon ECR), центральный реестр моделей, Карты моделей SageMaker, Панель управления моделями SageMakerи продукты каталога услуг для команд ML.
  4. Руководитель группы ML объединяется через IAM Identity Center, использует продукты каталога услуг и предоставляет ресурсы в среде разработки группы ML.
  5. Специалисты по данным из команд ML из разных бизнес-подразделений объединяются в среду разработки своей команды для создания конвейера моделей.
  6. Специалисты по обработке данных ищут и извлекают функции из центрального каталога хранилища функций, строят модели посредством экспериментов и выбирают лучшую модель для продвижения.
  7. Специалисты по данным создают новые функции и публикуют их в центральном каталоге хранилища функций для повторного использования.
  8. Инженер ML развертывает конвейер модели в тестовой среде группы ML, используя процесс CI/CD общих служб.
  9. После проверки заинтересованными сторонами модель машинного обучения развертывается в производственной среде команды.
  10. Средства управления безопасностью и управлением встроены в каждый уровень этой архитектуры с помощью таких сервисов, как Центр безопасности AWS, Амазонка - стражник, Амазонка МэйсиИ многое другое.
  11. Управление безопасностью осуществляется централизованно из учетной записи инструмента безопасности с помощью Security Hub.
  12. Возможности управления платформой ML, такие как карты моделей SageMaker и панель мониторинга моделей SageMaker, централизованно управляются из учетной записи служб управления.
  13. Amazon CloudWatch и AWS CloudTrail журналы каждой учетной записи участника доступны централизованно из учетной записи наблюдения с использованием собственных сервисов AWS.

Далее мы углубимся в модули эталонной архитектуры для этой платформы.

Модули эталонной архитектуры

Эталонная архитектура состоит из восьми модулей, каждый из которых предназначен для решения определенного набора задач. В совокупности эти модули рассматривают управление в различных измерениях, таких как инфраструктура, данные, модель и стоимость. Каждый модуль предлагает отдельный набор функций и взаимодействует с другими модулями, образуя интегрированную комплексную платформу машинного обучения со встроенными средствами безопасности и управления. В этом разделе мы представляем краткий обзор возможностей каждого модуля.

Многосчетные фонды

Этот модуль помогает администраторам облака построить Зона приземления AWS Control Tower в качестве фундаментальной основы. Это включает в себя построение структуры с несколькими учетными записями, аутентификацию и авторизацию через IAM Identity Center, комплексную структуру сети, централизованные службы ведения журналов и новые учетные записи участников AWS со стандартизированными базовыми показателями безопасности и управления.

Кроме того, в этом модуле представлены лучшие практические рекомендации по структурам подразделений и учетных записей, которые подходят для поддержки ваших рабочих процессов машинного обучения и аналитики. Администраторы облака поймут назначение необходимых учетных записей и подразделений, способы их развертывания, а также ключевые службы безопасности и соответствия требованиям, которые им следует использовать для централизованного управления рабочими нагрузками машинного обучения и аналитики.

Также рассматривается структура продажи новых учетных записей, которая использует автоматизацию для базовой оценки новых учетных записей при их предоставлении. Настроив автоматизированный процесс предоставления учетных записей, администраторы облака могут предоставить группам машинного обучения и аналитики учетные записи, необходимые для более быстрого выполнения работы, не жертвуя при этом прочной основой управления.

Основы озера данных

Этот модуль помогает администраторам озера данных настроить озеро данных для приема данных, управления наборами данных и использования Формирование озера AWS модель управления для управления детальным доступом к данным между учетными записями и пользователями с использованием централизованного каталога данных, политик доступа к данным и контроля доступа на основе тегов. Вы можете начать с малого с одной учетной записи для основы вашей платформы данных для проверки концепции или нескольких небольших рабочих нагрузок. Для реализации средних и крупных производственных задач мы рекомендуем использовать стратегию с несколькими аккаунтами. В такой ситуации LOB могут взять на себя роль производителей и потребителей данных, используя разные учетные записи AWS, а управление озером данных осуществляется из центральной общей учетной записи AWS. Производитель данных собирает, обрабатывает и хранит данные из своей предметной области, а также отслеживает и обеспечивает качество своих информационных активов. Потребители данных получают данные от производителя данных после того, как централизованный каталог поделится ими с помощью Lake Formation. Централизованный каталог хранит общий каталог данных для учетных записей производителей данных и управляет им.

Сервисы платформы машинного обучения

Этот модуль помогает команде разработчиков платформы ML настроить общие службы, которые используются группами специалистов по обработке данных в своих групповых учетных записях. Услуги включают в себя портфель каталога услуг с продуктами для Домен SageMaker развертывание, Профиль пользователя домена SageMaker развертывание, шаблоны моделей обработки данных для построения и развертывания моделей. Этот модуль имеет функциональные возможности для централизованного реестра моделей, карточек моделей, информационной панели модели и конвейеров CI/CD, используемых для оркестрации и автоматизации рабочих процессов разработки и развертывания моделей.

Кроме того, в этом модуле подробно описано, как реализовать средства контроля и управления, необходимые для реализации возможностей самообслуживания на основе личных данных, что позволяет группам специалистов по обработке и анализу данных самостоятельно развертывать необходимую облачную инфраструктуру и шаблоны машинного обучения.

Разработка вариантов использования ML

Этот модуль помогает бизнес-специалистам и специалистам по обработке данных получить доступ к домену SageMaker своей команды в среде разработки и создать экземпляр шаблона построения модели для разработки своих моделей. В этом модуле ученые, работающие с данными, работают над экземпляром шаблона учетной записи разработчика, чтобы взаимодействовать с данными, доступными в централизованном озере данных, повторно использовать и совместно использовать функции из центрального хранилища функций, создавать и запускать эксперименты ML, создавать и тестировать свои рабочие процессы ML. и зарегистрировать свои модели в реестре моделей учетных записей разработчиков в своих средах разработки.

В шаблонах также реализованы такие возможности, как отслеживание экспериментов, отчеты о объяснимости моделей, мониторинг предвзятости данных и моделей, а также реестр моделей, что позволяет быстро адаптировать решения к моделям, разработанным специалистами по данным.

Операции МО

Этот модуль помогает LOB-инженерам и инженерам машинного обучения работать над экземплярами шаблона развертывания модели. После регистрации и утверждения модели-кандидата они настраивают конвейеры CI/CD и запускают рабочие процессы машинного обучения в тестовой среде группы, которая регистрирует модель в центральном реестре моделей, работающем под учетной записью общих служб платформы. Когда модель утверждается в центральном реестре моделей, это запускает конвейер CI/CD для развертывания модели в производственной среде группы.

Централизованный магазин функций

После того как первые модели развернуты в рабочей среде и несколько вариантов использования начинают использовать функции, созданные на основе одних и тех же данных, хранилище функций становится необходимым для обеспечения совместной работы в различных сценариях использования и уменьшения дублирования работы. Этот модуль помогает команде разработчиков платформы ML настроить централизованное хранилище функций для хранения и управления функциями ML, созданными в сценариях использования ML, что позволяет повторно использовать функции в разных проектах.

Логирование и наблюдаемость

Этот модуль помогает бизнес-специалистам и специалистам по машинному обучению получить представление о состоянии рабочих нагрузок машинного обучения в средах машинного обучения посредством централизации журналов активности, таких как CloudTrail, CloudWatch, журналы потоков VPC и журналы рабочих нагрузок машинного обучения. Команды могут фильтровать, запрашивать и визуализировать журналы для анализа, что также может помочь повысить уровень безопасности.

Стоимость и отчетность

Этот модуль помогает различным заинтересованным сторонам (администратору облака, администратору платформы, облачному бизнес-офису) создавать отчеты и информационные панели для разбивки затрат на уровне пользователя ML, команды ML и продукта ML, а также отслеживать использование, например количество пользователей, типы экземпляров и конечные точки.

Клиенты попросили нас предоставить рекомендации о том, сколько учетных записей нужно создать и как их структурировать. В следующем разделе мы даем рекомендации по этой структуре учетной записи в качестве справочной информации, которую вы можете изменить в соответствии со своими потребностями в соответствии с требованиями управления предприятием.

В этом разделе мы обсуждаем наши рекомендации по организации структуры вашего аккаунта. У нас общая базовая структура справочного счета; однако мы рекомендуем администраторам ML и данных работать в тесном контакте со своим облачным администратором, чтобы настроить эту структуру учетной записи на основе элементов управления своей организации.

Мы рекомендуем организовывать учетные записи по подразделениям для обеспечения безопасности, инфраструктуры, рабочих нагрузок и развертываний. Кроме того, внутри каждого подразделения организуйте непроизводственные и рабочие подразделения, поскольку учетные записи и рабочие нагрузки, развернутые под ними, имеют разные элементы управления. Далее мы кратко обсудим эти подразделения.

Подразделение безопасности

Учетные записи в этом подразделении управляются администратором облака организации или командой безопасности для мониторинга, идентификации, защиты, обнаружения событий безопасности и реагирования на них.

Инфраструктурное подразделение

Учетными записями в этом подразделении управляет облачный администратор организации или сетевая группа для управления общими ресурсами и сетями инфраструктуры уровня предприятия.

Мы рекомендуем иметь следующие учетные записи в подразделении инфраструктуры:

  • Cеть – Настройте централизованную сетевую инфраструктуру, такую ​​как Транзитный шлюз AWS
  • Общие услуги – Настройка централизованных служб AD и конечных точек VPC.

Рабочие нагрузки OU

Учетными записями в этом подразделении управляют администраторы группы платформы организации. Если вам нужны разные элементы управления, реализованные для каждой группы платформы, вы можете вложить для этой цели другие уровни подразделения, например подразделение рабочих нагрузок ML, подразделение рабочих нагрузок данных и т. д.

Мы рекомендуем следующие учетные записи в рамках подразделения рабочих нагрузок:

  • Учетные записи разработчиков, тестирования и разработки машинного обучения на уровне команды – Настройте это в соответствии с вашими требованиями к изоляции рабочей нагрузки.
  • Учетные записи озера данных – Разделение учетных записей по вашему домену данных
  • Центральный аккаунт управления данными – Централизуйте политику доступа к данным.
  • Учетная запись центрального магазина функций – Централизовать функции для совместного использования между командами

Развертывания OU

Учетными записями в этом подразделении управляют администраторы группы платформы организации для развертывания рабочих нагрузок и обеспечения наблюдения.

Мы рекомендуем следующие учетные записи в подразделении развертываний, поскольку команда платформы ML может настраивать различные наборы элементов управления на этом уровне подразделения для управления развертываниями:

  • Учетные записи общих служб машинного обучения для тестирования и разработки – Общие службы платформы хостов CI/CD и реестр моделей.
  • Учет наблюдаемости машинного обучения для тестирования и разработки – Размещает журналы CloudWatch, журналы CloudTrail и другие журналы по мере необходимости.

Далее мы кратко обсудим элементы управления организацией, которые необходимо учитывать при внедрении в учетные записи участников для мониторинга ресурсов инфраструктуры.

Элементы управления средой AWS

Элемент управления — это правило высокого уровня, которое обеспечивает постоянное управление всей вашей средой AWS. Это выражено простым языком. В этой структуре мы используем AWS Control Tower для реализации следующих элементов управления, которые помогут вам управлять своими ресурсами и отслеживать соответствие требованиям в группах учетных записей AWS:

  • Превентивный контроль – Превентивный контроль гарантирует, что ваши учетные записи будут соответствовать требованиям, поскольку он запрещает действия, которые приводят к нарушениям политики и реализуются с использованием Политики управления услугами (SCP). Например, вы можете установить превентивный контроль, который гарантирует, что CloudTrail не будет удален или остановлен в учетных записях AWS или регионах.
  • Детективное управление – Детективный контроль обнаруживает несоответствие ресурсов в ваших учетных записях, например нарушения политики, предоставляет оповещения через панель управления и реализуется с помощью Конфигурация АВС правила. Например, вы можете создать детективный элемент управления, который будет определять, включен ли публичный доступ для чтения к Простой сервис хранения Amazon (Amazon S3) в общей учетной записи архива журналов.
  • Проактивный контроль – Проактивный контроль сканирует ваши ресурсы перед их предоставлением и гарантирует, что ресурсы соответствуют этому контролю и реализованы с использованием AWS CloudFormation крючки. Ресурсы, не соответствующие требованиям, не будут предоставлены. Например, вы можете установить упреждающий контроль, который проверяет, не разрешен ли прямой доступ к Интернету для экземпляра блокнота SageMaker.

Взаимодействие между сервисами платформы ML, вариантами использования ML и операциями ML

Различные лица, такие как руководитель отдела обработки данных (ведущий специалист по данным), специалист по данным и инженер ML, управляют модулями 2–6, как показано на следующей диаграмме, для разных этапов услуг платформы ML, разработки вариантов использования ML и операций ML. наряду с основами озера данных и центральным хранилищем функций.

В следующей таблице приведены действия потока операций и этапы процесса настройки для разных пользователей. Как только человек инициирует действие ML в рамках потока операций, службы запускаются, как указано в шагах потока настройки.

Persona Активность потока операций — номер Действия потока операций — описание Шаг настройки — номер Шаг настройки – описание
Ведущий специалист по науке о данных или руководитель группы ML

1

Использует каталог услуг в учетной записи служб платформы ML и развертывает следующее:

    • Инфраструктура машинного обучения
    • Проекты SageMaker
    • Реестр моделей SageMaker

1-A

  • Настраивает среды разработки, тестирования и производства для бизнес-объектов.
  • Настраивает SageMaker Studio в учетной записи служб платформы ML.

1-B

  • Настраивает SageMaker Studio с необходимой конфигурацией.
Данные ученых

2

Проводит и отслеживает эксперименты по машинному обучению в блокнотах SageMaker.

2-A

  • Использует данные из Lake Formation.
  • Сохраняет функции в центральном хранилище функций.

3

Автоматизирует успешные эксперименты по машинному обучению с помощью проектов и конвейеров SageMaker.

3-A

    • Запускает конвейеры SageMaker (предварительная обработка, обучение, оценка) в учетной записи разработчика.
  • Инициирует процесс сборки CI/CD с помощью CodePipeline в учетной записи разработчика.

3-B

После запуска конвейеров SageMaker сохраняет модель в локальном реестре моделей (dev).
Ведущий специалист по данным или руководитель группы ML

4

Утверждает модель в локальном (dev) реестре моделей.

4-A

Метаданные модели и пакет модели записываются из локального (dev) реестра моделей в центральный реестр моделей.

5

Утверждает модель в центральном реестре моделей

5-A

Инициирует процесс развертывания CI/CD для создания конечных точек SageMaker в тестовой среде.

5-B

Записывает информацию о модели и метаданные в модуль управления ML (карточка модели, панель мониторинга модели) в учетной записи служб платформы ML из локальной учетной записи (dev).
Инженер ML

6

Тестирует и отслеживает конечную точку SageMaker в тестовой среде после CI/CD. .

7

Утверждает развертывание конечных точек SageMaker в рабочей среде.

7-A

Инициирует процесс развертывания CI/CD для создания конечных точек SageMaker в рабочей среде.

8

Тестирует и отслеживает конечную точку SageMaker в тестовой среде после CI/CD. .

Персоны и взаимодействие с различными модулями платформы ML

Каждый модуль предназначен для определенных целевых пользователей в определенных подразделениях, которые используют модуль чаще всего, предоставляя им первичный доступ. Вторичный доступ затем разрешается другим подразделениям, которые требуют периодического использования модулей. Модули адаптированы к потребностям конкретных должностей или персонажей для оптимизации функциональности.

Мы обсуждаем следующие команды:

  • Центральное облачное проектирование – Эта группа работает на уровне корпоративного облака для всех рабочих нагрузок для настройки общих служб облачной инфраструктуры, таких как настройка сети на уровне предприятия, идентификации, разрешений и управления учетными записями.
  • Разработка платформы данных – Эта команда управляет корпоративными озерами данных, сбором, курированием и управлением данными.
  • Разработка платформы машинного обучения – Эта команда работает на уровне платформы ML в различных бизнес-подразделениях, чтобы предоставлять общие услуги инфраструктуры ML, такие как предоставление инфраструктуры ML, отслеживание экспериментов, управление моделями, развертывание и наблюдаемость.

В следующей таблице подробно указано, какие подразделения имеют первичный и вторичный доступ к каждому модулю в зависимости от целевых пользователей модуля.

Номер модуля Модули Первичный доступ Вторичный доступ Целевые персонажи Количество аккаунтов

1

Многосчетные фонды Центральное облачное проектирование Отдельные бизнес-объекты
  • Облачный администратор
  • Облачные инженеры
Несколько

2

Основы озера данных Разработка центрального облака или платформы данных Отдельные бизнес-объекты
  • Администратор озера данных
  • Инженеры данных
множественный

3

Сервисы платформы машинного обучения Разработка центрального облака или платформы машинного обучения Отдельные бизнес-объекты
  • Администратор платформы машинного обучения
  • Руководитель группы ML
  • инженеры машинного обучения
  • Руководитель отдела управления ML
один

4

Разработка вариантов использования ML Отдельные бизнес-объекты Разработка центрального облака или платформы машинного обучения
  • Ученые данных
  • Инженеры данных
  • Руководитель группы ML
  • инженеры машинного обучения
множественный

5

Операции МО Центральное облако или машинное обучение Отдельные бизнес-объекты
  • ML-инженеры
  • Руководители команды ML
  • Ученые данных
множественный

6

Централизованный магазин функций Центральное облако или инженерия данных Отдельные бизнес-объекты
  • Инженер данных
  • Ученые данных
один

7

Логирование и наблюдаемость Центральное облачное проектирование Отдельные бизнес-объекты
  • Облачный администратор
  • ИТ-аудиторы
один

8

Стоимость и отчетность Отдельные бизнес-объекты Центральная платформа проектирования
  • Руководители LOB
  • Менеджеры по машинному обучению
один

Заключение

В этом посте мы представили структуру для управления жизненным циклом машинного обучения в масштабе, которая поможет вам реализовать хорошо спроектированные рабочие нагрузки машинного обучения, включающие элементы управления безопасностью и управлением. Мы обсудили, как эта структура использует целостный подход к созданию платформы машинного обучения с учетом управления данными, управления моделями и контроля на уровне предприятия. Мы рекомендуем вам поэкспериментировать с фреймворком и концепциями, представленными в этом посте, и поделиться своими отзывами.


Об авторах

Рам Виттал — главный архитектор решений машинного обучения в AWS. Он имеет более чем трехлетний опыт проектирования и создания распределенных, гибридных и облачных приложений. Он увлечен созданием безопасных, масштабируемых и надежных решений в области искусственного интеллекта, машинного обучения и больших данных, которые помогут корпоративным клиентам в их внедрении и оптимизации облака для улучшения результатов их бизнеса. В свободное время он катается на мотоцикле и гуляет со своей трехлетней овечкой!

Совик Кумар Натх является архитектором решений AI/ML в AWS. Он имеет большой опыт разработки комплексных решений для машинного обучения и бизнес-аналитики в области финансов, операций, маркетинга, здравоохранения, управления цепочками поставок и Интернета вещей. Совик опубликовал статьи и имеет патент в области мониторинга моделей машинного обучения. Он имеет двойную степень магистра Университета Южной Флориды, Университета Фрибурга, Швейцария, и степень бакалавра Индийского технологического института в Харагпуре. Вне работы Совик любит путешествовать, кататься на пароме и смотреть фильмы.

Майра Ладейра Танке — старший специалист по данным в AWS. В качестве технического руководителя она помогает клиентам ускорить достижение ими бизнес-ценности с помощью новых технологий и инновационных решений. Майра работает в AWS с января 2020 года. До этого она работала специалистом по данным в различных отраслях, уделяя особое внимание получению бизнес-пользы от данных. В свободное время Майра любит путешествовать и проводить время с семьей в теплых местах.

Райан Лемпка является старшим архитектором решений в Amazon Web Services, где он помогает своим клиентам работать в обратном направлении от бизнес-целей до разработки решений на AWS. Он имеет глубокий опыт в области бизнес-стратегии, управления ИТ-системами и науки о данных. Райан посвятил себя тому, чтобы учиться на протяжении всей жизни, и ему нравится каждый день бросать себе вызов, чтобы узнать что-то новое.

Шрихарш Адари является старшим архитектором решений в Amazon Web Services (AWS), где он помогает клиентам работать в обратном направлении от бизнес-результатов для разработки инновационных решений на AWS. На протяжении многих лет он помогал множеству клиентов в преобразовании платформ данных в различных отраслевых вертикалях. Его основная область знаний включает технологическую стратегию, аналитику данных и науку о данных. В свободное время он любит заниматься спортом, смотреть сериалы и играть в таблу.

Spot_img

Последняя разведка

Spot_img