Zephyrnet Logo

Explorando os novos recursos do AWS SageMaker - Clarify, Pipelines, Feature Store

Data:


Bem-vindo à parte 2 de nossa série de duas partes no AWS SageMaker. Se você não leu parte 1, pule e faça isso primeiro. Caso contrário, vamos mergulhar e dar uma olhada em alguns novos recursos importantes do SageMaker:

  • Esclarecer, que afirma “detectar viés em modelos de ML” e ajudar na interpretabilidade do modelo
  • Pipelines SageMaker, que ajudam a automatizar e organizar o fluxo de pipelines de ML
  • Loja de artigos, uma ferramenta para armazenar, recuperar, editar e compartilhar recursos desenvolvidos especificamente para fluxos de trabalho de ML.

Esclareça: debiasing AI precisa de um elemento humano

No evento AWS re: Invent em dezembro, Swami Sivasubramanian apresentou o Clarify como a ferramenta para “detecção de polarização em todo o fluxo de trabalho de aprendizado de máquina de ponta a ponta” com aplausos e assobios arrebatadores. Ele apresentou Nashlie Sephus, gerente de ciências aplicadas na AWS ML, que trabalha com preconceito e justiça. Como o Sephus deixa claro, o viés pode aparecer em qualquer estágio do fluxo de trabalho de ML: na coleta de dados, rotulagem e seleção de dados e quando implantado (desvio do modelo, por exemplo).

O escopo do Clarify é vasto; ele afirma ser capaz de:

  • realizar análise de viés durante a análise exploratória de dados
  • conduzir análise de tendência e explicabilidade após o treinamento
  • explicar inferências individuais para modelos em produção (uma vez que o modelo é implantado)
  • integrar com Monitor de modelo para fornecer alertas em tempo real com relação ao viés que está ocorrendo em seu (s) modelo (s).

O Clarify fornece um conjunto de diagnósticos úteis para cada um dos itens acima em uma interface relativamente amigável e com uma API conveniente, mas as afirmações acima são totalmente exageradas. O desafio é que o viés algorítmico raramente, ou nunca, é redutível a métricas como desequilíbrio de classe e valor preditivo positivo. É valioso ter um produto que forneça insights sobre essas métricas, mas a verdade é que eles estão abaixo do esperado. Na melhor das hipóteses, SageMaker alegando que o Clarify detecta preconceitos em todo o fluxo de trabalho de ML é um reflexo da lacuna entre o marketing e a criação de valor real.

Para ser claro, o viés algorítmico é um dos grandes desafios de nossa era: histórias de viés computacional em escala são tão comuns agora que não é surpreendente quando a própria Amazon “descarta uma ferramenta secreta de recrutamento que mostrava preconceito contra as mulheres.”Para experimentar as maneiras em que o viés algorítmico pode entrar nos pipelines de ML, confira o jogo instrucional Sobrevivência do melhor ajuste.

Reduzir o viés algorítmico e a justiça a um conjunto de métricas não é apenas redutor, mas perigoso. Ele não incorpora a experiência de domínio necessária e a inclusão das principais partes interessadas (sejam especialistas no domínio ou membros de comunidades tradicionalmente marginalizadas) na implantação de modelos. Também não se envolve em conversas importantes sobre o que o preconceito e a justiça realmente são; e, na maior parte, eles não são facilmente redutíveis a estatísticas resumidas.

Há um vasto e crescente corpo de literatura em torno dessas questões, incluindo 21 definições de justiça e suas políticas (Narayana), Equidade algorítmica: escolhas, suposições e definições (Mitchell et al.), E Compromissos inerentes na determinação justa das pontuações de risco (Kleingberg et al.), O último dos quais mostra que existem três definições diferentes de justiça algorítmica que basicamente nunca podem ser satisfeitas simultaneamente.

Há também o trabalho seminal de Timnit Gebru, Joy Buolamwini e muitos outros (como Tons de gênero), o que dá voz ao fato de que o viés algorítmico não é apenas uma questão de dados e métricas de treinamento. Nas palavras do Dr. Gebru: “Justiça não se trata apenas de conjuntos de dados, e não se trata apenas de matemática. Justiça também diz respeito à sociedade e, como engenheiros, como cientistas, não podemos fugir desse fato. ”

Para ser justo, o Clarify's documentação deixa claro que a construção de consenso e a colaboração entre as partes interessadas - incluindo usuários finais e comunidades - fazem parte da construção de modelos justos. Ele também afirma que os clientes “devem considerar a justiça e a explicabilidade durante cada estágio do ciclo de vida do ML: formação do problema, construção do conjunto de dados, seleção do algoritmo, processo de treinamento do modelo, processo de teste, implantação e monitoramento / feedback. É importante ter as ferramentas certas para fazer essa análise. ”

Infelizmente, declarações como “O Clarify fornece detecção de viés em todo o fluxo de trabalho de aprendizado de máquina” tornam a solução correta: como se você apenas pagasse a AWS pelo Clarify e seus modelos fossem imparciais. Embora a Sephus da Amazon compreenda e articule claramente que a degradação exigirá muito mais em sua apresentação, essa nuance se perderá na maioria dos executivos de negócios.

O ponto principal é que o Clarify fornece alguns diagnósticos úteis em uma interface conveniente, mas cuidado com o comprador! Isso não é de forma alguma uma solução para o viés algorítmico.

Pipelines: problema certo, mas uma abordagem complexa

Pipelines SageMaker (tutorial em vídeo, comunicados à CMVM) Essa ferramenta afirma ser o “primeiro serviço de CI / CD para aprendizado de máquina”. Ele promete executar fluxos de trabalho de ML automaticamente e ajuda a organizar o treinamento. Os pipelines de aprendizado de máquina geralmente exigem várias etapas (por exemplo, extração de dados, transformação, carregamento, limpeza, desduplicação, treinamento, validação, upload de modelo etc.) e Pipelines é uma tentativa de uni-los e ajudar os cientistas de dados a executar essas cargas de trabalho no AWS.

Então, ele se sai bem? Primeiro, é baseado em código e melhora muito AWS CodePipelines, que foram baseado em apontar e clicar. Este é claramente um movimento na direção certa. A configuração era tradicionalmente uma questão de alternar dezenas de configurações de console em um console da web em constante mudança, o que era lento, frustrante e altamente não reproduzível. Point-and-click é a antítese da reprodutibilidade. Ter seus pipelines no código torna mais fácil compartilhar e editar seus pipelines. SageMaker Pipelines segue uma forte tradição de configuração de recursos computacionais como código (os exemplos mais conhecidos são Kubernetes or Chefe de cozinha).

Especificar configurações em código de origem controlada por meio de uma API estável tem sido o ponto em que a indústria está se movendo.

Em segundo lugar, os Pipelines SageMaker são escritos em Python e têm todo o poder de uma linguagem de programação dinâmica. A maioria das soluções CI / CD de uso geral existentes, como Ações Github, Círculo CIou Pipelines do Azure use arquivos YAML estáticos. Isso significa que o Pipelines é mais poderoso. E a escolha de Python (em vez de outra linguagem de programação) foi inteligente. É a linguagem de programação predominante para ciência de dados e provavelmente tem mais tração (R, a segunda linguagem mais popular, provavelmente não é adequada para o trabalho de sistemas e não é familiar para a maioria dos desenvolvedores de não dados).

No entanto, a adoção da ferramenta não será tranquila. O tutorial oficial requer a configuração correta de permissões de IAM alternando as configurações do console e requer que os usuários leiam dois de outros tutoriais nas permissões do IAM para fazer isso. A terminologia parece inconsistente com o console real (“adicionar política embutida” vs. “anexar política” ou “política de confiança” vs. “relação de confiança”). Essas pequenas variações podem ser muito desanimadoras para aqueles que não são especialistas em administração de servidor em nuvem - por exemplo, o público-alvo dos Pipelines SageMaker. A documentação desatualizada e inconsistente é um problema difícil para a AWS, devido ao grande número de serviços que a AWS oferece.

A ferramenta também tem uma curva de aprendizado bastante acentuada. O tutorial oficial faz com que os usuários baixem um conjunto de dados, divida-o em conjuntos de treinamento e validação e faça upload dos resultados para o Registro de modelo AWS. Infelizmente, são necessários 10 passos e 300 linhas de código dev-ops (sim, contamos). Isso não inclui o código real para treinamento de ML e preparação de dados. A curva de aprendizado íngreme pode ser um desafio para a adoção, especialmente em comparação com soluções de CI / CD radicalmente mais simples (de uso geral), como o Github Actions.

Esta não é uma comparação estritamente justa e (como mencionado anteriormente) SageMaker Pipelines é mais poderoso: ele usa uma linguagem de programação completa e pode fazer muito mais. No entanto, na prática, CI / CD costuma ser usado exclusivamente para definir quando um pipeline é executado (por exemplo, no envio de código ou em um intervalo regular). Em seguida, ele chama um executor de tarefas (por exemplo, gole or pyinvoke são muito mais fáceis de aprender; o tutorial de pyinvoke tem 19 linhas), que traz todo o poder de uma linguagem de programação. Poderíamos nos conectar ao serviço AWS por meio de seus respectivos SDKs de linguagem, como o boto3 amplamente utilizado. Na verdade, um de nós usou (abusou?) De ações do Github CI / CD para coletar dados de inscrição de voto por correio em dezenas de estados na corrida para a eleição de 2020 e construir modelos mensais de linguagem simples a partir dos últimos despejos da Wikipedia. Portanto, a questão é se vale a pena aprender uma ferramenta multifuncional como o SageMaker Pipelines, se puder ser replicada juntando ferramentas comumente usadas. Isso é agravado pelo fato de SageMaker Pipelines ser fraco na força natural de uma solução integrada (não ter que lutar com permissões de segurança entre diferentes ferramentas).

A AWS está trabalhando no problema certo. Mas, dada a curva de aprendizado íngreme, não está claro se SageMaker Pipelines será suficiente para convencer as pessoas a mudarem das ferramentas existentes mais simples que estão acostumadas a usar. Essa troca aponta para um debate mais amplo: as empresas devem adotar uma pilha multifuncional ou usar os melhores produtos da categoria? Mais sobre essa questão em breve.

Loja de recursos: um recurso muito necessário para a empresa

Como Sivasubramanian mencionou em seu re: Invent keynote, “características são a base de modelos de alta qualidade.”O SageMaker Feature Store oferece um repositório para criar, compartilhar e recuperar recursos de aprendizado de máquina para treinamento e inferência com baixa latência.

Isso é empolgante, pois é um dos muitos aspectos principais do fluxo de trabalho de ML que foi isolado em uma variedade de empresas e setores por muito tempo, como na plataforma de ML do Uber Michelangelo (sua loja de recursos é chamada Paleta de Michelangelo) Uma grande parte da democratização da ciência de dados e o conjunto de ferramentas de dados exigirá que tais ferramentas sejam padronizadas e tornadas mais acessíveis aos profissionais de dados. Este movimento está em andamento: Para alguns exemplos atraentes, consulte o código aberto do Airbnb de O fluxo de ar, a ferramenta de gerenciamento de fluxo de trabalho de dados, junto com o surgimento de plataformas de rastreamento de ML, como Pesos e desvios, Netuno AI e Cometa ML. Plataformas maiores, como o MLFlow do Databricks, estão tentando capturar todos os aspectos do ciclo de vida do ML.

A maioria das grandes empresas de tecnologia tem suas lojas de artigos internos; e as organizações que não mantêm lojas de recursos acabam com muito trabalho duplicado. Como Harish Doddi, co-fundador e CEO da Datatron disse há vários anos agora em o Podcast do O'Reilly Data Show: “Quando converso com empresas hoje em dia, todo mundo sabe que seus cientistas de dados estão duplicando o trabalho porque não têm um armazenamento de recursos centralizado. Todo mundo com quem converso quer muito construir ou até comprar uma loja de artigos especiais, dependendo do que for mais fácil para eles. ”

Para ter uma noção do espaço do problema, basta olhar para o crescente conjunto de soluções, várias das quais estão encapsuladas em uma tabela de cenário competitivo em FeatureStore.org:

A loja de recursos SageMaker é promissora. Você tem a capacidade de criar grupos de recursos usando uma API relativamente Pythônica e acesso aos seus pacotes PyData favoritos (como Pandas e NumPy), tudo no conforto de um notebook Jupyter. Após a criação do recurso, é simples armazenar os resultados no grupo de recursos e há até mesmo um argumento de palavra-chave max_workers que permite paralelizar o processo de ingestão facilmente. Você pode armazenar seus recursos tanto offline quanto em uma loja online. O último permite o acesso de baixa latência aos valores mais recentes de um recurso.

O Feature Store parece bom para casos de uso básicos. Não foi possível determinar se ele está pronto para uso em produção com aplicações industriais, mas qualquer pessoa que necessite desses recursos deve verificar se você já usa o SageMaker ou está considerando incorporá-lo ao seu fluxo de trabalho.

Considerações finais

Finalmente, chegamos à questão de saber se as plataformas all-in-one, como a SageMaker, podem atender a todas as necessidades dos cientistas de dados modernos, que precisam de acesso às ferramentas mais recentes e de ponta.

Há uma compensação entre plataformas multifuncionais e ferramentas de última geração. As plataformas all-in-one são atraentes porque podem colocar soluções conjuntas para acelerar o desempenho. Eles também podem integrar perfeitamente ferramentas díspares (embora, como vimos acima, eles nem sempre cumpram essa promessa). Imagine um mundo onde as permissões, segurança e compatibilidade são gerenciadas perfeitamente pelo sistema sem a intervenção do usuário. As melhores ferramentas podem resolver melhor as etapas individuais do fluxo de trabalho, mas exigirão algum trabalho para serem costuradas. Um de nós argumentou anteriormente que as melhores ferramentas são melhores para cientistas de dados. O júri ainda está ausente. A arena da ciência de dados está explodindo com ferramentas de suporte, e descobrir qual serviço (ou combinação deles) torna o ambiente de dados mais eficaz manterá a comunidade técnica ocupada por um longo tempo.

Tianhui Michael Li é presidente da Instituto Pragmático e o fundador e presidente da A Incubadora de Dados, uma empresa de treinamento e colocação em ciência de dados. Anteriormente, ele chefiou a ciência de dados de monetização na Foursquare e trabalhou no Google, Andreessen Horowitz, JP Morgan e DE Shaw.

Hugo Bowne-Anderson é chefe de evangelismo de ciência de dados e vice-presidente de marketing da Enrolado. Anteriormente, ele era um cientista de dados na DataCampe ensinou tópicos de ciência de dados na Yale University e Cold Spring Harbor Laboratory, conferências como SciPy, PyCon e ODSC e com organizações como Data Carpentry. [Divulgação completa: como parte de seus serviços, a Coiled provisiona e gerencia recursos de nuvem para dimensionar o código Python para cientistas de dados e, portanto, oferece algo que a SageMaker também faz como parte de seus serviços. Mas também é verdade que plataformas unificadas como SageMaker e produtos como Coiled podem ser vistos como complementares: Coiled tem vários clientes que usam SageMaker Studio juntamente com Coiled.] 

Se você for um praticante de dados ou IA experiente, compartilhe sua experiência com a comunidade por meio de um guest post para VentureBeat.

VentureBeat

A missão da VentureBeat é ser uma praça da cidade digital para que os tomadores de decisões técnicas obtenham conhecimento sobre a tecnologia transformadora e façam transações. Nosso site oferece informações essenciais sobre tecnologias e estratégias de dados para orientá-lo à medida que lidera suas organizações. Convidamos você a se tornar um membro de nossa comunidade, para acessar:

  • informações atualizadas sobre os assuntos de seu interesse
  • nossos boletins
  • conteúdo líder de pensamento fechado e acesso com desconto a nossos eventos premiados, como o Transform
  • recursos de rede e muito mais

Torne-se um membro

Fonte: https://venturebeat.com/2021/02/14/exploring-aws-sagemakers-new-features-clarify-pipelines-feature-store/

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?