Zephyrnet Logo

Analisando Diversidade e Inclusão com SQL

Data:

Analisando Diversidade e Inclusão com SQL
Imagem do editor

Houve um aumento bem documentado em cargos relacionados à Diversidade, Equidade e Inclusão nos últimos 3 a 5 anos. Os analistas de DEI podem gastar seu tempo rastreando, analisando e respondendo a perguntas como:

  • Como os salários se comparam entre os sexos?
  • Como nossos departamentos se classificam em termos de diversidade racial? 
  • Quais cargos e títulos são os menos diversos?

Embora os Analistas DEI se concentrem em responder a diferentes tipos de perguntas dos Analistas de Negócios, eles ainda usam as mesmas técnicas e habilidades técnicas.

Classes protegidas são tipicamente categórico: Sexo, Raça, Etnia e Idade (geralmente a idade é dividida em categorias)

Numérico dados, como salário, podem ser agregados em classes protegidas com

  • Média
  • Mediana
  • Mínimo
  • Máximo

Quando você analisa a combinação de um Categórico e de um Numérico variáveis, o SQL facilita bastante:

SELECT ethnicity, AVG(salary) as AVG_SALARY, MEDIAN(salary) as MEDIAN_SALARY FROM HRDATA GROUP BY ethnicity

 

Etnia AVG_SALÁRIO MEDIAN_SALÁRIO
Branco $68,513 $60,050
Africano americano $67,691 $55,114
Asiático $68,842 $65,632

Mas que métodos existem para analisar Categórico e Categórico variáveis ​​juntas? As opções padrão são bastante limitadas:

  • Modo (mais comum)
  • Contagem Distinta
SELECT department, COUNT(1) AS employees, COUNT(DISTINCT ethnicity) AS DISTINCT_ETHNICITY, MODE(ethnicity) AS MOST_COMMON_ETHNICITY FROM HRDATA GROUP BY ethnicity

 

Departamento Colaboradores Gêneros distintos Gênero mais comum
Vendas 100 2 Masculino
IT 100 2 Masculino

À primeira vista, os departamentos parecem ser muito semelhantes. Mas como você diria a diferença entre:

  • vendas tem 99 funcionários do sexo masculino e 1 empregada
  • Tem 51 funcionários do sexo masculino e 49 funcionárias

Certamente, consideraríamos o último mais diversificado, mas como saberíamos isso rapidamente usando SQL?

Estou aqui para ensiná-lo sobre uma função de agregação subestimada chamada Entropia, o que nos ajudará a quantificar exatamente a diversidade de cada departamento. 

Departamento Colaboradores Gêneros distintos Gênero mais comum Entropia
Vendas 100 2 Masculino 0.08
IT 100 2 Masculino 0.99

Infelizmente, não é tão fácil quanto simplesmente fazer SELECT Department, ENTROPY(ethnicity), mas vou ensinar a lógica SQL, bem como adicioná-la ao código aberto Gerador SQL 5000, para que você possa gerar esse SQL sempre que precisar.

Dr.Rich Huebner fornece alguns dados de exemplo de RH sobre Kaggle. com que podemos usar para explorar algumas das formas de analisar a Diversidade.

Vamos começar consultando os dados para comparar a Posição com a Corrida. Começaremos com o básico: Count, Count Distinct e Mode.

SELECT POSITION, COUNT(1) AS employees, COUNT(DISTINCT RACEDESC) AS DISTINCT_RACE, MODE(RACEDESC) AS MOST_COMMON_RACE FROM HR_DATA WHERE DATEOFTERMINATION IS NULL /*active employees*/
GROUP BY POSITION
ORDER BY 2 DESC

Olhando para os resultados, as 3 posições mais populares parecem ser muito semelhantes em diversidade:

 

Então, como classificaríamos esses 3 departamentos em termos de diversidade? É aqui que entra a Entropia.

O que é Entropia?

Antes de continuarmos, vamos dedicar um minuto para entender o que é Entropia e como podemos interpretá-la. O conceito de entropia está profundamente enraizado no estudo da teoria da informação e tem muitas aplicações diferentes, incluindo aprendizado de máquina, termodinâmica e criptografia. Portanto, se você procurar a definição, pode ser confuso.

No entanto, a definição mais simples de entropia é algo como isto: A entropia é uma medida numérica para descrever o quão diverso algo é.

Considere um saco de bolinhas que só tem duas cores: vermelho e azul.

Agora, imagine que contamos as bolinhas do saco e descobrimos que havia 99 azuis e apenas 1 vermelha. Esta situação não é muito diversa, então a entropia da bolsa é baixa. 

Em seguida, imagine uma sacola com 50 bolinhas azuis e 50 vermelhas. Esta bolsa é muito diversa, na verdade não poderia ser mais diversa. Uma sacola com 51 bolinhas azuis e 49 vermelhas é ligeiramente menos diversos. Portanto, esta bolsa tem alta entropia.

Assim,

  • Uma sacola com 100 bolinhas azuis e 0 bolinhas azuis é a menos diversa: Entropia = 0
  • Uma sacola com 50 bolinhas azuis e 50 bolinhas vermelhas é a mais diversa: Entropia = 1

Portanto, a entropia atinge um máximo de 1 em 50/50. Aqui está um gráfico comum de como a Entropia muda com a % Azul das bolinhas de gude:

 

Analisando Diversidade e Inclusão com SQL
Crédito: https://commons.wikimedia.org/wiki/File:Binary_entropy_plot.png
 

Para calcular a entropia, calculamos a porcentagem de cada cor e lembramos da fórmula:

 

Analisando Diversidade e Inclusão com SQL
 

Então, para uma sacola com 70% de bolinhas azuis, construímos a fórmula assim:

 

Analisando Diversidade e Inclusão com SQL
 

Quando você estende isso para mais de 2 opções, basta alterar a base do log para corresponder ao número de possibilidades.

Esta é uma operação bastante simples e eficiente para o SQL manipular.

O resultado final nos mostra que, embora nenhum dos cargos seja perfeitamente diverso, Gerente de Vendas de Área é mais diverso do que Técnico de Produção. 

Podemos confirmar isso visualmente plotando isso em um gráfico.

 

Analisando Diversidade e Inclusão com SQL

A entropia é um método útil para descrever a diversidade. Ele permite que você classifique ou classifique departamentos, cargos ou empresas combinando essas categorias com uma classe protegida, como raça ou gênero. Mesmo que a função não exista diretamente na maioria dos RDMBS, podemos facilmente construir o SQL para calculá-la. Acredito que seja importante para quem trabalha com Diversidade, Equidade e Inclusão usar esses cálculos ao analisar a força de trabalho de suas organizações. Além disso, tendo trabalhado com dados durante a maior parte da minha carreira, é ótimo ver que o poder do SQL funciona em todas as equipes informadas por dados, desde analistas de dados tradicionais até analistas de DEI.
 
 
Josh Berry (@Twitter) lidera o Customer Facing Data Science na Rasgo e está na profissão de dados e análise desde 2008. Josh passou 10 anos na Comcast, onde construiu a equipe de ciência de dados e foi um dos principais proprietários da loja de recursos Comcast desenvolvida internamente - uma das primeiras lojas de recursos para chegar ao mercado. Após a Comcast, Josh foi um líder crítico na construção de Customer Facing Data Science na DataRobot. Em seu tempo livre, Josh realiza análises complexas sobre tópicos interessantes, como beisebol, corridas de F1, previsões do mercado imobiliário e muito mais.
 

local_img

Inteligência mais recente

local_img