Logo Zephyrnet

Analisi della diversità e dell'inclusione con SQL

Data:

Analisi della diversità e dell'inclusione con SQL
Immagine dell'editore

Negli ultimi 3-5 anni c'è stata un'ondata ben documentata di posizioni relative a diversità, equità e inclusione. Gli analisti DEI possono dedicare il loro tempo a monitorare, analizzare e rispondere a domande quali,

  • Come si confrontano gli stipendi in base al genere?
  • Come si classificano i nostri dipartimenti in termini di diversità di razza? 
  • Quali posizioni e titoli sono i meno diversi?

Sebbene gli analisti DEI si concentrino sulla risposta a diversi tipi di domande rispetto agli analisti aziendali, utilizzano comunque le stesse competenze e tecniche tecniche.

Le classi protette sono in genere categorico: Sesso, razza, etnia ed età (di solito l'età è suddivisa in categorie)

Numerico i dati, come lo stipendio, possono essere aggregati tra classi protette con

  • Media
  • Mediano
  • Minimo
  • Massimo

Quando analizzi la combinazione di a Categorico e Numerico variabili, SQL lo rende abbastanza semplice:

SELECT ethnicity, AVG(salary) as AVG_SALARY, MEDIAN(salary) as MEDIAN_SALARY FROM HRDATA GROUP BY ethnicity

 

Razza MEDIA_STIPENDIO MEDIAN_STIPENDIO
White $68,513 $60,050
African American $67,691 $55,114
Asiatica $68,842 $65,632

Ma quali metodi esistono per analizzare Categorico ed Categorico variabili insieme? Le scelte standard sono piuttosto limitate:

  • Modalità (più comune)
  • Conte Distinto
SELECT department, COUNT(1) AS employees, COUNT(DISTINCT ethnicity) AS DISTINCT_ETHNICITY, MODE(ethnicity) AS MOST_COMMON_ETHNICITY FROM HRDATA GROUP BY ethnicity

 

Shirts Department I dipendenti Generi distinti Genere più comune
Vendite 100 2 Uomo
IT 100 2 Uomo

A prima vista, i reparti sembrano essere molto simili. Ma come diresti la differenza tra:

  • Le vendite hanno 99 dipendenti maschi e 1 dipendente donna
  • Esso ha 51 dipendenti maschi e 49 dipendenti donne

Sicuramente, considereremmo quest'ultimo più diversificato, ma come potremmo saperlo rapidamente usando SQL?

Sono qui per insegnarti una funzione aggregata sottovalutata chiamata entropia, che ci aiuterà a quantificare esattamente la diversità di ciascun dipartimento. 

Shirts Department I dipendenti Generi distinti Genere più comune entropia
Vendite 100 2 Uomo 0.08
IT 100 2 Uomo 0.99

Sfortunatamente non è facile come fare semplicemente SELECT Department, ENTROPY(ethnicity), ma ti insegnerò la logica SQL, oltre ad aggiungerla all'open-source Generatore SQL 5000, in modo da poter generare questo SQL ogni volta che ne hai bisogno.

Il dottor Rich Huebner fornisce alcuni dati HR di esempio su Kaggle.com che possiamo usare per esplorare alcuni dei modi per analizzare la Diversità.

Iniziamo interrogando i dati per confrontare la Posizione con la Gara. Inizieremo con le basi: Count, Count Distinct e Mode.

SELECT POSITION, COUNT(1) AS employees, COUNT(DISTINCT RACEDESC) AS DISTINCT_RACE, MODE(RACEDESC) AS MOST_COMMON_RACE FROM HR_DATA WHERE DATEOFTERMINATION IS NULL /*active employees*/
GROUP BY POSITION
ORDER BY 2 DESC

Guardando i risultati, le 3 posizioni più popolari sembrano essere molto simili nella diversità:

 

Quindi, come classificheremmo questi 3 dipartimenti in termini di diversità? È qui che entra in gioco l'entropia.

Che cos'è l'entropia?

Prima di continuare, prendiamoci un minuto per capire cos'è l'entropia e come possiamo interpretarla. Il concetto di entropia è profondamente radicato nello studio della teoria dell'informazione e ha molte applicazioni diverse tra cui l'apprendimento automatico, la termodinamica e la crittografia. Pertanto, se cerchi la definizione, può essere fonte di confusione.

Eppure la definizione più semplice di entropia è qualcosa del genere: L'entropia è una misura numerica per descrivere quanto sia diverso qualcosa.

Considera una borsa di biglie che hanno solo due colori: rosso e blu.

Ora, immagina di aver contato le biglie nella borsa e di scoprire che c'erano 99 biglie blu e solo 1 rossa. Questa situazione non è molto varia, quindi l'entropia della borsa è bassa. 

Quindi, immagina una borsa con 50 biglie blu e 50 rosse. Questa borsa è molto varia, infatti non può essere più varia. Una borsa con 51 biglie blu e 49 rosse è leggermente meno diversi. Pertanto, questa borsa ha un'alta entropia.

Così,

  • Una borsa con 100 biglie blu e 0 biglie blu è la meno diversificata: entropia = 0
  • Una borsa con 50 biglie blu e 50 biglie rosse è la più varia: entropia = 1

Pertanto, l'entropia raggiunge un massimo di 1 a 50/50. Ecco una trama comune di come l'entropia cambia con la % blu delle biglie:

 

Analisi della diversità e dell'inclusione con SQL
Crediti: https://commons.wikimedia.org/wiki/File:Binary_entropy_plot.png
 

Per calcolare l'entropia, calcoliamo la percentuale per ogni colore e ricordiamo la formula:

 

Analisi della diversità e dell'inclusione con SQL
 

Quindi, per una borsa composta per il 70% da biglie blu, costruiamo la formula in questo modo:

 

Analisi della diversità e dell'inclusione con SQL
 

Quando lo estendi a più di 2 scelte, cambi semplicemente la base del registro in modo che corrisponda al numero di possibilità.

Questa è un'operazione piuttosto semplice ed efficiente da gestire per SQL.

Il risultato finale ci mostra che mentre nessuna delle due posizioni è perfettamente diversa, l'Area Sales Manager è più diversificata del Tecnico di produzione. 

Possiamo confermarlo visivamente tracciandolo su un grafico.

 

Analisi della diversità e dell'inclusione con SQL

L'entropia è un metodo utile per descrivere la diversità. Ti consente di ordinare o classificare reparti, posizioni o aziende combinando tali categorie con una classe protetta come razza o sesso. Anche se la funzione non esiste direttamente nella maggior parte degli RDMBS, possiamo facilmente costruire l'SQL per calcolarla. Credo che sia importante per chiunque lavori in Diversità, equità e inclusione utilizzare questi calcoli quando osserva la forza lavoro della propria organizzazione. Inoltre, avendo lavorato sui dati per la maggior parte della mia carriera, è fantastico vedere che la potenza di SQL funziona in tutti i team informati sui dati, dagli analisti di dati tradizionali fino agli analisti DEI.
 
 
Josh Berry (@twitter) guida Customer Facing Data Science presso Rasgo ed è stato nella professione di dati e analisi dal 2008. Josh ha trascorso 10 anni in Comcast dove ha creato il team di data science ed è stato uno dei principali proprietari del negozio di funzionalità Comcast sviluppato internamente, uno dei primi negozi di funzionalità per colpire il mercato. Dopo Comcast, Josh è stato un leader fondamentale nella creazione di Customer Facing Data Science presso DataRobot. Nel suo tempo libero Josh esegue analisi complesse su argomenti interessanti come il baseball, le gare di F1, le previsioni del mercato immobiliare e altro ancora.
 

spot_img

L'ultima intelligenza

spot_img