Immagine dell'editore
Negli ultimi 3-5 anni c'è stata un'ondata ben documentata di posizioni relative a diversità, equità e inclusione. Gli analisti DEI possono dedicare il loro tempo a monitorare, analizzare e rispondere a domande quali,
- Come si confrontano gli stipendi in base al genere?
- Come si classificano i nostri dipartimenti in termini di diversità di razza?
- Quali posizioni e titoli sono i meno diversi?
Sebbene gli analisti DEI si concentrino sulla risposta a diversi tipi di domande rispetto agli analisti aziendali, utilizzano comunque le stesse competenze e tecniche tecniche.
Le classi protette sono in genere categorico: Sesso, razza, etnia ed età (di solito l'età è suddivisa in categorie)
Numerico i dati, come lo stipendio, possono essere aggregati tra classi protette con
- Media
- Mediano
- Minimo
- Massimo
Quando analizzi la combinazione di a Categorico e Numerico variabili, SQL lo rende abbastanza semplice:
SELECT ethnicity, AVG(salary) as AVG_SALARY, MEDIAN(salary) as MEDIAN_SALARY FROM HRDATA GROUP BY ethnicity
Razza | MEDIA_STIPENDIO | MEDIAN_STIPENDIO |
White | $68,513 | $60,050 |
African American | $67,691 | $55,114 |
Asiatica | $68,842 | $65,632 |
Ma quali metodi esistono per analizzare Categorico ed Categorico variabili insieme? Le scelte standard sono piuttosto limitate:
- Modalità (più comune)
- Conte Distinto
SELECT department, COUNT(1) AS employees, COUNT(DISTINCT ethnicity) AS DISTINCT_ETHNICITY, MODE(ethnicity) AS MOST_COMMON_ETHNICITY FROM HRDATA GROUP BY ethnicity
Shirts Department | I dipendenti | Generi distinti | Genere più comune |
Vendite | 100 | 2 | Uomo |
IT | 100 | 2 | Uomo |
A prima vista, i reparti sembrano essere molto simili. Ma come diresti la differenza tra:
- Le vendite hanno 99 dipendenti maschi e 1 dipendente donna
- Esso ha 51 dipendenti maschi e 49 dipendenti donne
Sicuramente, considereremmo quest'ultimo più diversificato, ma come potremmo saperlo rapidamente usando SQL?
Sono qui per insegnarti una funzione aggregata sottovalutata chiamata entropia, che ci aiuterà a quantificare esattamente la diversità di ciascun dipartimento.
Shirts Department | I dipendenti | Generi distinti | Genere più comune | entropia |
Vendite | 100 | 2 | Uomo | 0.08 |
IT | 100 | 2 | Uomo | 0.99 |
Sfortunatamente non è facile come fare semplicemente SELECT Department, ENTROPY(ethnicity), ma ti insegnerò la logica SQL, oltre ad aggiungerla all'open-source Generatore SQL 5000, in modo da poter generare questo SQL ogni volta che ne hai bisogno.
Il dottor Rich Huebner fornisce alcuni dati HR di esempio su Kaggle.com che possiamo usare per esplorare alcuni dei modi per analizzare la Diversità.
Iniziamo interrogando i dati per confrontare la Posizione con la Gara. Inizieremo con le basi: Count, Count Distinct e Mode.
SELECT POSITION, COUNT(1) AS employees, COUNT(DISTINCT RACEDESC) AS DISTINCT_RACE, MODE(RACEDESC) AS MOST_COMMON_RACE FROM HR_DATA WHERE DATEOFTERMINATION IS NULL /*active employees*/
GROUP BY POSITION
ORDER BY 2 DESC
Guardando i risultati, le 3 posizioni più popolari sembrano essere molto simili nella diversità:
Quindi, come classificheremmo questi 3 dipartimenti in termini di diversità? È qui che entra in gioco l'entropia.
Che cos'è l'entropia?
Prima di continuare, prendiamoci un minuto per capire cos'è l'entropia e come possiamo interpretarla. Il concetto di entropia è profondamente radicato nello studio della teoria dell'informazione e ha molte applicazioni diverse tra cui l'apprendimento automatico, la termodinamica e la crittografia. Pertanto, se cerchi la definizione, può essere fonte di confusione.
Eppure la definizione più semplice di entropia è qualcosa del genere: L'entropia è una misura numerica per descrivere quanto sia diverso qualcosa.
Considera una borsa di biglie che hanno solo due colori: rosso e blu.
Ora, immagina di aver contato le biglie nella borsa e di scoprire che c'erano 99 biglie blu e solo 1 rossa. Questa situazione non è molto varia, quindi l'entropia della borsa è bassa.
Quindi, immagina una borsa con 50 biglie blu e 50 rosse. Questa borsa è molto varia, infatti non può essere più varia. Una borsa con 51 biglie blu e 49 rosse è leggermente meno diversi. Pertanto, questa borsa ha un'alta entropia.
Così,
- Una borsa con 100 biglie blu e 0 biglie blu è la meno diversificata: entropia = 0
- Una borsa con 50 biglie blu e 50 biglie rosse è la più varia: entropia = 1
Pertanto, l'entropia raggiunge un massimo di 1 a 50/50. Ecco una trama comune di come l'entropia cambia con la % blu delle biglie:
Crediti: https://commons.wikimedia.org/wiki/File:Binary_entropy_plot.png
Per calcolare l'entropia, calcoliamo la percentuale per ogni colore e ricordiamo la formula:
Quindi, per una borsa composta per il 70% da biglie blu, costruiamo la formula in questo modo:
Quando lo estendi a più di 2 scelte, cambi semplicemente la base del registro in modo che corrisponda al numero di possibilità.
Questa è un'operazione piuttosto semplice ed efficiente da gestire per SQL.
Il risultato finale ci mostra che mentre nessuna delle due posizioni è perfettamente diversa, l'Area Sales Manager è più diversificata del Tecnico di produzione.
Possiamo confermarlo visivamente tracciandolo su un grafico.
L'entropia è un metodo utile per descrivere la diversità. Ti consente di ordinare o classificare reparti, posizioni o aziende combinando tali categorie con una classe protetta come razza o sesso. Anche se la funzione non esiste direttamente nella maggior parte degli RDMBS, possiamo facilmente costruire l'SQL per calcolarla. Credo che sia importante per chiunque lavori in Diversità, equità e inclusione utilizzare questi calcoli quando osserva la forza lavoro della propria organizzazione. Inoltre, avendo lavorato sui dati per la maggior parte della mia carriera, è fantastico vedere che la potenza di SQL funziona in tutti i team informati sui dati, dagli analisti di dati tradizionali fino agli analisti DEI.
Josh Berry (@twitter) guida Customer Facing Data Science presso Rasgo ed è stato nella professione di dati e analisi dal 2008. Josh ha trascorso 10 anni in Comcast dove ha creato il team di data science ed è stato uno dei principali proprietari del negozio di funzionalità Comcast sviluppato internamente, uno dei primi negozi di funzionalità per colpire il mercato. Dopo Comcast, Josh è stato un leader fondamentale nella creazione di Customer Facing Data Science presso DataRobot. Nel suo tempo libero Josh esegue analisi complesse su argomenti interessanti come il baseball, le gare di F1, le previsioni del mercato immobiliare e altro ancora.
- Coinsmart. Il miglior scambio di bitcoin e criptovalute d'Europa.Clicca qui
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://www.kdnuggets.com/2022/11/analyzing-diversity-inclusion-sql.html?utm_source=rss&utm_medium=rss&utm_campaign=analyzing-diversity-inclusion-with-sql