ゼファーネットのロゴ

SQL によるダイバーシティとインクルージョンの分析

日付:

SQL によるダイバーシティとインクルージョンの分析
編集者による画像

過去 3 ~ 5 年間で、ダイバーシティ、エクイティ、インクルージョンに関連するポジションが急増していることは十分に文書化されています。 DEI アナリストは、次のような質問の追跡、分析、および回答に時間を費やす場合があります。

  • 給与は男女間でどのように比較されますか?
  • 私たちの部門は、人種の多様性に関してどのようにランク付けされていますか? 
  • 最も多様性の低い役職と役職は?

DEI アナリストは、ビジネス アナリストとは異なる種類の質問に答えることに重点を置いていますが、同じ技術的スキルとテクニックを使用しています。

保護されたクラスは通常、 カテゴリー: 性別、人種、民族、年齢 (通常、年齢はカテゴリに分類されます)

数値の 給与などのデータは、保護されたクラス全体で集計できます。

  • 平均
  • 中央値
  • 最小
  • 最大

の組み合わせを分析すると、 カテゴリー フォルダーとその下に 数値の 変数、SQL はそれを非常に簡単にします。

SELECT ethnicity, AVG(salary) as AVG_SALARY, MEDIAN(salary) as MEDIAN_SALARY FROM HRDATA GROUP BY ethnicity

 

民族性 AVG_SALARY MEDIAN_SALARY
ホワイト $68,513 $60,050
アフリカ系アメリカ人 $67,691 $55,114
アジア人 $68,842 $65,632

しかし、分析するためにどのような方法が存在しますか カテゴリー および カテゴリー 一緒に変数? 標準的な選択肢は非常に限られています。

  • モード (最も一般的)
  • 個別にカウント
SELECT department, COUNT(1) AS employees, COUNT(DISTINCT ethnicity) AS DISTINCT_ETHNICITY, MODE(ethnicity) AS MOST_COMMON_ETHNICITY FROM HRDATA GROUP BY ethnicity

 

部門 職員 明確な性別 最も一般的な性別
営業 100 2 男性
IT 100 2 男性

一見すると、部門は非常に似ているように見えます。 しかし、次の違いをどのように見分けるでしょうか。

  • 売上は 99 男性社員と 1 女性社員
  • IT は 51 男性社員と 49 女性社員

確かに、後者の方がより多様であると考えるでしょうが、SQL を使用してそれをすばやく知るにはどうすればよいでしょうか?

私は、過小評価されている集計関数と呼ばれる関数について説明するためにここにいます。 エントロピー、これは、各部門の多様性を正確に定量化するのに役立ちます。 

部門 職員 明確な性別 最も一般的な性別 エントロピー
営業 100 2 男性 0.08
IT 100 2 男性 0.99

残念ながら、単に SELECT 部門、ENTROPY(民族性) を実行するほど簡単ではありませんが、SQL ロジックを教えて、オープンソースに追加します。 SQL ジェネレーター 5000、必要なときにいつでもこの SQL を生成できるようにします。

リッチ・ヒューブナー博士 に関するいくつかのサンプル HR データを提供します。 Kaggle.com 多様性を分析する方法のいくつかを調べるために使用できます。

データをクエリして、Position と Race を比較することから始めましょう。 基本から始めましょう: Count、Count Distinct、および Mode。

SELECT POSITION, COUNT(1) AS employees, COUNT(DISTINCT RACEDESC) AS DISTINCT_RACE, MODE(RACEDESC) AS MOST_COMMON_RACE FROM HR_DATA WHERE DATEOFTERMINATION IS NULL /*active employees*/
GROUP BY POSITION
ORDER BY 2 DESC

結果を見ると、最も人気のある 3 つのポジションの多様性は非常に似ているように見えます。

 

では、これら 3 つの部門を多様性の観点からどのようにランク付けしますか? ここでエントロピーの出番です。

エントロピーとは?

先に進む前に、エントロピーとは何か、そしてそれをどのように解釈できるかを理解しましょう。 エントロピーの概念は、情報理論の研究に深く根ざしており、機械学習、熱力学、暗号化など、さまざまな用途があります。 したがって、定義を調べると、混乱する可能性があります。

しかし、エントロピーの最も単純な定義は、次のようなものです。 エントロピーは、何かがどれほど多様であるかを表す数値尺度です.

赤と青の XNUMX 色しかないビー玉の袋を考えてみましょう。

さて、袋の中のビー玉を数えてみると、青いビー玉が 99 個、赤いビー玉が 1 個しかないことがわかりました。 この状況はそれほど多様ではないため、バッグのエントロピーは低くなります。 

次に、50 個の青のビー玉と 50 個の赤のビー玉が入ったバッグを想像してください。 このバッグは非常に多様です。実際、これ以上多様化することはできません。 青ビー玉が51個、赤ビー玉が49個入った袋はちょっと less 多様。 したがって、このバッグは高いエントロピーを持っています。

このように、

  • 100 個の青いビー玉と 0 個の青いビー玉が入った袋は、多様性が最も低くなります: エントロピー = 0
  • 50 個の青ビー玉と 50 個の赤ビー玉が入った袋が最も多様です: エントロピー = 1

したがって、エントロピーは 1/50 で最大 50 に達します。 エントロピーがビー玉の青の割合でどのように変化するかを示す一般的なプロットを次に示します。

 

SQL によるダイバーシティとインクルージョンの分析
クレジット: https://commons.wikimedia.org/wiki/File:Binary_entropy_plot.png
 

エントロピーを計算するには、各色のパーセンテージを計算し、式を覚えておきます。

 

SQL によるダイバーシティとインクルージョンの分析
 

次に、70% が青いビー玉であるバッグの場合、次のような式を作成します。

 

SQL によるダイバーシティとインクルージョンの分析
 

これを 2 つ以上の選択肢に拡張する場合は、可能性の数に一致するようにログの基数を変更するだけです。

これは、SQL が処理するかなり単純で効率的な操作です。

最終結果は、どちらの役職も完全に多様ではありませんが、エリア セールス マネージャーは生産技術者よりも多様であることを示しています。 

これをグラフにプロットすることで視覚的に確認できます。

 

SQL によるダイバーシティとインクルージョンの分析

エントロピーは、多様性を説明するのに役立つ方法です。 部門、役職、または会社を、人種や性別などの保護されたクラスと組み合わせて並べ替えたり、ランク付けしたりできます。 関数はほとんどの RDMBS に直接存在しませんが、SQL を簡単に作成して計算できます。 ダイバーシティ、エクイティ、インクルージョンに携わるすべての人が、組織の労働力を検討する際にこれらの計算を使用することが重要であると私は信じています。 さらに、私のキャリアのほとんどでデータに携わってきたので、従来のデータ アナリストから DEI アナリストに至るまで、データに精通したすべてのチームで SQL の力が機能していることを確認できてうれしく思います。
 
 
ジョシュ・ベリー (@Twitter)RasgoでCustomer Facing Data Scienceを率い、2008年からデータおよび分析の専門家になっています。JoshはComcastで10年間過ごし、データサイエンスチームを構築し、社内で開発されたComcast機能ストアの主要な所有者でした。市場に出回るフィーチャーストア。 Comcastに続いて、JoshはDataRobotで顧客向けデータサイエンスを構築する上で重要なリーダーでした。 Joshは空き時間に、野球、F1レース、住宅市場の予測などの興味深いトピックについて複雑な分析を行っています。
 

スポット画像

最新のインテリジェンス

スポット画像