제퍼넷 로고

SQL을 통한 다양성 및 포용성 분석

시간

SQL을 통한 다양성 및 포용성 분석
편집자별 이미지

지난 3~5년 동안 다양성, 형평성 및 포용성과 관련된 직위가 급증했습니다. DEI 분석가는 다음과 같은 질문을 추적, 분석 및 답변하는 데 시간을 할애할 수 있습니다.

  • 급여는 성별에 따라 어떻게 비교됩니까?
  • 인종 다양성 측면에서 우리 부서의 순위는 어떻습니까? 
  • 어떤 직책과 직책이 가장 덜 다양합니까?

DEI 분석가는 비즈니스 분석가와 다른 유형의 질문에 답하는 데 중점을 두지만 여전히 동일한 기술과 기법을 사용합니다.

보호 클래스는 일반적으로 범주 형: 성별, 인종, 민족, 연령(일반적으로 연령은 카테고리로 나뉩니다.)

숫자 급여와 같은 데이터는

  • 평균
  • 중앙값
  • 최저한의
  • 최고

의 조합을 분석할 때 범주 형숫자 변수, SQL은 다음과 같이 매우 쉽게 만듭니다.

SELECT ethnicity, AVG(salary) as AVG_SALARY, MEDIAN(salary) as MEDIAN_SALARY FROM HRDATA GROUP BY ethnicity

 

인종 AVG_SALARY MEDIAN_SALARY
$68,513 $60,050
아프리카 계 미국인 $67,691 $55,114
아시아의 $68,842 $65,632

그러나 분석하기 위해 어떤 방법이 존재합니까? 범주 형범주 형 함께 변수? 표준 선택은 매우 제한적입니다.

  • 모드(가장 일반적)
  • 카운트 고유
SELECT department, COUNT(1) AS employees, COUNT(DISTINCT ethnicity) AS DISTINCT_ETHNICITY, MODE(ethnicity) AS MOST_COMMON_ETHNICITY FROM HRDATA GROUP BY ethnicity

 

학과 교직원 뚜렷한 성별 가장 일반적인 성별
세일즈 100 2 남성
IT 100 2 남성

언뜻 보면 부서가 매우 비슷해 보입니다. 그러나 다음의 차이점을 어떻게 구분할 수 있습니까?

  • 영업은 99 남성 직원과 1 여직원
  • IT는 51 남성 직원과 49 여직원

확실히 우리는 후자가 더 다양하다고 생각할 것이지만 SQL을 사용하여 어떻게 빨리 알 수 있습니까?

저는 여러분에게 과소평가된 집계 함수에 대해 가르치기 위해 왔습니다. 엔트로피, 각 부서가 얼마나 다양한지 정확하게 정량화하는 데 도움이 됩니다. 

학과 교직원 뚜렷한 성별 가장 일반적인 성별 엔트로피
세일즈 100 2 남성 0.08
IT 100 2 남성 0.99

아쉽게도 단순히 SELECT Department, ENTROPY(ethnicity)만 하는 것만큼 쉽지는 않지만 SQL 로직도 가르쳐드리고 오픈소스에 추가해드리겠습니다. SQL 생성기 5000, 필요할 때 언제든지 이 SQL을 생성할 수 있습니다.

리치 휴브너 박사 몇 가지 샘플 HR 데이터를 제공합니다. 캐글닷컴 다양성을 분석하는 몇 가지 방법을 탐색하는 데 사용할 수 있습니다.

위치와 경주를 비교하기 위해 데이터를 쿼리하여 시작하겠습니다. Count, Count Distinct 및 Mode의 기본 사항부터 시작하겠습니다.

SELECT POSITION, COUNT(1) AS employees, COUNT(DISTINCT RACEDESC) AS DISTINCT_RACE, MODE(RACEDESC) AS MOST_COMMON_RACE FROM HR_DATA WHERE DATEOFTERMINATION IS NULL /*active employees*/
GROUP BY POSITION
ORDER BY 2 DESC

결과를 살펴보면 가장 인기 있는 3개의 직책은 다양성 면에서 매우 유사한 것으로 보입니다.

 

그렇다면 다양성 측면에서 이 3개 부서의 순위는 어떻게 될까요? 여기서 엔트로피가 등장합니다.

엔트로피란?

계속하기 전에 엔트로피가 무엇이며 어떻게 해석할 수 있는지 잠시 알아보겠습니다. 엔트로피의 개념은 정보 이론 연구에 깊이 뿌리를 두고 있으며 기계 학습, 열역학 및 암호화를 비롯한 다양한 응용 프로그램이 있습니다. 따라서 정의를 찾아보면 혼란스러울 수 있습니다.

그러나 엔트로피의 가장 간단한 정의는 다음과 같습니다. 엔트로피는 어떤 것이 얼마나 다양한지를 나타내는 수치적 척도입니다..

빨간색과 파란색의 두 가지 색상만 있는 구슬 주머니를 생각해 보십시오.

자, 우리가 가방에 있는 구슬을 세어 99개의 파란색 구슬과 1개의 빨간색 구슬만 있다는 것을 발견했다고 상상해 보세요. 이 상황은 그다지 다양하지 않기 때문에 가방의 엔트로피가 낮습니다. 

다음으로 파란색 구슬 50개와 빨간색 구슬 50개가 들어 있는 가방을 상상해 보세요. 이 가방은 매우 다양합니다. 사실 이보다 더 다양할 수는 없습니다. 51개의 파란색 구슬과 49개의 빨간색 구슬이 들어 있는 가방은 약간 적게 다양한. 따라서 이 백은 엔트로피가 높습니다.

따라서,

  • 100개의 파란 구슬과 0개의 파란 구슬이 있는 가방은 가장 덜 다양합니다: 엔트로피 = 0
  • 50개의 파란색 구슬과 50개의 빨간색 구슬이 들어 있는 가방이 가장 다양합니다. 엔트로피 = 1

따라서 엔트로피는 1/50에서 최대 50에 도달합니다. 다음은 구슬의 파란색 %에 따라 엔트로피가 어떻게 변하는지에 대한 일반적인 도표입니다.

 

SQL을 통한 다양성 및 포용성 분석
신용 : https://commons.wikimedia.org/wiki/File:Binary_entropy_plot.png
 

엔트로피를 계산하기 위해 각 색상의 백분율을 계산하고 공식을 기억하십시오.

 

SQL을 통한 다양성 및 포용성 분석
 

그런 다음 파란색 구슬이 70%인 가방의 경우 공식을 다음과 같이 구성합니다.

 

SQL을 통한 다양성 및 포용성 분석
 

이것을 2개 이상의 선택으로 확장하면 가능성의 수와 일치하도록 로그의 베이스를 변경하기만 하면 됩니다.

이것은 SQL이 처리하기에 다소 간단하고 효율적인 작업입니다.

최종 결과는 두 직책이 완벽하게 다양하지는 않지만 Area Sales Manager가 Production Technician보다 더 다양함을 보여줍니다. 

이를 그래프로 나타내면 시각적으로 확인할 수 있습니다.

 

SQL을 통한 다양성 및 포용성 분석

엔트로피는 다양성을 설명하는 유용한 방법입니다. 인종이나 성별과 같은 보호 클래스와 범주를 결합하여 부서, 직책 또는 회사를 정렬하거나 순위를 매길 수 있습니다. 함수가 대부분의 RDMBS에 직접 존재하지 않더라도 이를 계산하기 위해 SQL을 쉽게 구성할 수 있습니다. 다양성, 형평성 및 포용성 분야에서 일하는 모든 사람이 조직 인력을 볼 때 이러한 계산을 사용하는 것이 중요하다고 생각합니다. 또한 대부분의 경력을 데이터에서 일하면서 기존 데이터 분석가에서 DEI 분석가에 이르기까지 모든 데이터 정보 팀에서 SQL의 힘이 작동한다는 것을 알게 되어 기쁩니다.
 
 
조쉬 베리 (@지저귀다) Rasgo에서 Customer Facing Data Science를 이끌고 2008년부터 데이터 및 분석 분야에 종사해 왔습니다. Josh는 Comcast에서 10년 동안 데이터 과학 팀을 구성했으며 내부에서 개발한 Comcast 기능 저장소의 주요 소유자였습니다. 기능 상점은 시장을 강타합니다. Comcast에 이어 Josh는 DataRobot에서 고객 대면 데이터 과학을 구축하는 데 중요한 리더였습니다. 여가 시간에 Josh는 야구, F1 레이싱, 주택 시장 예측 등과 같은 흥미로운 주제에 대해 복잡한 분석을 수행합니다.
 

spot_img

최신 인텔리전스

spot_img