제퍼넷 로고

탐색적 데이터 분석을 마스터하는 7단계 – KDnuggets

시간

탐색적 데이터 분석을 마스터하기 위한 7단계
작성자 별 이미지
 

탐색적 데이터 분석(EDA)은 데이터 분석 프로세스의 핵심 단계로, 데이터 세트의 내부 세부 정보와 특성에 대한 철저한 조사를 강조합니다.

주요 목표는 기본 패턴을 찾아내고, 데이터 세트의 구조를 파악하고, 잠재적인 이상 현상이나 변수 간의 관계를 식별하는 것입니다. 

데이터 전문가는 EDA를 수행하여 데이터 품질을 확인합니다. 따라서 정확하고 통찰력 있는 정보를 기반으로 추가 분석을 수행하여 후속 단계에서 오류가 발생할 가능성을 줄입니다.

그럼 다음 데이터 과학 프로젝트를 위해 좋은 EDA를 수행하기 위한 기본 단계가 무엇인지 함께 이해해 봅시다.

나는 당신이 이미 다음 문구를 들어봤을 것이라고 확신합니다. 

쓰레기는 안으로, 쓰레기는 밖으로

입력 데이터 품질은 성공적인 데이터 프로젝트에 항상 가장 중요한 요소입니다. 

불행하게도 대부분의 데이터는 처음에는 먼지입니다. 탐색적 데이터 분석 과정을 통해 거의 사용 가능한 데이터 세트를 완전히 사용할 수 있는 데이터 세트로 변환할 수 있습니다. 

데이터 세트를 정화하기 위한 마법의 솔루션이 아니라는 점을 분명히 하는 것이 중요합니다. 그럼에도 불구하고 수많은 EDA 전략은 데이터 세트 내에서 발생하는 몇 가지 일반적인 문제를 해결하는 데 효과적입니다.

그럼… Ayodele Oluleye의 저서 Exploratory Data Analysis with Python Cookbook에서 가장 기본적인 단계를 배워 보겠습니다.

1단계: 데이터 수집

모든 데이터 프로젝트의 초기 단계는 데이터 자체를 확보하는 것입니다. 이 첫 번째 단계에서는 후속 분석을 위해 다양한 소스에서 데이터를 수집합니다.

2. 요약통계

데이터 분석에서는 표 형식의 데이터를 처리하는 것이 매우 일반적입니다. 이러한 데이터를 분석하는 동안 데이터의 패턴과 분포에 대한 신속한 통찰력을 얻어야 하는 경우가 많습니다. 

이러한 초기 통찰력은 추가 탐색 및 심층 분석을 위한 기반 역할을 하며 요약 통계라고 합니다. 

이는 평균, 중앙값, 모드, 분산, 표준 편차, 범위, 백분위수 및 사분위수와 같은 측정항목을 통해 캡슐화된 데이터 세트의 분포 및 패턴에 대한 간결한 개요를 제공합니다.

 

탐색적 데이터 분석을 마스터하기 위한 7단계
작성자 별 이미지

3. EDA용 데이터 준비

탐색을 시작하기 전에 일반적으로 추가 분석을 위해 데이터를 준비해야 합니다. 데이터 준비에는 분석 요구 사항에 맞게 Python의 pandas 라이브러리를 사용하여 데이터를 변환, 집계 또는 정리하는 작업이 포함됩니다. 

이 단계는 데이터 구조에 맞게 조정되며 그룹화, 추가, 병합, 정렬, 분류 및 중복 처리를 포함할 수 있습니다.

Python에서는 다양한 모듈을 통해 pandas 라이브러리를 통해 이 작업을 쉽게 수행할 수 있습니다. 

표 형식 데이터의 준비 프로세스는 보편적인 방법을 따르지 않습니다. 대신 행, 열, 데이터 유형 및 포함된 값을 포함하여 데이터의 특정 특성에 따라 형성됩니다.

4. 데이터 시각화

시각화는 EDA의 핵심 구성 요소로, 데이터 세트 내의 복잡한 관계와 추세를 쉽게 이해할 수 있도록 해줍니다. 

올바른 차트를 사용하면 대규모 데이터 세트 내에서 추세를 식별하고 숨겨진 패턴이나 이상값을 찾는 데 도움이 될 수 있습니다. Python은 Matplotlib 또는 Seaborn을 포함하여 데이터 시각화를 위한 다양한 라이브러리를 제공합니다. 

 

탐색적 데이터 분석을 마스터하기 위한 7단계
작성자 별 이미지

5. 변수 분석 수행:

변수 분석은 일변량, 이변량 또는 다변량일 수 있습니다. 각각은 데이터세트 변수 간의 분포와 상관관계에 대한 통찰력을 제공합니다. 기술은 분석된 변수의 수에 따라 달라집니다.

일 변량

단변량 분석의 주요 초점은 데이터 세트 내의 각 변수를 자체적으로 검사하는 것입니다. 이 분석을 통해 중앙값, 모드, 최대값, 범위, 이상값과 같은 통찰력을 얻을 수 있습니다. 

이러한 유형의 분석은 범주형 변수와 수치형 변수 모두에 적용 가능합니다.

이변량

이변량 분석은 선택한 두 변수 사이의 통찰력을 밝히는 것을 목표로 하며 이 두 변수 사이의 분포와 관계를 이해하는 데 중점을 둡니다. 

두 가지 변수를 동시에 분석하므로 이러한 유형의 분석은 더 까다로울 수 있습니다. 이는 숫자-숫자, 숫자-범주형, 범주형-범주형의 세 가지 다른 변수 쌍을 포함할 수 있습니다.

다 변수

대규모 데이터 세트에서 자주 발생하는 문제는 여러 변수를 동시에 분석하는 것입니다. 단변량 및 이변량 분석 방법이 귀중한 통찰력을 제공하더라도 일반적으로 여러 변수(보통 5개 이상)가 포함된 데이터 세트를 분석하는 데는 충분하지 않습니다.

일반적으로 차원의 저주라고 불리는 고차원 데이터 관리 문제는 잘 문서화되어 있습니다. 변수가 많으면 더 많은 통찰력을 추출할 수 있으므로 유리할 수 있습니다. 동시에 여러 변수를 동시에 분석하거나 시각화하는 데 사용할 수 있는 기술의 수가 제한되어 있기 때문에 이러한 이점은 불리할 수 있습니다.

6. 시계열 데이터 분석

이 단계에서는 정기적인 시간 간격으로 수집된 데이터 포인트를 조사하는 데 중점을 둡니다. 시계열 데이터는 시간이 지남에 따라 변경되는 데이터에 적용됩니다. 이는 기본적으로 데이터 세트가 정기적인 시간 간격으로 기록되는 데이터 포인트 그룹으로 구성되어 있음을 의미합니다.

시계열 데이터를 분석할 때 일반적으로 시간이 지남에 따라 반복되고 시간적 계절성을 나타내는 패턴이나 추세를 발견할 수 있습니다. 시계열 데이터의 주요 구성요소에는 추세, 계절적 변동, 순환적 변동, 불규칙한 변동 또는 노이즈가 포함됩니다.

7. 이상값 및 누락값 처리

이상값과 누락된 값이 제대로 처리되지 않으면 분석 결과가 왜곡될 수 있습니다. 이것이 바로 우리가 이를 처리하기 위해 항상 단일 단계를 고려해야 하는 이유입니다. 

데이터 세트 분석의 무결성을 유지하려면 이러한 데이터 포인트를 식별, 제거 또는 교체하는 것이 중요합니다. 따라서 데이터 분석을 시작하기 전에 이러한 문제를 해결하는 것이 매우 중요합니다. 

  • 이상값은 나머지 데이터 포인트와 상당한 편차를 나타내는 데이터 포인트입니다. 일반적으로 비정상적으로 높거나 낮은 값을 나타냅니다.
  • 결측값은 특정 변수나 관측값에 해당하는 데이터 포인트가 없다는 것입니다. 

누락된 값과 이상값을 처리하는 중요한 초기 단계는 해당 값이 데이터세트에 존재하는 이유를 이해하는 것입니다. 이러한 이해는 문제를 해결하는 데 가장 적합한 방법을 선택하는 데 도움이 되는 경우가 많습니다. 고려해야 할 추가 요소는 데이터의 특성과 수행될 특정 분석입니다.

EDA는 데이터세트의 명확성을 향상시킬 뿐만 아니라 수많은 변수가 있는 데이터세트를 관리하기 위한 전략을 제공함으로써 데이터 전문가가 차원성의 저주를 탐색할 수 있도록 해줍니다. 

이러한 세심한 단계를 통해 EDA with Python은 분석가에게 데이터에서 의미 있는 통찰력을 추출하는 데 필요한 도구를 제공하여 모든 후속 데이터 분석 노력을 위한 견고한 기반을 마련합니다.
 
 

조셉 페레르 바르셀로나 출신의 분석 엔지니어입니다. 물리공학과를 졸업하고 현재 인간의 이동성을 응용한 데이터 사이언스 분야에서 일하고 있다. 그는 데이터 과학 및 기술에 중점을 둔 파트 타임 콘텐츠 제작자입니다. 당신은 그에게 연락 할 수 있습니다 링크드인, 트위터 or 중급.

spot_img

최신 인텔리전스

spot_img