데이터 과학을 위한 샘플링 기술에 대한 완벽한 가이드

이 기사는 데이터 과학 Blogathon

이 가이드에서는 샘플링이 무엇인지, 샘플링 기술이 무엇인지, 업계 사용 사례에 대해 자세히 설명합니다. 아시다시피 데이터 과학의 기본은 양질의 샘플 데이터를 얻는 것입니다. 우리는 항상 표본에서 모집단 매개변수를 도출합니다. 우리가 작업한 샘플 데이터가 모집단을 밀접하게 나타내지 않으면 기계 학습 모델은 원하는 결과를 산출하지 못할 것입니다.

샘플링이란?

샘플링에서 우리는 대상 모집단에서 개인 그룹을 선택합니다. 이 개인 그룹이 샘플을 형성합니다. 왜요? 인구가 많기 때문에(예: 전국의 모든 사람) 인구의 각 개인을 연구하는 것은 불가능합니다. 관리가 용이하도록 인구를 대표하는 개인을 선택합니다. 이 샘플을 연구하고 분석하여 전체 모집단을 특성화하고자 합니다. 기계 학습에서 우리가 구축하는 모든 모델은 샘플 분석을 기반으로 합니다. 그런 다음 샘플을 제대로 선택하지 않으면 모델이 제대로 학습하지 않습니다.

계속 진행하기 전에 표본 추출의 핵심 용어인 모집단, 표본 추출 프레임 및 표본에 대해 알아보겠습니다.

모집단: 연구 범위에 따라 모집단에는 가능한 모든 결과가 포함됩니다.

샘플링 프레임: 연구 중인 접근 가능한 대상 인구를 포함합니다. 샘플링 프레임에서 샘플을 추출합니다.

샘플: 이 가이드에서 다룰 다양한 기술을 통해 선택된 모집단의 하위 집합입니다.

샘플링의 장점

샘플링은 속도와 정확도 면에서 많은 이점을 제공합니다. 우리는 전체 인구에 대한 각 개인을 연구하는 것이 정확성으로 이어질 것이라고 생각하는 경향이 있지만 전체 인구에 대한 연구에서 발생할 수 있는 많은 오류 소스를 간과하는 경향이 있습니다. 또한 대부분의 경우 전체 인구를 연구하는 것은 실현 가능하지 않습니다.

표본은 관찰을 수집하고 편견을 과학적으로 모니터링하고 제거할 수 있는 훈련된 현장 작업자를 배치하고 제한된 관찰을 수집하기 때문에 처리에서 발생하는 실수의 가능성을 줄이므로 정확성을 제공할 수 있습니다. 자료. 게다가 표본의 크기가 작다는 것은 우리가 효율적으로 감독할 수 있고 깨끗하고 사용 가능한 데이터를 가질 수 있다는 것을 의미합니다.

분석은 샘플에 의존하므로 샘플 선택 방법에 과학적으로 접근하는 것이 중요합니다. 그러나 샘플 선택 방법론에 들어가기 전에 샘플을 선택할 때 발생할 수 있는 오류를 살펴보겠습니다.

샘플 선택 오류

모집단을 밀접하게 나타내는 표본을 선택하는 것은 비즈니스 문제 해결에 매우 중요합니다. 다음은 몇 가지 오류입니다.

● 주기적 비즈니스로 인한 오류 — 구매 행동을 살펴보면 크리스마스와 디왈리 주변에서 샘플을 취하는 것이 전체 행동을 대표하지 않습니다.

● 사양 오류 — 연구가 장난감 판매에 관한 것이고 우리가 엄마만을 대상으로 설문조사를 했다면 아이들이 구매 행동에 영향을 미치기 때문에 정확하지 않을 수 있습니다.

● 샘플 프레임 오류 — 이 오류는 잘못된 하위 모집단을 선택할 때 발생합니다. 예를 들어, 우리 연구는 인구가 인도에 도입된 새로운 정책을 선호하는지 이해하는 것이었습니다. 우리는 영어를 구사하는 모든 사람을 조사합니다. 국가 인구의 ~90%가 영어를 구사하지 못하기 때문에 정확하지 않을 수 있습니다.

샘플링 과정을 이해하자

1. 대상 모집단 정의: 연구 목적에 따라 대상 모집단의 범위를 명확하게 지정합니다. 예를 들어, 지역 선거를 연구하는 경우 대상 인구는 해당 지역에 거주하며 투표할 수 있는 모든 사람들입니다.

2. 샘플링 프레임 정의: 샘플링 프레임은 전체 모집단에서 접근 가능한 구성원입니다. 위의 예에서 샘플링 프레임은 해당 주에 있고 연구에 참여할 수 있는 인구의 모든 사람들로 구성됩니다.

3. 샘플링 기법 선택: 이제 샘플링 프레임이 준비되었으므로 적절한 샘플링 기법을 선택해야 합니다. 이에 대해서는 다음 섹션에서 자세히 다루겠습니다.

4. 표본 크기 결정: 오차가 없고 전체 모집단을 밀접하게 나타내는 편향되지 않은 표본을 가지려면 표본의 크기가 적절해야 합니다. 적당한 사이즈는? 글쎄, 이것은 연구 대상 인구의 복잡성, 연구원의 자원 및 관련 제약과 같은 요인에 따라 달라집니다. 또한 연구를 위해 접근하는 모든 개인이 응답하지는 않는다는 점을 명심하는 것이 중요합니다. Bartlett et al. 무응답률을 고려하여 초기에 접근하는 개인의 수를 최대 50%까지 늘려야 한다고 제안합니다.

5. 데이터 수집: 데이터 수집은 비즈니스 사례를 해결하는 데 중요합니다. 데이터에 빈 필드가 너무 많지 않은지 확인하고 데이터가 누락된 경우 그 이유를 문서화해야 합니다. 이는 분석을 수행할 때 누락된 데이터를 처리하는 방법에 대한 관점을 제공하므로 분석에 도움이 됩니다.

6. 응답률 평가: 응답률을 면밀히 모니터링하여 시료 수집 접근 방식을 시기 적절하게 변경하고 결정된 시료 수집을 달성하도록 하는 것이 중요합니다.

이제 전체 샘플링 프로세스에 대해 이해했으므로 샘플링의 핵심에 대해 자세히 알아보고 샘플링 기술을 살펴보겠습니다.

확률 샘플링

1.1 단순 무작위 샘플링:

여기서 이름에서 알 수 있듯이 무작위로 샘플을 선택합니다. 패턴이 없으며 순전히 무작위 선택입니다. 예를 들어, 백신 접종률을 조사하고 싶었습니다. 적격한 모든 사람의 이름 100개를 모자에 넣고 몇 개를 뽑아 샘플링할 수 있습니다. 예를 들어, 기계 학습에서 데이터를 훈련 세트와 테스트 세트로 분할할 때 단순 무작위 샘플링 원칙을 사용합니다.

단순 무작위 샘플링의 두 가지 하위 유형을 살펴보겠습니다.

1.1.1 교체를 통한 단순 무작위 샘플링

여기에서 표본 크기 N에서 모집단의 요소를 선택하고 모집단으로 반환합니다. 이것은 모집단의 각 요소가 이론적으로 두 번 이상 선택될 수 있음을 의미합니다. 개인을 선택할 때마다 전체 선택된 인구 중에서 선택할 수 있습니다. 일반적으로 인구 자체가 작을 때 이 기술을 사용합니다.

1.1.2 교체 없는 단순 무작위 샘플링

여기에서 인구에서 개인을 선택하면 반환하지 않습니다. 선택을 통과할 때마다 사용 가능한 모집단이 1씩 감소합니다. 이는 또한 표본 크기 N에 대해 선택 프로세스를 N번 반복한다는 것을 의미합니다. 모집단 크기가 클 때 단순 무작위 샘플링의 대체 없는 방법을 사용합니다.

1.2 계층화된 무작위 샘플링

표본 설계에 도움이 되는 추가 정보가 있으면 계층화된 무작위 표본 추출 사용을 고려할 수 있습니다. 이름에서 알 수 있듯이 우리는 그룹을 식별할 수 있는 특정 특성에 따라 인구를 계층 또는 그룹으로 나눕니다. 이제 이 그룹에서 요소를 선택하여 샘플을 만듭니다. 이렇게 하면 전체 인구를 대표할 수 있습니다. 이러한 하위 그룹은 특정 연령 그룹, 성별, 직업과 같은 속성을 기반으로 형성됩니다. 모집단의 변동이 많은 경우 계층화된 무작위 샘플링을 사용하려고 합니다.

예를 들어, 정부가 그들이 추구할 새로운 교육 정책에 대한 피드백을 원한다고 가정해 봅시다. 더 쉽게 달성할 수 있는 공립학교의 이해관계자만을 조사하는 것만으로는 충분하지 않습니다. 표본은 공립학교 외에 사립학교, 준사립학교, 소수민족학교, 국제학교와 같이 정책이 영향을 미칠 수 있는 모든 계층의 대표가 필요합니다.

계층화된 무작위 샘플링에는 세 가지 유형이 있습니다.

1.2.1 비례 층화 랜덤 샘플링

여기에서 우리는 연구 중인 전체 인구의 대표성에 비례하여 각 계층을 나눕니다. 예를 들어.

무작위 기술

1.2.2 불균형 계층화 랜덤 샘플링

불균형 층화 무작위 샘플링에서는 샘플링 분수로 이동하지 않습니다. 여기서 의도는 모집단의 모든 그룹이 모집단에서 차지하는 비율에 관계없이 표본에서 대표성을 찾도록 하는 것입니다.

1.2.3 최적의 계층화 샘플링

최적의 계층화 샘플링에서는 관측값의 표준 편차에 비례하여 그룹을 형성합니다. 이것은 Neyman 최적 할당이라고도 합니다. 계층의 크기와 모집단 내 변동성을 고려하여 할당이 최적이 됩니다.

1.3 클러스터 샘플링

여기에서 먼저 인구를 클러스터로 나눕니다. 다음으로 이 클러스터의 무작위 샘플을 선택하여 샘플을 구성합니다. 대상이 산발적이고 넓은 지역에 분산되어 있는 경우 클러스터 샘플링은 시간을 절약하고 재정적으로 더 신중할 수 있습니다. 클러스터 샘플링 단계는 다음과 같습니다.

1. 샘플링 프레임 – 샘플링 프레임의 지리적 지역과 같이 그룹화를 선택합니다.

2. 각 클러스터에 번호로 태그를 지정합니다.

3. 이 클러스터를 무작위로 선택합니다.

계층화된 무작위 샘플링 대 클러스터 샘플링

다음 확률적 샘플링 기술을 다루기 전에 계층화된 무작위 샘플링과 클러스터 샘플링의 차이점을 이해합시다. 계층화된 무작위 샘플링에서는 먼저 공통 특성을 사용하여 전체 모집단을 계층으로 나누고 다음으로 각 계층에서 요소를 선택합니다. 클러스터링에서는 전체 모집단을 클러스터로 나눈 다음 클러스터 내의 요소가 아닌 샘플을 형성하기 위해 클러스터를 무작위로 선택합니다.

1.4 체계적인 샘플링

마지막 확률 기법은 체계적인 샘플링입니다. 여기에서 모집단의 특정 지점에서 시작하여 규칙적이고 고정된 간격으로 요소를 계속 선택합니다. 통계 용어에서는 기본적으로 모집단에서 샘플링 간격이라고도 하는 모든 k번째 요소를 선택합니다.

예를 들어 품질 관리 또는 감사를 확인할 때 체계적인 샘플링을 광범위하게 배포합니다. 모든 제품 또는 회계 항목의 품질을 테스트하는 것은 불가능합니다. 체계적인 샘플링을 배포하면 모집단에 대한 추론의 기반이 될 수 있는 강력한 샘플을 얻을 수 있습니다.

비확률 샘플링

이러한 종류의 표본 추출에서는 표본에서 선택될 확률이 동일한 모집단의 각 요소에 의도적으로 중요도를 할당하지 않습니다.

2.1 할당량 샘플링

여기에서 모집단을 모집단을 나타내는 할당량으로 나누고 이것이 표본에서 선택한 요소의 기초를 형성합니다. 이는 무작위 샘플링과 비슷해 보일 수 있지만 중요한 차이점은 먼저 모집단을 고정 할당량으로 나눈다는 것입니다. 이러한 고정 할당량에서 샘플을 선택합니다. 할당량은 20세 이상의 모든 남성 또는 12세에서 18세 사이의 어린이와 같을 수 있습니다. 할당량 샘플링을 사용하면 시간과 리소스가 절약되고 연구를 빠르게 시작할 수 있습니다.

2.2 눈덩이 샘플링

이것은 가장 흥미로운 비확률적 기술 중 하나입니다. 먼저 샘플의 구성원을 무작위로 선택합니다. 3명의 구성원을 선택했다고 가정합니다. 이제 이 세 가지가 연구에 대한 더 많은 이름을 제안하고 이는 연쇄 효과를 생성합니다. Snowball 샘플링은 사람을 찾기 어렵거나 신원을 확인하고 싶지 않은 경우에 유용합니다. 예를 들어, 희귀 질병을 연구하는 의학 연구에서 눈덩이 샘플링이 원하는 샘플 크기에 도달할 수 있는 유일한 방법이라는 것을 알 수 있습니다.

눈덩이 샘플링에는 세 가지 하위 범주가 있습니다.

2.2.1 선형 눈덩이 샘플링

사슬은 선형으로 성장합니다. 샘플의 각 구성원은 한 명 이상의 구성원을 나타냅니다.

2.2.2 지수 비차별 눈덩이 샘플링

일대다 관계. 연구의 각 구성원은 여러 구성원을 나타내며 모두 연구에서 선택됩니다. 상상할 수 있듯이 이는 샘플 크기에 기하급수적인 영향을 미칩니다. 짐작하셨겠지만, 이는 표본 추출에 편향을 일으킬 수 있으며 연구자는 표본이 연구 대상 인구를 대표하는지 알 수 없습니다.

2.2.3 지수 판별 눈덩이 샘플링

여기에서는 회원에게 여러 추천을 제공하도록 요청하지만 이 중 하나만 선택하고 나머지 추천은 무효화합니다. 이렇게 함으로써 연구자들은 샘플링 기술에서 편향 가능성을 줄이려고 시도합니다.

2.3 판정 샘플링

여기에서 연구원은 누가 표본의 일부가 되어야 하는지에 대한 자격을 갖춘 의견과 판단을 제시합니다. 이것은 일반적으로 샘플에서 전문가 또는 고도로 지적인 개인을 선택하려는 경우에 사용됩니다. 가장 좋은 방법은 전문가를 식별하고 표본을 구성하는 것입니다.

2.4 편의 샘플링

여기에서 우리는 다른 고려 사항보다 요소의 접근성을 우선시합니다. 연구자는 편의에 따라 요소를 선택합니다. 이것은 일반적으로 연구원이 설문 조사 설계에 대한 빠른 피드백을 얻으려는 설문 조사의 초기 단계에서 사용됩니다. 설문 조사 디자인의 프로토타입을 빠르게 만드는 데 도움이 됩니다.

샘플의 적용

다음은 샘플링 기술에 대한 지식과 이해가 중요한 주요 산업 사용 사례입니다.

1. 시장 조사를 통한 가정 검증

회사에서 자전거 공유 서비스를 시작하려고 한다고 가정해 보겠습니다. 이 서비스는 배터리가 충분히 충전된 스마트폰과 모바일 데이터가 충분한 사람들에 의존합니다. 이제 시장 규모를 평가하려고 합니다. 그렇게 하려면 다양한 소득 수준, 이동성 요구, 데이터 액세스, 장치 유형, 자전거 공유 모델 채택 의향 등을 나타내는 샘플을 가져와야 합니다. 제안의 전체 시장 규모에 대한 합리적인 추정.

2. 품질 관리

제조 산업에서 광범위하게 사용됩니다. 공장에서 생산되는 주사제의 품질을 확인하고 싶다고 가정해 봅시다. 회사가 한 달에 1만 회의 주사를 생산한다고 가정해 봅시다. 이 경우 품질 보증이 중요해집니다. 단, 제조된 각 주사제를 확인하지 못할 수 있습니다. 따라서 회사는 각 배치에서 일정 비율을 샘플링하고 결과에 따라 생산된 전체 품질의 품질을 추론합니다.

3. 신제품 개발에 사용

새로운 서비스, 예를 들어 새로운 자전거 공유 서비스를 개발 중이라고 가정해 보겠습니다. 일반적인 프로세스에는 다음 XNUMX단계가 포함됩니다.

개념 생성 및 테스트
파일럿 테스트
베타 테스팅
실행

대부분의 이러한 단계에서 샘플링 기술을 잘 사용할 수 있습니다. 기본적으로 표본의 응답을 연구하여 전체 모집단에 대한 추론을 도출하려고 합니다. 표본의 모집단에 대한 편견과 과소 대표성을 피하는 것이 중요합니다.

개념 테스트: 개발을 시작하기 전에 그러한 제안의 매력을 알고 싶을 수 있습니다. 우리는 그러한 서비스의 잠재 사용자 몇 명에게 물어봄으로써 이를 달성할 수 있습니다. 그러나 더 나은 접근 방식은 과학적으로 사람들을 조사하는 것입니다. 이렇게 하면 새로운 교통 수단에 익숙한 사람들과 불안해하는 사람들을 포함하여 모든 그룹의 대표성을 확보할 수 있습니다. 그러한 서비스에 얼마나 많은 사람들이 기꺼이 지출하는지 이해하고 싶을 수 있습니다. 연구 결과를 해석하는 동안 사회의 각 계층이 표본에서 대표성을 찾고 각 계층에 충분한 사람들이 있는지 확인할 수 있습니다.

이것은 의미 있는 피드백으로 이어지며 친공유 경제에 속한 사람들에게만 설문조사를 하면 얻을 수 있는 잘못된 확신의 범위를 제거합니다.

파일럿 테스트: 베타 출시 직전 단계이며 가능한 한 많은 피드백을 고려하고 싶습니다. 여기에서 동일한 테스트 원칙을 사용하여 샘플링 기술을 사용하여 연구의 문화적 및 행동 패턴을 고려했는지 확인함으로써 유용한 피드백을 얻을 수 있습니다.

결론

이 가이드에서는 샘플링 프로세스, 해당 기술 및 업계 사용 사례를 다뤘습니다. 비즈니스 사용 사례를 해결하기 위해 판단이 필요할 때 이러한 사항을 이해하면 도움이 됩니다. 데이터 과학 및 기계 학습에서 이러한 이해는 정확한 모델 선택, 데이터 처리 및 현실 테스트를 통과할 가능성이 높은 예측 분석을 효율적으로 수행하는 데 도움이 됩니다. 또한 샘플 데이터를 기반으로 구축할 모델에서 예상할 수 있는 편차를 설명할 수 있습니다.

참고: 이 가이드의 모든 이미지는 작성자가 만든 것입니다.

이 기사에 표시된 미디어는 Analytics Vidhya의 소유가 아니며 작성자의 재량에 따라 사용됩니다.

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.analyticsvidhya.com/blog/2021/09/a-complete-guide-on-sampling-techniques/

생성 데이터 인텔리전스

데이터 과학을 위한 샘플링 기술에 대한 완전한 가이드

샘플링이란?

샘플링의 장점

샘플 선택 오류

샘플링 과정을 이해하자

인기 있는 샘플링 기법

확률 샘플링

1.1.1 교체를 통한 단순 무작위 샘플링

비확률 샘플링

샘플의 적용

1. 시장 조사를 통한 가정 검증

2. 품질 관리

3. 신제품 개발에 사용

결론

SGeBIZ와 Funding Societies, 중소기업을 위한 BNPL 결제 옵션 제공 위해 협력 – Fintech Singapore

Trulioo, APAC에서 90%의 비즈니스 검증 비율 보고 – Fintech Singapore

최신 인텔리전스

모든 탄소 배출권이 동일한 것은 아닙니다. UNIDROIT 업데이트, 법적 성격에 관한 연구.

Nem todos os créditos de carbono são iguais. UNIDROIT의 실제 사례는 자연법칙에 따른 것입니다.

직장에서 창의성을 높이는 최고의 6가지 방법

에스토니아 게임 회사가 미국을 강타한 방법 – Tech Startups

레딧은 안전한가요? Edward Snowden은 새로운 ID 요구 사항 이후 Reddit을 보이콧하도록 사용자에게 요청합니다. “다시는 Reddit을 사용하지 마세요” – Tech Startups

CompTIA, 사이버 지식 및 기술 강화를 위한 국방부 노력 지원

우리와 함께 채팅