Zephyrnet-logo

Uitgebreide gids over niet-parametrische tests

Datum:

Introductie

In dit artikel zullen we onderzoeken wat dat is hypothesetesten, met de nadruk op het formuleren van nul- en alternatieve hypothesen, het opzetten van hypothesetests en we zullen diep duiken in parametrische en niet-parametrische tests, waarbij we hun respectieve aannames en implementatie in Python bespreken. Maar onze belangrijkste focus zal liggen op niet-parametrische tests zoals de Mann-Whitney U-test en de Kruskal-Wallis-test. Aan het einde zul je een uitgebreid inzicht hebben in het testen van hypothesen en de praktische hulpmiddelen om deze concepten toe te passen in je eigen statistische analyses.

leerdoelen

  • Begrijp de principes van het testen van hypothesen, inclusief het formuleren van nul- en alternatieve hypothesen.
  • Hypothesetest opzetten.
  • Inzicht in parametrische tests en de typen ervan.
  • Inzicht in niet-parametrische tests en de typen ervan, samen met de implementatie ervan.
  • Verschil tussen parametrisch en niet-parametrisch.

Inhoudsopgave

Wat is het testen van hypothesen?

Hypothese is een bewering van een persoon/organisatie. De claim gaat meestal over populatieparameters zoals gemiddelde of proportie, en we zoeken bewijs uit een steekproef ter ondersteuning van de claim.

Hypothesetesten, ook wel significantietesten genoemd, zijn een methode voor het bevestigen van een claim of hypothese over een parameter in een populatie met behulp van gegevens die in een steekproef zijn gemeten. Met behulp van deze methode onderzoeken we verschillende theorieën door de mogelijkheid te bepalen dat, als de populatieparameterhypothese waar zou zijn geweest, een steekproefstatistiek zou zijn geselecteerd.

Het testen van hypothesen omvat het formuleren van twee hypothesen:

  • Nulhypothese (H0)
  • Alternatieve hypothese (H1)

Nulhypothese: Het is meestal een hypothese zonder verschil en wordt meestal aangeduid met H0. Volgens RA Fisher is de nulhypothese de hypothese die wordt getest op mogelijke verwerping onder de veronderstelling dat deze waar is (Ref Fundamentals of Mathematical Statistics).

Alternatieve hypothese: Elke hypothese die complementair is aan de nulhypothese wordt een alternatieve hypothese genoemd, meestal aangeduid met H1. 

Het doel van het testen van hypothesen is het verwerpen of behouden van een nulhypothese om een ​​statistisch significante relatie tussen twee variabelen vast te stellen (meestal één onafhankelijke en één afhankelijke variabele, dwz meestal is één de oorzaak en één het gevolg).

Hypothesetest opzetten

  • Beschrijf de hypothese in woorden of maak een bewering.
  • Definieer op basis van de claim nul- en alternatieve hypothesen.
  • Identificeer het type hypothesetest dat geschikt is voor de bovenstaande bewering.
  • Identificeer de teststatistieken die moeten worden gebruikt voor het testen van de geldigheid van de nulhypothese.
  • Bepaal de criteria voor het verwerpen en behouden van de nulhypothese. Dit wordt significantiewaarde genoemd, traditioneel aangeduid met symbool α (alfa).
  • Bereken de p-waarde, die de voorwaardelijke waarschijnlijkheid is van het waarnemen van de teststatistiekwaarde wanneer de nulhypothese waar is. Simpel gezegd is de p-waarde het bewijs ter ondersteuning van de nulhypothese.

Parametrische en niet-parametrische test 

Niet-parametrische statistische tests zijn niet afhankelijk van aannames over de parameters van de populatieverdelingen waaruit de gegevens worden bemonsterd, terwijl parametrische statistische tests dat wel doen.

Parametrische tests

De meeste statistische tests worden uitgevoerd op basis van een reeks aannames als basis. De analyse kan misleidende of volledig valse conclusies opleveren wanneer bepaalde aannames worden geschonden.

Meestal zijn de aannames:

  • Normaliteit: De steekproefverdeling van de te testen parameters volgt een normale (of op zijn minst symmetrische) verdeling.
  • Homogeniteit van varianties: De variantie van de gegevens is hetzelfde voor verschillende groepen, tenzij we testen op populatiegemiddelden die uit twee verschillende populaties komen.

Enkele van de parametrische tests zijn: 

  • Z-test:  Test op populatiegemiddelde, variantie of proportie wanneer de standaarddeviatie van de populatie bekend is. 
  • Student's t-toets: Test op populatiegemiddelde, variantie of proportie als de standaarddeviatie van de populatie niet bekend is.
  • Gepaarde t-test: Wordt gebruikt om de gemiddelden van twee verwante groepen of omstandigheden te vergelijken.
  • Variantieanalyse (ANOVA): Wordt gebruikt om gemiddelden van drie of meer onafhankelijke groepen te vergelijken.
  • Regressie analyse: Wordt gebruikt om de relatie tussen een of meer onafhankelijke variabelen en een afhankelijke variabele te beoordelen.
  • Analyse van covariantie (ANCOVA): Breidt ANOVA uit door extra covariaten in de analyse op te nemen.
  • Multivariate variantieanalyse (MANOVA): Breidt ANOVA uit om verschillen in meerdere afhankelijke variabelen tussen groepen te beoordelen.

Laten we nu eens dieper ingaan op de niet-parametrische test.

Niet-parametrische test

Voor het eerst gebruikte Wolfowitz de term ‘niet-parametrische’ in 1942. Om het idee van niet-parametrische statistiek te begrijpen, moet men eerst een basiskennis hebben van parametrische statistiek, die we zojuist hebben besproken. A parametrische test vereist een monster dat een specifieke verdeling volgt (meestal normaal). Bovendien zijn niet-parametrische tests onafhankelijk van parametrische aannames zoals normaliteit.

Niet-parametrische tests (ook wel distributievrije tests genoemd, omdat ze geen aannames hebben over de verdeling van de populatie). Niet-parametrische tests impliceren dat de tests niet gebaseerd zijn op de aannames dat de gegevens afkomstig zijn uit a kansverdeling gedefinieerd door parameters zoals gemiddelde, proportie en standaarddeviatie.

Niet-parametrische tests worden gebruikt wanneer:

  • De test gaat niet over de populatieparameter zoals gemiddelde of proportie.
  • De methode vereist geen aannames over de populatieverdeling (zoals de populatie een normale verdeling volgt).

Soorten niet-parametrische tests

Laten we nu het concept en de procedure bespreken voor het uitvoeren van de Chi-Square-test, Mann-Whitney-test, Wilcoxon Signed Rank-test en Kruskal-Wallis-tests: 

Chikwadraattoets

Om te bepalen of het verband tussen twee kwalitatieve variabelen statistisch significant is, moet men een significantietest uitvoeren, de Chi-kwadraattest.

Er zijn twee hoofdtypen Chi-kwadraattoetsen:

Chi-kwadraat Goodness-of-Fit

Gebruik de goodness-of-fit test om te beslissen of een populatie met een onbekende verdeling “past” in een bekende verdeling. In dit geval zal er sprake zijn van een enkele kwalitatieve onderzoeksvraag of een enkele uitkomst van een experiment uit een enkele populatie. Goodness-of-Fit wordt doorgaans gebruikt om te zien of de populatie uniform is (alle uitkomsten komen met gelijke frequentie voor), de populatie normaal is of dat de populatie hetzelfde is als een andere populatie met een bekende verdeling. De nul- en alternatieve hypothesen zijn:

  • H0: De populatie past in de gegeven verdeling.
  • Ha: De populatie past niet in de gegeven verdeling.
Laten we dit begrijpen met een voorbeeld
Dag maandag dinsdag woensdag donderdag vrijdag zaterdag zondag
Aantal storingen  14 22 16 18 12 19 11

De tabel toont het aantal uitsplitsingen in een factor. In dit voorbeeld is er slechts één variabele en moeten we bepalen of de waargenomen verdeling (weergegeven in de tabel) past bij de verwachte verdeling of niet.

Hiervoor zullen de nulhypothese en de alternatieve hypothese als volgt worden geformuleerd:

  • H0:De storingen zijn gelijkmatig verdeeld.
  • Ha: Uitsplitsingen zijn niet uniform verdeeld.

En de vrijheidsgraad zal n-1 zijn (in dit geval n=7, dus df = 7-1=6)

Expected value will be= (14+22+16+18+12+19+11)/7=16

Dag maandag dinsdag woensdag donderdag vrijdag zaterdag zondag
Aantal storingen (waargenomen) 14 22 16 18 12 19 11
verwacht 16 16 16 16 16 16 16
(waargenomen-verwacht) -2 6 0 2 -4 3 -5
(waargenomen-verwacht)^2 4 36 0 4 16 9 25

Met deze formule Bereken Chi-kwadraat

Chi-kwadraat Goodness-of-Fit

Chi-kwadraat = 5.875

En de vrijheidsgraad is = n-1=7-1=6

Laten we nu eens kijken naar de kritische waarde van chi vierkante verdeeltafel op een significantieniveau van 5% 

De kritische waarde is dus 12.592 

Omdat de berekende Chi-kwadraatwaarde kleiner is dan de kritische waarde, aanvaarden we de nulhypothese en kunnen we concluderen dat de uitsplitsingen uniform verdeeld zijn.

Chi-kwadraat-onafhankelijkheid van test

Gebruik de onafhankelijkheidstest om te beslissen of twee variabelen (factoren) onafhankelijk of afhankelijk zijn, dwz of deze twee variabelen al dan niet een significante associatierelatie hebben. In dit geval zullen er twee kwalitatieve enquêtevragen of experimenten zijn en zal er een kruistabel worden opgesteld. Het doel is om te zien of de twee variabelen geen verband houden (onafhankelijk) of gerelateerd (afhankelijk). De nul- en alternatieve hypothesen zijn:

  • H0: De twee variabelen (factoren) zijn onafhankelijk.
  • Ha: De twee variabelen (factoren) zijn afhankelijk.
Laten we een voorbeeld nemen

Voorbeeld waarin we willen onderzoeken of geslacht en voorkeurskleur van shirt onafhankelijk waren. Dit betekent dat we willen weten of het geslacht van een persoon de kleurkeuze beïnvloedt. We hebben een onderzoek uitgevoerd en de gegevens in de tabel geordend.

Deze tabel is waargenomen waarden:

Zwart Wit Rood Blauw
Mannelijk frezen 48 12 33 57
Female 34 46 42 26

Formuleer nu eerst nul- en alternatieve hypothesen 

  • H0: Geslacht en voorkeurskleur van het shirt zijn onafhankelijk
  • Ha: Geslacht en voorkeurskleur van het shirt zijn niet onafhankelijk

Voor het berekenen van Chi-kwadraat-teststatistieken moeten we de verwachte waarde berekenen. Voeg dus alle rijen en kolommen en de totale totalen toe:

Zwart Wit Rood Blauw Totaal
Mannelijk frezen 48 12 33 57 150
Female 34 46 42 26 148
Totaal 82 58 75 83 298

Hierna kunnen we voor elke invoer de verwachte waardetabel uit de bovenstaande tabel berekenen met behulp van deze formule = (rijtotaal * kolomtotaal)/totaaltotaal

Verwachte waarde Tabel:

Zwart Wit Rood Blauw
Mannelijk frezen 41.3 29.2 37.8 41.8
Female 40.7 28.8 37.2 41.2

Bereken nu de Chi-kwadraatwaarde met behulp van de formule voor chi-kwadraattest:

chikwadraattoets
  • Oi = Waargenomen waarde
  • Ei = Verwachte waarde

De waarde die we krijgen is: Χ2 = 34.9572

Bereken de vrijheidsgraad

DF=(aantal rij-1)*(aantal kolom-1)

Zoek en vergelijk nu de kritische waarde met de chikwadraattoets statistische waarde:

Hiervoor kunt u de vrijheidsgraad en het significantieniveau (alfa) opzoeken in de chi-kwadraat verdeeltafel

Bij alfa = 0.050 krijgen we een kritische waarde = 7.815

Sinds chikwadraat > kritische waarde

Daarom verwerpen we de nulhypothese en kunnen we concluderen dat geslacht en voorkeurskleur van het shirt niet onafhankelijk zijn.

Implementatie van Chi-Square

Laten we nu de implementatie van Chi-Square bekijken aan de hand van een voorbeeld uit de praktijk in Python:

  • H0: Geslacht en voorkeurskleur van het shirt zijn onafhankelijk
  • Ha: Geslacht en voorkeurskleur van het shirt zijn niet onafhankelijk

Gegevensset maken:

import pandas as pd
from scipy.stats import chi2_contingency
from scipy.stats import chi2


# Given dataset
df_dict = {
   'Black': [48, 34],
   'White': [12, 46],
   'Red': [33, 42],
   'Blue': [57, 26]
}
dataset_table = pd.DataFrame(df_dict, index=['Male', 'Female'])
print("Dataset Table:")
print(dataset_table)
print()


# Observed Values
Observed_Values = dataset_table.values
print("Observed Values:")
print(Observed_Values)
print()

# Perform chi-square test
val = chi2_contingency(dataset_table)
Expected_Values = val[3]
print("Expected Values:")
print(Expected_Values)
print()
# Degree of Freedom
no_of_rows = len(dataset_table.iloc[0:2, 0])
no_of_columns = 4
ddof = (no_of_rows - 1) * (no_of_columns - 1)
print("Degree of Freedom:", ddof)
print()
# Chi-square statistic
chi_square = sum([(o - e) ** 2. / e for o, e in zip(Observed_Values, Expected_Values)])
chi_square_statistic = chi_square[0] + chi_square[1]
print("Chi-square statistic:", chi_square_statistic)
print()
# Critical value
alpha = 0.05
critical_value = chi2.ppf(q=1-alpha, df=ddof)
print('Critical value:', critical_value)
print()
# p-value
p_value = 1 - chi2.cdf(x=chi_square_statistic, df=ddof)
print('p-value:', p_value)
print()
# Significance level
print('Significance level:', alpha)
print('p-value:', p_value)
print('Degree of Freedom:', ddof)
print()
# Hypothesis testing
if chi_square_statistic >= critical_value:
   print("Reject H0, Gender and preferred shirt color are independent")
else:
   print("Fail to reject H0, Gender and preferred shirt color are not independent")
print()
if p_value <= alpha:
   print("Reject H0, Gender and preferred shirt color are independent")
else:
   print("Fail to reject H0, Gender and preferred shirt color are not independent")

Output:

Niet-parametrische tests

Mann-Whitney U-test 

De Mann-Whitney U-test dient als het niet-parametrische alternatief voor de onafhankelijke steekproef-t-test. Het vergelijkt twee steekproefgemiddelden uit dezelfde populatie en bepaalt of ze gelijk zijn. Deze test wordt doorgaans gebruikt voor ordinale gegevens of wanneer niet aan de aannames van de t-test wordt voldaan.

De Mann-Whitney U-test rangschikt alle waarden van beide groepen samen en telt vervolgens de waarden voor elke groep bij elkaar op. Het berekent de teststatistiek, U, op basis van deze rangen. De U-statistiek wordt vergeleken met een kritische waarde uit een tabel of berekend met behulp van een benadering. Als de U-statistiek kleiner is dan de kritische waarde, wordt de nulhypothese verworpen.

Dit verschilt van parametrische tests zoals de t-test, waarbij gemiddelden worden vergeleken en een normale verdeling wordt aangenomen. De Mann-Whitney U-test vergelijkt in plaats daarvan rangen en vereist niet de aanname van een normale verdeling.

Het begrijpen van de Mann-Whitney U-test kan moeilijk zijn omdat de resultaten worden gepresenteerd in groepsrangverschillen in plaats van in groepsgemiddelden.

Formule voor Mann-Whitney-test:

U=min(U1,U2)

Hier

  • U= Mann-Whitney U-test
  • n1= steekproefomvang één
  • n2= steekproefomvang twee
  • R1= Rang van steekproefomvang één
  • R2= Rang van steekproefomvang 2

Laten we dit dus begrijpen met een kort voorbeeld:

Stel dat we de effectiviteit van twee verschillende behandelmethoden (methode A en methode B) willen vergelijken bij het verbeteren van de gezondheid van patiënten. Wij beschikken over de volgende gegevens:

  • Methode A: 3,4,2,6,2,5
  • Methode B: 9,7,5,10,6,8

Hier kunnen we zien dat de gegevens niet normaal verdeeld zijn en dat de steekproefomvang klein is.

Implementatie van Mann-Whitney U-test

Laten we nu de Mann-Whitney U-test uitvoeren:

Maar laten we eerst de nul- en alternatieve hypothese formuleren

  • H0: Er is geen verschil tussen de rangorde van elke behandeling
  • Ha: Er is een verschil tussen de rangorde van elke behandeling

Combineer alle behandelingen: 3,4,2,6,2,5,9,7,5,10,6,8

Gesorteerde gegevens: 2,2,3,4,5,5,6,6,7,8,9,10

Rang van gesorteerde gegevens: 1,2,3,4,5,6,7,8,9,10,11,12

  • De gegevens afzonderlijk rangschikken:
    • Method A: 3(3),4(4),2(1.5),6(7.5),2(1.5),5(5.5)
    • Method B: 9(11),7(9),5(5.5),10(12),6(1.5),8(10)
  • Som van rang berekenen):
    • R1: 3+4+1.5+7.5+1.5+5.5=23
    • R2: 11+9+5.5+12+1.5+10=55

Bereken nu de statistische waarde met behulp van deze formule:

Hier geldt n1=6 en n2=6

En de waarde na berekening voor U1=2 en voor U2= 34

U-statistiek berekenen: 

Us= min(U1,U2)= min(2,34)= 2

Van Mann-Whitney-tafel we kunnen de kritische waarde vinden 

In dit geval is de kritische waarde 5

Omdat Uc = 5, wat groter is dan Wij op een significantieniveau van 5%, verwerpen we dus  H0 

Daarom kunnen we concluderen dat er een verschil is tussen de rangorde van elke behandeling.

Implementatie met python

from scipy.stats import mannwhitneyu, norm
import numpy as np
TreatmentA = np.array([3,4,2,6,2,5])
TreatmentB = np.array([9,7,5,10,6,8])

# Perform Mann-Whitney U test
U_statistic, p_value = mannwhitneyu(TreatmentA, TreatmentB)

# Print the result
print(f'The U-statistic is {U_statistic:.2f} and the p-value is {p_value:.4f}')

if p_value < 0.05:
   print("Reject Null Hypothesis: There is a significant difference between the Rank of each treatment.")

else:
   print("Fail to Reject Null Hypothesis: Fail to Reject Null Hypothesis: There is no enough evidence to conclude that  there is  difference between the Rank of each treatment")

Output:

Niet-parametrische tests

Kruskal-Wallis-test

Kruskal –Wallis Test wordt gebruikt met meerdere groepen. Het is het niet-parametrische en een waardevol alternatief voor een eenrichtings-ANOVA-test wanneer de aannames over normaliteit en gelijkheid van variantie worden geschonden. De Kruskal-Wallis-test vergelijkt de medianen van meer dan twee onafhankelijke groepen. 

Het test de nulhypothese wanneer k onafhankelijke steekproeven (k>=3) worden getrokken uit een populatie met identieke verdelingen, zonder dat de voorwaarde van normaliteit voor de populaties vereist is.

Veronderstellingen:

Zorg ervoor dat er minimaal drie onafhankelijk getrokken willekeurige steekproeven zijn. Elk monster heeft minimaal 5 waarnemingen, n>=5

Beschouw een voorbeeld waarin we willen bepalen of de studietechniek die door drie groepen studenten wordt gebruikt, hun examenscores beïnvloedt. We kunnen de Kruskal-Wallis Test gebruiken om de gegevens te analyseren en te beoordelen of er statistisch significante verschillen zijn in examenscores tussen de groepen.

Formuleer de nulhypothese hiervoor als:

  • H0: Er is geen verschil in examenscores tussen de drie groepen studenten.
  • Ha: Er is een verschil in examenscores tussen de drie groepen studenten.

Wilcoxon ondertekende rangtest

Wilcoxon Signed Rank Test (ook bekend als Wilcoxon Matched Pair Test) is de niet-parametrische versie van de afhankelijke steekproef t-test of gepaarde steekproef t-test. Tekentest is het andere niet-parametrische alternatief voor de gepaarde steekproef-t-test. Het wordt gebruikt wanneer de relevante variabelen dichotoom van aard zijn (zoals mannelijk en vrouwelijk, ja en nee). Wilcoxon Signed Rank Test is ook een niet-parametrische versie voor één steekproef-t-test. De Wilcoxon Signed Rank Test vergelijkt de mediaan van de groepen in twee situaties (gepaarde steekproeven) of vergelijkt de mediaan van de groep met de veronderstelde mediaan (één steekproef). 

Laten we dit met een voorbeeld begrijpen. Stel dat we gegevens hebben over de dagelijkse sigarettenconsumptie van rokers voor en na deelname aan een programma van 8 weken en we willen bepalen of er een significant verschil is in de dagelijkse sigarettenconsumptie voor en na het programma. Dan zullen we dat doen. gebruik deze proef

De hypotheseformulering hiervoor zal zijn

  • H0: Er is geen verschil in de dagelijkse sigarettenconsumptie voor en na het programma.
  • Ha: Er is een verschil in de dagelijkse sigarettenconsumptie voor en na het programma

Test voor normaliteit

Laten we nu de normaliteitstests bespreken:

Shapiro Wilk-test

De Shapiro-Wilk-test beoordeelt of een bepaalde steekproef van gegevens afkomstig is van een normaal verdeelde populatie. Het is een van de meest gebruikte tests om de normaliteit te controleren. De test is vooral nuttig als het om relatief kleine steekproeven gaat.

In de Shapiro-Wilk-test:

  • Nulhypothese: De steekproefgegevens zijn afkomstig van een populatie die een normale verdeling volgt.
  • Alternatieve hypothese: De steekproefgegevens zijn niet afkomstig van een populatie die een normale verdeling volgt.

De teststatistiek gegenereerd door de Shapiro-Wilk-test meet de discrepantie tussen de waargenomen gegevens en de verwachte gegevens onder de aanname van normaliteit. Als de p-waarde geassocieerd met de teststatistiek kleiner is dan een gekozen significantieniveau (bijvoorbeeld 0.05), verwerpen we de nulhypothese, wat aangeeft dat de gegevens niet normaal verdeeld zijn. Als de p-waarde groter is dan het significantieniveau, slagen we er niet in de nulhypothese te verwerpen, wat suggereert dat de gegevens een normale verdeling kunnen volgen.

Laten we eerst een dataset maken voor deze test. U kunt elke dataset naar keuze gebruiken:

import pandas as pd
# Create the dictionary with the provided data
data = {
    'population': [6.1101, 5.5277, 8.5186, 7.0032, 5.8598],
    'profit': [17.5920, 9.1302, 13.6620, 11.8540, 6.8233]
}

# Create the DataFrame
df = pd.DataFrame(data)
response_var=df['profit']

Here, a sample for running Shapiro -Wilk test on python:
from scipy.stats import shapiro
stat, p_val = shapiro(response_var)
print(f'Shapiro-Wilk Test: Statistic={stat} p-value={p_val}')

if p_val > alpha:
    print('Data looks normal (fail to reject H0)')

else:
    print('Data looks normal (fail to reject H0)')

Output:

Niet-parametrische tests

Deze test is het meest geschikt voor relatief kleine steekproeven (n=< 50-2000), omdat deze minder betrouwbaar wordt bij grotere steekproeven.

Anderson-Darling

Het beoordeelt of een bepaalde steekproef van gegevens afkomstig is uit een specifieke verdeling, zoals de normale verdeling. Het is vergelijkbaar met de Shapiro-Wilk-test, maar is gevoeliger, vooral voor kleinere steekproeven.

Het is geschikt voor verschillende verdelingen, inclusief de normale verdeling, voor gevallen waarin de parameters van de verdeling onbekend zijn.

Hier, Python-code voor de implementatie ervan:

from scipy.stats import anderson
response_var = data['profit']
alpha = 0.05

# Anderson-Darling Test
result = anderson(response_var)
print(f'Anderson statistics: {result.statistic:.3f}')
if result.statistic > result.critical_values[-1]:
   p_value = 0.0  # The p-value is essentially 0 if the statistic exceeds the largest critical value

else:
   p_value = result.significance_level[result.statistic < result.critical_values][-1]

print("P-value:", p_value)
if p_value < alpha:
   print("Reject null hypothesis: Data does not look normally distributed")

else:
   print("Fail to reject null hypothesis: Data looks normally distributed")

Output:

Niet-parametrische tests

Jarque-Bera-test

De Jarque-Bera-test beoordeelt of een bepaalde steekproef van gegevens afkomstig is van een normaal verdeelde populatie. Het is gebaseerd op de scheefheid en kurtosis van de gegevens.

Hier is de implementatie van Jarque-Bera Test in Python met voorbeeldgegevens:

from scipy.stats import jarque_bera
# Performing Jarque-Bera test
test_statistic, p_value = jarque_bera(response_var)
print("Jarque-Bera Test Statistic:", test_statistic)
print("P-value:", p_value)
# Interpreting results
alpha = 0.05
if p_value < alpha:
   print("Reject null hypothesis: Data does not look normally distributed")

else:
   print("Fail to reject null hypothesis: Data looks normally distributed")

Output:

Niet-parametrische tests
Categorie Parametrische statistische technieken Niet-parametrisch Statistischtechnieken
correlatie Pearson productmomentcorrelatiecoëfficiënt (r) Spearman rangschikkingscoëfficiëntcorrelatie (Rho), Kendall's Tau
Twee groepen, onafhankelijke maatregelen Onafhankelijke t-test Mann-Whitney U-test
Meer dan twee groepen, onafhankelijke maatregelen Eenrichtings ANOVA Kruskal-Wallis enkele reis-ANOVA
Twee groepen, herhaalde maatregelen  Gepaarde t-test Wilcoxon matched pair ondertekende rangtest
Meer dan twee groepen, herhaalde maatregelen ANOVA met herhaalde metingen in één richting Friedman's tweerichtingsanalyse van variantie

Conclusie

Hypothese testen is essentieel voor het evalueren van claims over populatieparameters met behulp van steekproefgegevens. Parametrische tests zijn gebaseerd op specifieke aannames en zijn geschikt voor interval- of ratiogegevens, terwijl niet-parametrische tests flexibeler zijn en toepasbaar op nominale of ordinale gegevens zonder strikte verdelingsaannames. Tests zoals Shapiro-Wilk en Anderson-Darling beoordelen de normaliteit, terwijl Chi-square en Jarque-Bera de goedheid van de pasvorm beoordelen. Het begrijpen van de verschillen tussen parametrische en niet-parametrische tests is cruciaal voor het selecteren van de juiste statistische benadering. Over het geheel genomen biedt het testen van hypothesen een systematisch raamwerk voor het nemen van datagestuurde beslissingen en het trekken van betrouwbare conclusies uit empirisch bewijs.

Klaar om geavanceerde statistische analyse onder de knie te krijgen? Schrijf u vandaag nog in voor onze BlackBelt Data-analysecursus! Verkrijg expertise in het testen van hypothesen, parametrische en niet-parametrische tests, Python-implementatie en meer. Verbeter uw statistische vaardigheden en blink uit in datagestuurde besluitvorming. Sluit je nu aan!

Veelgestelde Vragen / FAQ

Q1. Wat zijn de belangrijkste verschillen tussen parametrische en niet-parametrische tests?

A. Parametrische tests maken aannames over de populatieverdeling en parameters, zoals normaliteit en homogeniteit van variantie, terwijl niet-parametrische tests niet op deze aannames vertrouwen. Parametrische tests hebben meer kracht als aan aannames wordt voldaan, terwijl niet-parametrische tests robuuster zijn en toepasbaar in een breder scala aan situaties, ook wanneer gegevens scheef zijn of niet normaal verdeeld zijn.

Vraag 2. Wanneer moet ik een chikwadraattoets gebruiken?

A. De chikwadraattoets wordt gebruikt om te bepalen of er een significant verband bestaat tussen twee categorische variabelen. Het analyseert gewoonlijk categorische gegevens en test hypothesen over de onafhankelijkheid van variabelen in kruistabellen.

Q3. Waar wordt de Mann-Whitney U-test voor gebruikt?

A. De Mann-Whitney U-test vergelijkt twee onafhankelijke groepen wanneer de afhankelijke variabele ordinaal of niet normaal verdeeld is. Er wordt beoordeeld of er een significant verschil bestaat tussen de medianen van de twee groepen.

Q4. Hoe werkt de Shapiro-Wilk-test?

A. De Shapiro-Wilk-test beoordeelt of een steekproef afkomstig is uit een normaal verdeelde populatie. Het test de nulhypothese dat de gegevens een normale verdeling volgen. Als de p-waarde kleiner is dan het gekozen significantieniveau (bijvoorbeeld 0.05), verwerpen we de nulhypothese en concluderen we dat de gegevens niet normaal verdeeld zijn.

spot_img

Laatste intelligentie

spot_img