Zephyrnet-logotyp

Beskrivande statistik nyckeltermer, förklarade

Datum:

Även om statistik är en central uppsättning verktyg för datavetenskap, förbises ofta till förmån för mer solida tekniska färdigheter som programmering. Även algoritmer för maskininlärning, med deras beroende av matematiska begrepp som algebra och kalkyl – för att inte tala om statistik! — behandlas ofta på en högre nivå än vad som krävs för att uppskatta den underliggande matematiken, vilket kanske leder till "datavetare" som saknar en grundläggande förståelse för en av nyckelaspekterna i sitt yrke.

Det här inlägget kommer inte att lösa diskrepansen mellan att veta och att inte känna till de absoluta grunderna för statistik. Men om du inte helt kan förstå den grundläggande beskrivande statistikterminologin som ingår häri, saknar du definitivt grundläggande kunskap som behövs för att bygga en hel serie av mycket mer robusta och användbara professionella koncept ovanpå.

 

Så här är en samling av 15 grundläggande beskrivande statistik nyckeltermer, förklarade på ett lättförståeligt språk. Ett omfattande exempel följer, som inkluderar lite Python-kod. Observera att som en grundläggande introduktion har matematiska representationer och beskrivningar av termerna häri avsiktligt utelämnats.

 
Beskrivande statistik är en samling statistiska verktyg som används för att kvantitativt beskriva eller sammanfatta en samling data. Beskrivande statistik syftar till att sammanfatta, och kan som sådan särskiljas från inferentiell statistik, som är mer prediktiv till sin natur.

 
En population är en utvald individ eller grupp som representerar hela uppsättningen medlemmar av en viss intressegrupp.

 
Ett urval är en delmängd från en större population. Om denna ritning utförs på ett sådant sätt att varje medlem av befolkningen har en rättvis chans till urval, hänvisas resultatet till som en slumpmässigt urval.

 
En parameter är ett värde som genereras från en population. Om jag hade alla data för alla människor på jorden och genererade medelåldern, skulle detta värde vara en parameter.

 
En statistik är ett värde som genereras från ett urval. Om jag beräknade medelåldern för en delmängd av människor på planeten jorden (mycket mer genomförbart), skulle detta värde vara en statistik. Därav disciplinen statistik.

 
Generaliserbarhet avser förmågan att dra slutsatser om egenskaperna hos populationen som helhet baserat på resultaten av data som samlats in från ett urval. Denna förmåga är inte given och beror till stor del på arten av provinsamling, provstorlek och olika andra faktorer.

 
En fördelning är arrangemanget av data efter värdena för en variabel i ordning, från låg till hög. Detta arrangemang, och dess egenskaper såsom form och spridning, ger information om det underliggande provet.

 
Medelvärde, tillsammans med median och läge, är ett av de tre stora måtten på central tendens, som tillsammans utvärderar en viktig och grundläggande aspekt av en distribution. Det enkla aritmetiska medelvärdet av en fördelning av variabelvärden (eller poäng), medelvärdet ger en enda, koncis numerisk sammanfattning av en fördelning. Medelvärdet är sannolikt också den vanligaste statistiken man stöter på inom allmän forskning. Populationsmedelvärde betecknas μ, medan urvalsmedelvärde betecknas x̄.

 
Medianen är poängen för en fördelning som ligger på den 50:e percentilen, som skiljer de översta och nedersta 50 procenten av poängen. Medianen är användbar för att både dela upp en uppsättning distributionspoäng på mitten och hjälpa till att identifiera skevheten i en distribution.

 
Läget är helt enkelt det partitur som förekommer oftast i distributionen. Multimodal hänvisar till en distribution med mer än ett läge; bimodal hänvisar till en distribution med 2 lägen.

 
När det finns fler poäng mot ena änden av fördelningen än den andra, resulterar detta i skevhet. När poängen för en distribution är mer klustrade i den övre delen, resulterar det relativt färre antalet poäng i den lägre delen i en svans, med scenariot som kallas negativ skevhet. Positiv skevning är när en fördelning visar en svans i sin övre ände.

I allmänhet, i en negativt skev fördelning, skulle vi förvänta oss att medelvärdet är mindre än medianen, medan vi i en positivt skev fördelning förväntar oss att medelvärdet är större än medianen.

 
Ett av de viktigaste måtten på spridning, intervallet är skillnaden mellan maximi- och minimivärdena för en fördelning.

 
Varians är det statistiska genomsnittet av spridningen av poäng i en fördelning. Varians används inte ofta på egen hand, men kan vara en användbar beräkning på vägen till ett mer beskrivande statistiskt mått, som standardavvikelse.

 
Standardavvikelsen för en fördelning är den genomsnittliga avvikelsen mellan individuella fördelningspoäng och fördelningens medelvärde. Individuellt ger standardavvikelsen ett bra mått på hur spridda en disquisitions poäng är. När de betraktas tillsammans med medelvärdet ger dessa två mått en bra översikt över fördelningen av poäng.

 
IQR är skillnaden mellan poängen som avgränsar den 75:e percentilen och den 25:e percentilen, den tredje respektive första kvartilen.

 
Nedan finns ett enkelt Python-skript för att beräkna mycket av den beskrivande statistik som diskuterats ovan, följt av ett exempel.

importera numpy som np importera matplotlib.pyplot som plt importera scipy.stats dist = np.array([ 1, 4, 5, 6, 8, 8, 9, 10, 10, 11, 11, 13, 13, 13, 14 , 14, 15, 15, 15, 15 ]) print('Beskrivande statistik för distribution:n', dist) print('Antal poäng:', len(avstånd)) print('Antal unika poäng:', len (np.unique(avstånd)) print('Sum:', summa(avstånd)) print('Min:', min(avstånd)) print('Max:', max(avstånd)) print('Range:' , max(avstånd)-min(avstånd)) print('Mean:', np.mean(dist, axis=0)) print('Median:', np.median(dist, axis=0)) print(' Mode:', scipy.stats.mode(dist)[0][0]) print('Varians:', np.var(dist, axis=0)) print('Standardavvikelse:', np.std(dist , axis=0)) print('1st quartile:', np.percentile(dist, 25)) print('3rd quartile:', np.percentile(dist, 75)) print('Distribution skew:', scipy. stats.skew(dist)) plt.hist(dist, bins=len(dist)) plt.yticks(np.arange(0, 6, 1.0)) plt.title('Histogram of distribution scores') plt.show( )
Beskrivande statistik för distribution: [ 1 4 5 6 8 8 9 10 10 11 11 13 13 13 14 14 15 15 15 15] Antal poäng: 20 Antal unika poäng: 11 Summa: 210 Min: 1 Max: 15 Räckvidd: Medelvärde: 14 Median: 10.5 Läge: 11.0 Varians: 15 Standardavvikelse: 16.15 4.01870625948:a kvartilen: 1 8.0:e kvartilen: 3 Fördelningsskev: -14.0

Histogramdistributionspoäng

 
 
Matthew Mayo (@mattmayo13) är en dataforskare och chefredaktör för KDnuggets, den framstående onlineresursen för datavetenskap och maskininlärning. Hans intressen ligger i naturlig språkbehandling, algoritmdesign och optimering, oövervakad inlärning, neurala nätverk och automatiserade metoder för maskininlärning. Matthew har en magisterexamen i datavetenskap och en examen i datautvinning. Han kan nås på editor1 på kdnuggets[dot]com.
 

plats_img

Senaste intelligens

plats_img