Statistische functies zijn een grote hulp bij het analyseren van de gegevens en het maken van zinvolle conclusies. In deze tutorial behandelen we enkele nuttige statistische functies die kunnen worden toegepast op panda's en serieobjecten
De volgende statistische functies worden in de tutorial behandeld:
- pct_change()
- cov ()
- corr ()
- klopt ()
De methode pct_change () kan worden toegepast op de reeksen en het dataframe van een panda om de procentuele verandering over een specifiek aantal perioden te berekenen
PCt_change() berekenen zonder het aantal perioden op te geven
Code:
importeer panda's als pd importeer numpy als np series = pd.Series(np.random.randn(10)) series.pct_change()
Output:
0 NaN 1 -0.881470 2 -5.025007 3 0.728078 4 -0.577371 5 1.173420 6 -1.578389 7 -3.520208 8 -1.927874 9 -1.600583 dtype: float64
Berekening van pct_change() door het aantal perioden op te geven
Code:
df = pd.DataFrame(np.random.randn(10,2)) df.pct_change(perioden = 2)
Output:
0 | 1 | |
---|---|---|
0 | NaN | NaN |
1 | NaN | NaN |
2 | -0.095052 | -1.399525 |
3 | 0.073909 | -7.491512 |
4 | -0.882174 | -1.150202 |
De methode cov () wordt gebruikt om de covariantie in een reeks en een dataframe te berekenen. Bij het berekenen van de covariantie in een dataframe wordt paarsgewijze covariantie berekend tussen de reeksen in een dataframe.
Bij het berekenen van de covariantie in series en dataframes worden eventuele ontbrekende waarden uitgesloten
Berekening van de covariantie tussen twee reeksen
Code:
series1 = pd.Series(np.random.randn(200)) series2 = pd.Series(np.random.randn(200)) series1.cov(serie2)
Output:
-0.14817157321848334
Berekening van de covariantie van een dataframe
Code:
df = pd.DataFrame(np.random.randn(4,5),columns = ["a", "b", "c", "d", "e"]) df.cov()
Output:
a | b | c | d | e | |
---|---|---|---|---|---|
a | 2.095402 | 0.191502 | 0.049185 | 0.090229 | -1.052856 |
b | 0.191502 | 0.628889 | 0.377184 | -0.507893 | 0.404180 |
c | 0.049185 | 0.377184 | 0.336220 | -0.077814 | 0.571139 |
d | 0.090229 | -0.507893 | -0.077814 | 0.950198 | 0.164894 |
e | -1.052856 | 0.404180 | 0.571139 | 0.164894 | 1.722546 |
De correlatie wordt berekend met behulp van de corr()-methode. De corr()-methode heeft een methodeparameter waarvoor de volgende methodenaamopties beschikbaar zijn:
- Pearson (standaard), wat de standaardcorrelatiecoëfficiënt is
- Kendall Tau-correlatiecoëfficiënt
- Spearman-rangcorrelatiecoëfficiënt
Berekening van de correlatie tussen reeksen in een dataframe met behulp van de standaard Pearson
Code:
df = pd.DataFrame(np.random.randn(200,4), kolommen = ["a", "b", "c", "d"]) df["a"]. corr(df["b"])
Output:
0.08425780768544051
Het berekenen van de correlatie tussen reeksen in een Data Frame met behulp van de methode spearman
Code:
df["een"]. corr(df["b"],methode = "speervechter")
Output:
0.053819845496137414
Berekening van de paarsgewijze correlatie tussen Data Frame-kolommen
Code:
Output:
a | b | c | d | |
---|---|---|---|---|
a | 1.000000 | 0.084258 | -0.074284 | 0.054453 |
b | 0.084258 | 1.000000 | 0.022995 | 0.029727 |
c | -0.074284 | 0.022995 | 1.000000 | -0.028279 |
d | 0.054453 | 0.029727 | -0.028279 | 1.000000 |
De Corrwith ()-methode wordt toegepast op een Data Frame om de correlatie te berekenen tussen dezelfde gelabelde Series in verschillende Data Frame-objecten
Code:
index = ["a", "b", "c", "d", "e"] kolommen = ["één", "twee", "drie", "vier"] df1 = pd.DataFrame(np. random.randn(5,4), index = index, kolommen = kolommen ) df2 = pd.DataFrame(np.random.randn(4,4), index = index[:4], kolommen = kolommen) df1.corrwith( df2)
Output:
één 0.277569 twee -0.052151 drie -0.754392 vier 0.526614 dtype: float64
Code:
df2.corrwith(df1, as=1)
Output:
a 0.346955 b -0.707590 c 0.711081 d 0.753457 e NaN dtype: float64
Priya Sengar (Medium, GitHub) is een datawetenschapper aan de Old Dominion University. Priya is gepassioneerd om problemen in data op te lossen en om te zetten in oplossingen.