Zephyrnet-logo

Statistische functies in Python

Datum:

 

Statistische functies zijn een grote hulp bij het analyseren van de gegevens en het maken van zinvolle conclusies. In deze tutorial behandelen we enkele nuttige statistische functies die kunnen worden toegepast op panda's en serieobjecten

De volgende statistische functies worden in de tutorial behandeld:

  • pct_change()
  • cov ()
  • corr ()
  • klopt ()

De methode pct_change () kan worden toegepast op de reeksen en het dataframe van een panda om de procentuele verandering over een specifiek aantal perioden te berekenen

PCt_change() berekenen zonder het aantal perioden op te geven

Code:

importeer panda's als pd importeer numpy als np series = pd.Series(np.random.randn(10)) series.pct_change()

Output:

0 NaN 1 -0.881470 2 -5.025007 3 0.728078 4 -0.577371 5 1.173420 6 -1.578389 7 -3.520208 8 -1.927874 9 -1.600583 dtype: float64

Berekening van pct_change() door het aantal perioden op te geven

Code:

df = pd.DataFrame(np.random.randn(10,2)) df.pct_change(perioden = 2)

Output:

0 1
0 NaN NaN
1 NaN NaN
2 -0.095052 -1.399525
3 0.073909 -7.491512
4 -0.882174 -1.150202

De methode cov () wordt gebruikt om de covariantie in een reeks en een dataframe te berekenen. Bij het berekenen van de covariantie in een dataframe wordt paarsgewijze covariantie berekend tussen de reeksen in een dataframe.

Bij het berekenen van de covariantie in series en dataframes worden eventuele ontbrekende waarden uitgesloten

Berekening van de covariantie tussen twee reeksen

Code:

series1 = pd.Series(np.random.randn(200)) series2 = pd.Series(np.random.randn(200)) series1.cov(serie2)

Output:

-0.14817157321848334

Berekening van de covariantie van een dataframe

Code:

df = pd.DataFrame(np.random.randn(4,5),columns = ["a", "b", "c", "d", "e"]) df.cov()

Output:

a b c d e
a 2.095402 0.191502 0.049185 0.090229 -1.052856
b 0.191502 0.628889 0.377184 -0.507893 0.404180
c 0.049185 0.377184 0.336220 -0.077814 0.571139
d 0.090229 -0.507893 -0.077814 0.950198 0.164894
e -1.052856 0.404180 0.571139 0.164894 1.722546

De correlatie wordt berekend met behulp van de corr()-methode. De corr()-methode heeft een methodeparameter waarvoor de volgende methodenaamopties beschikbaar zijn:

  1. Pearson (standaard), wat de standaardcorrelatiecoëfficiënt is
  2. Kendall Tau-correlatiecoëfficiënt
  3. Spearman-rangcorrelatiecoëfficiënt

Berekening van de correlatie tussen reeksen in een dataframe met behulp van de standaard Pearson

Code:

df = pd.DataFrame(np.random.randn(200,4), kolommen = ["a", "b", "c", "d"]) df["a"]. corr(df["b"])

Output:

0.08425780768544051

Het berekenen van de correlatie tussen reeksen in een Data Frame met behulp van de methode spearman

Code:

df["een"]. corr(df["b"],methode = "speervechter")

Output:

0.053819845496137414

Berekening van de paarsgewijze correlatie tussen Data Frame-kolommen

Code:

Output:

a b c d
a 1.000000 0.084258 -0.074284 0.054453
b 0.084258 1.000000 0.022995 0.029727
c -0.074284 0.022995 1.000000 -0.028279
d 0.054453 0.029727 -0.028279 1.000000

De Corrwith ()-methode wordt toegepast op een Data Frame om de correlatie te berekenen tussen dezelfde gelabelde Series in verschillende Data Frame-objecten

Code:

index = ["a", "b", "c", "d", "e"] kolommen = ["één", "twee", "drie", "vier"] df1 = pd.DataFrame(np. random.randn(5,4), index = index, kolommen = kolommen ) df2 = pd.DataFrame(np.random.randn(4,4), index = index[:4], kolommen = kolommen) df1.corrwith( df2)

Output:

één 0.277569 twee -0.052151 drie -0.754392 vier 0.526614 dtype: float64

Code:

df2.corrwith(df1, as=1)

Output:

a 0.346955 b -0.707590 c 0.711081 d 0.753457 e NaN dtype: float64

 
Priya Sengar (Medium, GitHub) is een datawetenschapper aan de Old Dominion University. Priya is gepassioneerd om problemen in data op te lossen en om te zetten in oplossingen.
 

spot_img

Laatste intelligentie

spot_img