Logo Zephyrnet

Hàm thống kê trong Python

Ngày:

 

Các hàm thống kê giúp ích rất nhiều trong việc phân tích dữ liệu và đưa ra các kết luận có ý nghĩa. Trong hướng dẫn này, chúng ta sẽ đề cập đến một số hàm thống kê hữu ích có thể được áp dụng cho gấu trúc và các đối tượng sê-ri

Các chức năng thống kê sau đây sẽ được đề cập trong hướng dẫn:

  • pct_change()
  • cov ()
  • sai ()
  • sửa lỗi ()

Phương thức pct_change() có thể được áp dụng cho chuỗi và Khung dữ liệu của gấu trúc để tính phần trăm thay đổi trong một số khoảng thời gian cụ thể

Tính pct_change() mà không chỉ định số chu kỳ

Mã Code:

nhập gấu trúc dưới dạng pd nhập numpy dưới dạng np series = pd.Series(np.random.randn(10)) series.pct_change()

Đầu ra:

0 NaN 1 -0.881470 2 -5.025007 3 0.728078 4 -0.577371 5 1.173420 6 -1.578389 7 -3.520208 8 -1.927874 9 -1.600583 dtype: float64

Tính toán pct_change() bằng cách chỉ định số khoảng thời gian

Mã Code:

df = pd.DataFrame(np.random.randn(10,2)) df.pct_change(dấu chấm = 2)

Đầu ra:

0 1
0 NaN NaN
1 NaN NaN
2 -0.095052 -1.399525
3 0.073909 -7.491512
4 -0.882174 -1.150202

Phương thức cov() được sử dụng để tính toán hiệp phương sai trong một chuỗi và Khung dữ liệu. Trong khi tính toán hiệp phương sai trong Khung dữ liệu, hiệp phương sai theo cặp được tính giữa các chuỗi trong Khung dữ liệu.

Trong khi tính toán hiệp phương sai theo chuỗi và các giá trị thiếu Khung dữ liệu sẽ bị loại trừ nếu có

Tính hiệp phương sai giữa hai chuỗi

Mã Code:

sê-ri1 = pd.Sê-ri(np.random.randn(200)) sê-ri2 = pd.Sê-ri(np.random.Randn(200)) sê-ri1.cov(sê-ri2)

Đầu ra:

-0.14817157321848334

Tính hiệp phương sai của Khung dữ liệu

Mã Code:

df = pd.DataFrame(np.random.randn(4,5),columns = ["a","b","c","d","e"]) df.cov()

Đầu ra:

a b c d e
a 2.095402 0.191502 0.049185 0.090229 -1.052856
b 0.191502 0.628889 0.377184 -0.507893 0.404180
c 0.049185 0.377184 0.336220 -0.077814 0.571139
d 0.090229 -0.507893 -0.077814 0.950198 0.164894
e -1.052856 0.404180 0.571139 0.164894 1.722546

Mối tương quan được tính toán bằng cách sử dụng phương thức corr(), phương thức corr() có một tham số phương thức có sẵn tùy chọn tên phương thức sau:

  1. Pearson (mặc định) là hệ số tương quan chuẩn
  2. Hệ số tương quan Kendall Tau
  3. Hệ số tương quan xếp hạng Spearman

Tính toán mối tương quan giữa các chuỗi trong Khung dữ liệu bằng Pearson mặc định

Mã Code:

df = pd.DataFrame(np.random.randn(200,4), cột = ["a","b","c","d"]) df["a"]. sửa (df["b"])

Đầu ra:

0.08425780768544051

Tính toán mối tương quan giữa các chuỗi trong Khung dữ liệu bằng phương pháp spearman

Mã Code:

df["a"]. corr(df["b"],method = "spearman")

Đầu ra:

0.053819845496137414

Tính toán mối tương quan theo cặp giữa các cột Khung dữ liệu

Mã Code:

Đầu ra:

a b c d
a 1.000000 0.084258 -0.074284 0.054453
b 0.084258 1.000000 0.022995 0.029727
c -0.074284 0.022995 1.000000 -0.028279
d 0.054453 0.029727 -0.028279 1.000000

Phương thức Corrwith() được áp dụng cho Khung dữ liệu để tính toán mối tương quan giữa Sê-ri giống nhau – được gắn nhãn trong các đối tượng Khung dữ liệu khác nhau

Mã Code:

index = ["a","b","c","d","e"] cột = ["một","hai","ba","bốn"] df1 = pd.DataFrame(np. ngẫu nhiên.randn(5,4), chỉ mục = chỉ mục, cột = cột ) df2 = pd.DataFrame(np.random.randn(4,4), chỉ mục = chỉ mục[:4], cột = cột) df1.corrwith( df2)

Đầu ra:

một 0.277569 hai -0.052151 ba -0.754392 bốn 0.526614 dtype: float64

Mã Code:

df2.corrwith(df1, trục=1)

Đầu ra:

a 0.346955 b -0.707590 c 0.711081 d 0.753457 e NaN dtype: float64

 
Priya Sengar (Trung bình, Github) là Nhà khoa học dữ liệu của Đại học Old Dominion. Priya đam mê giải quyết các vấn đề trong dữ liệu và chuyển đổi chúng thành các giải pháp.
 

tại chỗ_img

Tin tức mới nhất

tại chỗ_img