Các hàm thống kê giúp ích rất nhiều trong việc phân tích dữ liệu và đưa ra các kết luận có ý nghĩa. Trong hướng dẫn này, chúng ta sẽ đề cập đến một số hàm thống kê hữu ích có thể được áp dụng cho gấu trúc và các đối tượng sê-ri
Các chức năng thống kê sau đây sẽ được đề cập trong hướng dẫn:
- pct_change()
- cov ()
- sai ()
- sửa lỗi ()
Phương thức pct_change() có thể được áp dụng cho chuỗi và Khung dữ liệu của gấu trúc để tính phần trăm thay đổi trong một số khoảng thời gian cụ thể
Tính pct_change() mà không chỉ định số chu kỳ
Mã Code:
nhập gấu trúc dưới dạng pd nhập numpy dưới dạng np series = pd.Series(np.random.randn(10)) series.pct_change()
Đầu ra:
0 NaN 1 -0.881470 2 -5.025007 3 0.728078 4 -0.577371 5 1.173420 6 -1.578389 7 -3.520208 8 -1.927874 9 -1.600583 dtype: float64
Tính toán pct_change() bằng cách chỉ định số khoảng thời gian
Mã Code:
df = pd.DataFrame(np.random.randn(10,2)) df.pct_change(dấu chấm = 2)
Đầu ra:
0 | 1 | |
---|---|---|
0 | NaN | NaN |
1 | NaN | NaN |
2 | -0.095052 | -1.399525 |
3 | 0.073909 | -7.491512 |
4 | -0.882174 | -1.150202 |
Phương thức cov() được sử dụng để tính toán hiệp phương sai trong một chuỗi và Khung dữ liệu. Trong khi tính toán hiệp phương sai trong Khung dữ liệu, hiệp phương sai theo cặp được tính giữa các chuỗi trong Khung dữ liệu.
Trong khi tính toán hiệp phương sai theo chuỗi và các giá trị thiếu Khung dữ liệu sẽ bị loại trừ nếu có
Tính hiệp phương sai giữa hai chuỗi
Mã Code:
sê-ri1 = pd.Sê-ri(np.random.randn(200)) sê-ri2 = pd.Sê-ri(np.random.Randn(200)) sê-ri1.cov(sê-ri2)
Đầu ra:
-0.14817157321848334
Tính hiệp phương sai của Khung dữ liệu
Mã Code:
df = pd.DataFrame(np.random.randn(4,5),columns = ["a","b","c","d","e"]) df.cov()
Đầu ra:
a | b | c | d | e | |
---|---|---|---|---|---|
a | 2.095402 | 0.191502 | 0.049185 | 0.090229 | -1.052856 |
b | 0.191502 | 0.628889 | 0.377184 | -0.507893 | 0.404180 |
c | 0.049185 | 0.377184 | 0.336220 | -0.077814 | 0.571139 |
d | 0.090229 | -0.507893 | -0.077814 | 0.950198 | 0.164894 |
e | -1.052856 | 0.404180 | 0.571139 | 0.164894 | 1.722546 |
Mối tương quan được tính toán bằng cách sử dụng phương thức corr(), phương thức corr() có một tham số phương thức có sẵn tùy chọn tên phương thức sau:
- Pearson (mặc định) là hệ số tương quan chuẩn
- Hệ số tương quan Kendall Tau
- Hệ số tương quan xếp hạng Spearman
Tính toán mối tương quan giữa các chuỗi trong Khung dữ liệu bằng Pearson mặc định
Mã Code:
df = pd.DataFrame(np.random.randn(200,4), cột = ["a","b","c","d"]) df["a"]. sửa (df["b"])
Đầu ra:
0.08425780768544051
Tính toán mối tương quan giữa các chuỗi trong Khung dữ liệu bằng phương pháp spearman
Mã Code:
df["a"]. corr(df["b"],method = "spearman")
Đầu ra:
0.053819845496137414
Tính toán mối tương quan theo cặp giữa các cột Khung dữ liệu
Mã Code:
Đầu ra:
a | b | c | d | |
---|---|---|---|---|
a | 1.000000 | 0.084258 | -0.074284 | 0.054453 |
b | 0.084258 | 1.000000 | 0.022995 | 0.029727 |
c | -0.074284 | 0.022995 | 1.000000 | -0.028279 |
d | 0.054453 | 0.029727 | -0.028279 | 1.000000 |
Phương thức Corrwith() được áp dụng cho Khung dữ liệu để tính toán mối tương quan giữa Sê-ri giống nhau – được gắn nhãn trong các đối tượng Khung dữ liệu khác nhau
Mã Code:
index = ["a","b","c","d","e"] cột = ["một","hai","ba","bốn"] df1 = pd.DataFrame(np. ngẫu nhiên.randn(5,4), chỉ mục = chỉ mục, cột = cột ) df2 = pd.DataFrame(np.random.randn(4,4), chỉ mục = chỉ mục[:4], cột = cột) df1.corrwith( df2)
Đầu ra:
một 0.277569 hai -0.052151 ba -0.754392 bốn 0.526614 dtype: float64
Mã Code:
df2.corrwith(df1, trục=1)
Đầu ra:
a 0.346955 b -0.707590 c 0.711081 d 0.753457 e NaN dtype: float64
Priya Sengar (Trung bình, Github) là Nhà khoa học dữ liệu của Đại học Old Dominion. Priya đam mê giải quyết các vấn đề trong dữ liệu và chuyển đổi chúng thành các giải pháp.