Logo Zephyrnet

10 khái niệm thống kê cơ bản bằng tiếng Anh đơn giản – KDnuggets

Ngày:

10 khái niệm thống kê cơ bản bằng tiếng Anh đơn giản
Hình ảnh của Tác giả
 

Thống kê đóng vai trò then chốt trong nhiều lĩnh vực bao gồm khoa học dữ liệu, kinh doanh, khoa học xã hội, v.v. Tuy nhiên, nhiều khái niệm thống kê cơ bản có vẻ phức tạp và đáng sợ, đặc biệt đối với những người mới bắt đầu không có nền tảng toán học vững chắc. Bài viết này sẽ xem xét 10 khái niệm thống kê cơ bản bằng các thuật ngữ đơn giản, phi kỹ thuật, với mục tiêu truyền đạt các khái niệm này theo cách dễ tiếp cận và dễ tiếp cận.

 
Phân bố xác suất cho thấy khả năng xảy ra các kết quả khác nhau trong một quá trình. Ví dụ: giả sử chúng ta có một túi có số lượng bi đỏ, xanh dương và xanh lục bằng nhau. Nếu chúng ta lấy ngẫu nhiên các viên bi, phân bố xác suất sẽ cho chúng ta biết cơ hội lấy được từng màu. Nó sẽ cho thấy rằng có 1/3 cơ hội hoặc 33% khả năng nhận được màu đỏ, xanh lam hoặc xanh lục. Nhiều loại dữ liệu trong thế giới thực thường có thể được mô hình hóa bằng cách sử dụng phân bố xác suất đã biết, mặc dù điều này không phải lúc nào cũng đúng.

 
Kiểm tra giả thuyết cho phép chúng tôi đưa ra các tuyên bố dựa trên dữ liệu, tương tự như cách một phiên tòa tại phòng xử án nhằm mục đích chứng minh có tội hoặc vô tội dựa trên bằng chứng sẵn có. Chúng tôi bắt đầu với một giả thuyết hoặc khẳng định, được gọi là giả thuyết không. Sau đó, chúng tôi kiểm tra xem dữ liệu được quan sát có hỗ trợ hay bác bỏ tuyên bố này ở một mức độ tin cậy nhất định hay không. Ví dụ, một nhà sản xuất thuốc có thể tuyên bố loại thuốc mới của họ làm giảm cơn đau nhanh hơn những loại thuốc hiện có. Các nhà nghiên cứu có thể kiểm tra tuyên bố này bằng cách phân tích kết quả từ các thử nghiệm lâm sàng. Dựa trên dữ liệu, họ có thể từ chối yêu cầu bồi thường nếu thiếu bằng chứng hoặc không bác bỏ giả thuyết khống, cho thấy rằng không có đủ bằng chứng để nói rằng loại thuốc mới không làm giảm cơn đau nhanh hơn.

 
Khi lấy mẫu dữ liệu từ một tổng thể, khoảng tin cậy cung cấp một loạt các giá trị trong đó chúng ta có thể chắc chắn một cách hợp lý rằng giá trị trung bình thực sự của tổng thể nằm trong đó. Ví dụ: nếu chúng tôi tuyên bố rằng chiều cao trung bình của nam giới ở một quốc gia là 172 cm với khoảng tin cậy 95% là từ 170 cm đến 174 cm thì chúng tôi tin chắc 95% rằng chiều cao trung bình của tất cả nam giới nằm trong khoảng từ 170 cm đến 174 cm. cm. Khoảng tin cậy thường nhỏ hơn với cỡ mẫu lớn hơn, giả sử các yếu tố khác như độ biến thiên không đổi.

 
Phân tích hồi quy giúp chúng ta hiểu những thay đổi trong một biến sẽ tác động như thế nào đến một biến khác. Ví dụ: chúng tôi có thể phân tích dữ liệu để xem doanh số bán hàng bị ảnh hưởng như thế nào bởi chi phí quảng cáo. Sau đó, phương trình hồi quy định lượng mối quan hệ, cho phép chúng tôi dự đoán doanh số bán hàng trong tương lai dựa trên mức chi tiêu quảng cáo dự kiến. Ngoài hai biến, hồi quy bội kết hợp một số biến giải thích để tách biệt các tác động riêng lẻ của chúng lên biến kết quả.

 
ANOVA cho phép chúng tôi so sánh các phương tiện giữa nhiều nhóm để xem liệu chúng có khác biệt đáng kể hay không. Ví dụ: một nhà bán lẻ có thể kiểm tra mức độ hài lòng của khách hàng với ba thiết kế bao bì. Bằng cách phân tích xếp hạng khảo sát, ANOVA có thể xác nhận xem mức độ hài lòng giữa ba nhóm có khác nhau hay không. Nếu có sự khác biệt, điều đó có nghĩa là không phải tất cả các thiết kế đều mang đến sự hài lòng như nhau. Cái nhìn sâu sắc này giúp chọn bao bì tối ưu.

 
Giá trị p cho biết xác suất nhận được kết quả ít nhất cũng cực đoan như dữ liệu được quan sát, giả sử giả thuyết không là đúng. Giá trị p nhỏ cung cấp bằng chứng mạnh mẽ chống lại giả thuyết không, vì vậy bạn có thể cân nhắc việc bác bỏ nó để ủng hộ giả thuyết thay thế. Quay trở lại ví dụ về thử nghiệm lâm sàng, giá trị p nhỏ khi so sánh tác dụng giảm đau của thuốc mới và thuốc tiêu chuẩn sẽ cho thấy bằng chứng thống kê mạnh mẽ rằng loại thuốc mới có tác dụng nhanh hơn.

 
Trong khi số liệu thống kê thường xuyên chỉ dựa vào dữ liệu thì số liệu thống kê Bayesian kết hợp niềm tin hiện có cùng với bằng chứng mới. Khi chúng tôi nhận được nhiều dữ liệu hơn, chúng tôi cập nhật niềm tin của mình. Ví dụ: giả sử xác suất hôm nay thực sự mưa dựa trên dự báo là 50%. Sau đó, nếu chúng ta nhận thấy những đám mây đen trên đầu, định lý Bayes sẽ cho chúng ta biết cách cập nhật xác suất này lên 70% dựa trên bằng chứng mới. Các phương pháp Bayesian, có thể tính toán chuyên sâu, có thể phổ biến trong các khía cạnh của khoa học dữ liệu.

 
Độ lệch chuẩn định lượng mức độ phân tán hoặc trải rộng của dữ liệu so với giá trị trung bình. Độ lệch chuẩn thấp có nghĩa là các điểm tụ lại gần giá trị trung bình, trong khi độ lệch chuẩn cao cho thấy mức độ biến thiên rộng hơn. Ví dụ: điểm kiểm tra 85, 88, 89, 90 có độ lệch chuẩn thấp hơn điểm 60, 75, 90, 100. Độ lệch chuẩn cực kỳ hữu ích trong thống kê và là cơ sở của nhiều phân tích.

 
Hệ số tương quan đo lường mức độ liên quan tuyến tính của hai biến, từ -1 đến +1. Các giá trị gần +/-1 biểu thị mối tương quan chặt chẽ, trong khi các giá trị gần 0 có nghĩa là mối tương quan yếu. Ví dụ: chúng ta có thể tính toán mối tương quan giữa kích thước ngôi nhà và giá cả. Một mối tương quan tích cực mạnh mẽ ngụ ý những ngôi nhà lớn hơn có xu hướng có giá cao hơn. Điều quan trọng cần lưu ý là mặc dù mối tương quan đo lường mối quan hệ nhưng nó không hàm ý rằng một biến số sẽ gây ra biến số kia.

 
Định lý giới hạn trung tâm chính xác hơn khi cỡ mẫu lớn và phát biểu rằng khi chúng ta lấy những mẫu đó từ một tổng thể và tính trung bình mẫu, thì những trung bình này tuân theo mô hình phân phối chuẩn, bất kể phân phối ban đầu như thế nào. Ví dụ: nếu chúng tôi khảo sát các nhóm người về sở thích xem phim, vẽ mức trung bình cho từng nhóm và lặp lại quá trình này thì mức trung bình sẽ tạo thành một đường cong hình chuông, ngay cả khi ý kiến ​​của từng cá nhân khác nhau.

 
Việc hiểu các khái niệm thống kê cung cấp một lăng kính phân tích để nhìn thế giới và bắt đầu diễn giải dữ liệu để chúng ta có thể đưa ra các quyết định dựa trên bằng chứng sáng suốt. Cho dù trong khoa học dữ liệu, kinh doanh, trường học hay cuộc sống hàng ngày của chúng ta, thống kê là một bộ công cụ mạnh mẽ có thể cung cấp cho chúng ta cái nhìn sâu sắc dường như vô tận về cách thế giới vận hành. Tôi hy vọng bài viết này đã cung cấp một sự giới thiệu trực quan nhưng toàn diện về một số ý tưởng này.
 
 

Matthew Mayo (@ mattmayo13) có bằng Thạc sĩ về khoa học máy tính và bằng tốt nghiệp về khai thác dữ liệu. Với tư cách là Tổng biên tập của KDnuggets, Matthew đặt mục tiêu làm cho các khái niệm khoa học dữ liệu phức tạp có thể tiếp cận được. Mối quan tâm nghề nghiệp của anh bao gồm xử lý ngôn ngữ tự nhiên, thuật toán học máy và khám phá AI mới nổi. Anh ấy được thúc đẩy bởi sứ mệnh dân chủ hóa kiến ​​thức trong cộng đồng khoa học dữ liệu. Matthew đã viết mã từ năm 6 tuổi.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img