Logo Zephyrnet

Ba thư viện R mà mọi nhà khoa học dữ liệu nên biết (ngay cả khi bạn sử dụng Python)

Ngày:

By Terence Shin, Nhà khoa học dữ liệu | MSc Analytics & sinh viên MBA


Ba thư viện R mà mọi nhà khoa học dữ liệu nên biết (ngay cả khi bạn sử dụng Python)
Photo by Denis Pavlovic on Unsplash

Giới thiệu

 
 
Trong thời gian dài nhất, tôi đã phản đối việc sử dụng R không vì lý do gì khác ngoài thực tế rằng nó không phải là Python.

Nhưng sau khi chơi với R trong vài tháng qua, tôi nhận ra rằng R vượt trội hơn Python trong một số trường hợp sử dụng, đặc biệt là đối với các phân tích thống kê. Ngoài ra, R có một số gói mạnh mẽ được xây dựng bởi các công ty công nghệ lớn nhất thế giới và họ không phải bằng Python!

Và vì vậy, trong bài viết này, tôi muốn xem xét ba gói R mà tôi cao giới thiệu mà bạn dành thời gian để tìm hiểu và trang bị trong kho công cụ của mình vì chúng thực sự là những công cụ mạnh mẽ.

Không cần nói thêm, đây là ba gói R mà mọi nhà khoa học dữ liệu nên biết, NGAY CẢ NẾU BẠN CHỈ SỬ DỤNG PYTHON:

  1. Tác động Nhân quả với Google
  2. Robyn w / Facebook
  3. Phát hiện bất thường w / Twitter

 
 
Giả sử công ty của bạn đã tung ra một quảng cáo truyền hình mới cho Super Bowl và họ muốn xem nó tác động như thế nào đến chuyển đổi. Phân tích tác động nhân quả cố gắng dự đoán điều gì sẽ xảy ra nếu chiến dịch không bao giờ xảy ra - điều này được gọi là phản thực tế.


Ba thư viện R mà mọi nhà khoa học dữ liệu nên biết (ngay cả khi bạn sử dụng Python)
Hình ảnh do tác giả tạo

 

Để đưa ra một ví dụ thực tế về tác động của Nhân quả, nó cố gắng dự đoán điều ngược lại, tức là đường chấm màu xanh lam trong biểu đồ trên cùng, sau đó nó so sánh các giá trị thực tế với giá trị phản thực tế để ước tính delta.

Tác động nhân quả cực kỳ hữu ích cho các sáng kiến ​​tiếp thị, mở rộng sang các khu vực mới, thử nghiệm các tính năng sản phẩm mới và hơn thế nữa!

 
 
Lập mô hình kết hợp tiếp thị là một kỹ thuật hiện đại được sử dụng để ước tính tác động của một số kênh hoặc chiến dịch tiếp thị lên một biến mục tiêu, như chuyển đổi hoặc bán hàng.

Mô hình tiếp thị kết hợp (MMM) cực kỳ phổ biến, hơn cả mô hình phân bổ, vì chúng cho phép bạn đo lường tác động của các kênh không thể đo lường được như TV, biển quảng cáo và đài phát thanh.

Thông thường, các Mô hình Tiếp thị Kết hợp mất nhiều tháng để xây dựng từ đầu. Nhưng Facebook đã tạo ra một gói R mới, được gọi là Robyn, có thể tạo ra một MMM mạnh mẽ trong vài phút.


Ba thư viện R mà mọi nhà khoa học dữ liệu nên biết (ngay cả khi bạn sử dụng Python)
Hình ảnh do tác giả tạo

 

Bạn không chỉ có thể đánh giá hiệu quả của từng kênh tiếp thị với Robyn mà còn có thể tối ưu hóa ngân sách tiếp thị của mình với nó!

Hãy chắc chắn để Đăng ký tại đây và với tôi bản tin cá nhân để không bao giờ bỏ lỡ một bài viết khác về hướng dẫn, thủ thuật và mẹo về khoa học dữ liệu, bài học cuộc sống và hơn thế nữa!

 
 
Phát hiện bất thường, còn được gọi là phân tích ngoại lệ, là một phương pháp xác định các điểm dữ liệu khác biệt đáng kể so với phần còn lại của dữ liệu.

Một tập hợp con của phát hiện bất thường chung là phát hiện bất thường trong dữ liệu chuỗi thời gian, đó là một vấn đề duy nhất vì bạn cũng phải xem xét xu hướng và tính thời vụ của dữ liệu.


Ba thư viện R mà mọi nhà khoa học dữ liệu nên biết (ngay cả khi bạn sử dụng Python)
Hình ảnh do tác giả tạo

 

Twitter đã giải quyết vấn đề này bằng cách tạo một gói phát hiện bất thường thực hiện tất cả cho bạn. Đó là một thuật toán phức tạp có thể xác định các điểm bất thường toàn cục và cục bộ. Ngoài chuỗi thời gian, nó cũng có thể được sử dụng để phát hiện sự bất thường trong vectơ giá trị.

 
Cảm ơn vì đã đọc!

Nếu bạn thích điều này, hãy chắc chắn Đăng ký tại đây và với tôi bản tin độc quyền để không bao giờ bỏ lỡ một bài viết khác về hướng dẫn, thủ thuật và mẹo về khoa học dữ liệu, bài học cuộc sống và hơn thế nữa!

Bạn không chắc chắn nên đọc gì tiếp theo? Tôi đã chọn một bài báo khác cho bạn: 10 hình ảnh trực quan dữ liệu tốt nhất năm 2021

và một cái khác: Tất cả các thuật toán học máy bạn nên biết vào năm 2022
 

Terence Shin

 
Tiểu sử: Terence Shin là một người đam mê dữ liệu với hơn 3 năm kinh nghiệm về SQL và hơn 2 năm kinh nghiệm về Python, đồng thời là một blogger về Hướng tới Khoa học Dữ liệu và KDnuggets.

Nguyên. Đăng lại với sự cho phép.

Nguồn: https://www.kdnuggets.com/2021/12/three-r-libraries-every-data-scientist-know-even-python.html

tại chỗ_img

Tin tức mới nhất

tại chỗ_img