Logo Zephyrnet

10 trang web khoa học dữ liệu tốt nhất để tìm bộ dữ liệu cho Dự án DS tiếp theo của bạn

Ngày:

Bài báo này đã được xuất bản như một phần của Blogathon Khoa học Dữ liệu.

Giới thiệu

người đam mê khoa học hay đã là Nhà khoa học dữ liệu đang cố gắng làm cho danh mục đầu tư của mình trở nên mạnh mẽ bằng cách thêm nhiều dự án thực hành vào sơ yếu lý lịch của bạn? Nhưng bạn không biết cách lấy các bộ dữ liệu để có thể phát triển các mô hình Machine Learning hoặc Nếu bạn là sinh viên hoặc người mới bắt đầu chưa thử sức mình với các dự án khoa học dữ liệu hoặc Nếu bạn là người muốn nâng cao kỹ năng của mình ở cấp độ tiếp theo bằng cách phát triển các mô hình Machine Learning trên nhiều dữ liệu phức tạp khác nhau?

Vâng, đây là bài viết dành cho bạn!

Trong bài viết này, tôi sẽ kể cho bạn về hơn 10 kho lưu trữ hoặc trang web từ đó bạn có thể lấy các bộ dữ liệu liên quan đến Machine Learning hoặc Deep Learning mà bạn không chỉ lấy được dữ liệu có cấu trúc mà còn cả dữ liệu phi cấu trúc như hình ảnh, video, v.v. từ các kho lưu trữ hoặc trang web này.

Có gì tuyệt vời về những trang web này?

Họ cung cấp dữ liệu miễn phí trong hầu hết các trường hợp. Tôi cũng sẽ cung cấp các liên kết đến các trang web này trong bài viết này. Vì vậy, hãy theo dõi chúng tôi và đọc toàn bộ bài viết để nâng cao kỹ năng của bạn trên các bộ dữ liệu có sẵn trên nền tảng để bạn có thể sẵn sàng cho công việc.

Điều chính mà bạn nên biết khi học Khoa học dữ liệu là:

Nếu bạn muốn xuất sắc trong lĩnh vực khoa học dữ liệu thì hãy luôn nhớ rằng cách tốt nhất để học khoa học dữ liệu là áp dụng khoa học dữ liệu.

Vậy hãy bắt đầu,

Logo Năm Ba Mươi Tám

Hình ảnh Nguồn: FiveThirtyEight

Một số điều quan trọng bạn nên biết về trang web này:

– FiveThirtyEight là một trang web tương tác về tin tức và thể thao với một số hình ảnh trực quan hóa dữ liệu tuyệt vời.

– Họ cung cấp rất nhiều dữ liệu của mình cho công chúng, điều đó có nghĩa là bạn có thể tải xuống và tự mình sử dụng!

– FiveThirtyEight bao gồm dữ liệu thăm dò chung cũng như dữ liệu cho các truy vấn cụ thể hơn như “Donald Trump được yêu thích đến mức nào?”, v.v.

– Họ cung cấp dữ liệu dưới dạng tệp CSV trên cổng dữ liệu của họ và trên GitHub, giúp việc truy cập dữ liệu thăm dò ý kiến ​​và tường thuật trở nên đơn giản.

Ngân hàng quốc tế

Logo Ngân hàng Thế giới | 10 trang web khoa học dữ liệu tốt nhất

Hình ảnh Nguồn: Ngân hàng quốc tế

– Ngân hàng Thế giới thường xuyên tài trợ cho các sáng kiến ​​ở các quốc gia kém phát triển, sau đó thu thập số liệu thống kê để theo dõi sự thành công của chúng.

– Không cần đăng ký, bạn có thể xem trực tiếp bộ dữ liệu của Ngân hàng Thế giới.

– Có nhiều số bị thiếu trong tập dữ liệu và việc lấy dữ liệu có thể mất nhiều lần nhấp chuột.

– Nhóm Dữ liệu Phát triển của Ngân hàng Thế giới quản lý các hoạt động thống kê, dữ liệu cũng như duy trì một số cơ sở dữ liệu vĩ mô, tài chính và ngành.

Torrent học thuật

Torrent học thuật | 10 trang web khoa học dữ liệu tốt nhất

Hình ảnh Nguồn: Torrent học thuật

– Academic Torrents là một trang web chuyên phân phối các bộ dữ liệu từ các nghiên cứu học thuật. Nó chứa rất nhiều bộ dữ liệu hấp dẫn.

– Bạn có thể duyệt các tập dữ liệu trên trang web và tải chúng xuống nếu bạn quan tâm!

– Họ đã tạo ra một hệ thống phân tán để trao đổi các bộ dữ liệu khổng lồ, được các nhà nghiên cứu dành cho các nhà nghiên cứu.

– Kết quả cuối cùng là một kho lưu trữ dữ liệu có khả năng mở rộng, an toàn và có khả năng chịu lỗi với tốc độ tải xuống nhanh như chớp.

Bộ dữ liệu Amazon

Bộ dữ liệu Amazon | 10 trang web khoa học dữ liệu tốt nhất

Hình ảnh Nguồn: Bộ dữ liệu Amazon

Một số điều quan trọng bạn nên biết về trang web này:

– Tất cả các tập dữ liệu trong bộ dữ liệu của Amazon được lưu trữ trong Amazon S3, đây là dịch vụ lưu trữ đối tượng của riêng họ trên đám mây.

– Vì vậy, nếu bạn đang xây dựng các mô hình ML trên AWS và có nhu cầu dữ liệu cho tập dữ liệu amazon thì bạn sẽ có thể truy cập dữ liệu khá nhanh vì cả tập dữ liệu amazon và dịch vụ Machine Learning của amazon sagemaker đều chỉ khả dụng trên AWS.

– Bộ dữ liệu của amazon chứa dữ liệu liên quan đến Vệ tinh, Hình ảnh, Giao thông vận tải, Kinh tế, v.v.

– Bây giờ, tất cả những gì bạn cần làm là nhập loại truy vấn tìm kiếm liên quan đến các tập dữ liệu cụ thể vào hộp tìm kiếm và bạn sẽ thấy danh sách các tập dữ liệu được yêu cầu.

Công cụ tìm kiếm tập dữ liệu của Google

Tìm kiếm tập dữ liệu của Google

Hình ảnh Nguồn: Bộ dữ liệu của Google

Một số điều quan trọng bạn nên biết về trang web này:

– Đây là công cụ được xây dựng cho tất cả các loại dữ liệu.

– Google ra mắt dịch vụ tuyệt vời này vào năm 2018.

– Bạn có thể tìm kiếm nhiều bộ dữ liệu theo tên.

– Mục đích của họ là thống nhất hàng chục nghìn kho lưu trữ khác nhau cho các bộ dữ liệu và làm cho mọi người có thể khám phá dữ liệu đó.

Bộ dữ liệu của Microsoft

Bộ dữ liệu của Microsoft

Hình ảnh Nguồn: Bộ dữ liệu của Microsoft

Một số điều quan trọng bạn nên biết về trang web này:

– Là kho chứa nhiều bộ dữ liệu mở chứa nhiều loại dữ liệu liên quan đến Khoa học xã hội, Khoa học máy tính, Vật lý, Khoa học thông tin, Chăm sóc sức khỏe, Sinh học cũng như các loại dữ liệu khác.

– Microsoft cùng với cộng đồng nghiên cứu bên ngoài cũng cho phép ra mắt dữ liệu mở nghiên cứu của Microsoft vào năm 2018.

– Nó cũng cung cấp một loạt các bộ dữ liệu được tuyển chọn đã được sử dụng trong các nghiên cứu được công bố.

– Ở đây bạn cũng cần làm loại truy vấn tìm kiếm liên quan đến tập dữ liệu cụ thể trong hộp tìm kiếm và bạn sẽ được cung cấp danh sách các tập dữ liệu được yêu cầu.

quandl

10 trang web khoa học dữ liệu tốt nhất

Hình ảnh Nguồn: quandl

Một số điều quan trọng bạn nên biết về trang web này:

– Nó chứa một số bộ dữ liệu rất tốt để xây dựng các mô hình học máy. Theo Quandl, nền tảng của họ được hơn 400,000 người sử dụng, bao gồm các nhà phân tích từ các quỹ phòng hộ, nhà quản lý tài sản và ngân hàng đầu tư hàng đầu thế giới.

– Nếu bạn cần xây dựng mô hình Machine Learning khá nhanh chóng từ góc độ POC hoặc có thể là một dự án nhỏ và hiển thị kết quả cho người dùng doanh nghiệp của mình thì bạn có thể tìm thấy bộ dữ liệu kinh tế và tài chính đã được làm sạch tại đây.

– Bạn có thể tránh các bước làm sạch dữ liệu liên quan tốn thời gian đó bằng cách lấy dữ liệu rõ ràng theo nhu cầu của bạn từ đây.

– Một điều cần nhớ ở đây là mặc dù một số bộ dữ liệu hoàn toàn miễn phí nhưng vẫn có những bộ dữ liệu khác cần phải mua.

– Nó cũng đề nghị bán tập dữ liệu của bạn cho hàng nghìn Nhà đầu tư tổ chức nếu trong trường hợp bạn có kho lưu trữ dữ liệu duy nhất của riêng mình để bạn có thể sử dụng dịch vụ của họ để bán dữ liệu.

Reddit

Reddit | 10 trang web khoa học dữ liệu tốt nhất

Hình ảnh Nguồn: Reddit

Một số điều quan trọng bạn nên biết về trang web này:

– Bạn cũng có thể điền vào bộ dữ liệu của mình trên Reddit. Vì vậy, Reddit là một trang tin tức xã hội phổ biến nhưng nó cũng có một phần dành riêng để chia sẻ các bộ dữ liệu thú vị.

– Các loại diễn đàn thảo luận này được gọi là subreddits hoặc r/datasets là nơi chia sẻ, tìm kiếm và thảo luận về các bộ dữ liệu.

– Họ cũng có các subreddits như r/DataIsBeautiful nơi mọi người thảo luận liên quan đến nhiều cách trực quan hóa dữ liệu và cách người ta có thể áp dụng chúng theo nhu cầu của họ.

– Trong subreddits, có r/LearnMachineLearning nơi người ta có thể tìm thấy các bộ dữ liệu xung quanh các chủ đề liên quan đến Machine Learning và Deep Learning.

Bộ dữ liệu liên quan đến thị giác máy tính

Bộ dữ liệu thị giác máy tính

Hình ảnh Nguồn: Dữ liệu trực quan

Một số điều quan trọng bạn nên biết về trang web này:

– Đây là một trang web rất tốt nếu bạn đang tìm kiếm bộ dữ liệu miễn phí liên quan đến hình ảnh.

– Nếu bạn đang làm việc về Xử lý hình ảnh, Thị giác máy tính hoặc Học sâu, thì đây có thể là chén thánh dữ liệu dựa trên hình ảnh của bạn.

– Dữ liệu trực quan chứa một số bộ dữ liệu tuyệt vời có thể được sử dụng để xây dựng các mô hình liên quan đến Thị giác máy tính hoặc Học sâu. Bạn có thể tìm kiếm một tập dữ liệu cụ thể bằng cách sử dụng các chủ đề Thị giác máy tính như Chú thích hình ảnh, Tạo hình ảnh, Phân đoạn ngữ nghĩa, v.v.

– Trên thực tế, bạn cũng có thể tìm kiếm các giải pháp, chẳng hạn như xe tự lái. Vì vậy, đây có thể là nơi bạn nên đến nếu bạn muốn trau dồi Kỹ năng Khoa học Dữ liệu của mình.

Bộ dữ liệu AI của Lionbridge

Bộ dữ liệu AI của Lionbridge | 10 trang web khoa học dữ liệu tốt nhất

Hình ảnh Nguồn: LionBridgeAIBộ dữ liệu

Một số điều quan trọng bạn nên biết về trang web này:

– Trang web này cung cấp các bộ dữ liệu liên quan đến Robotics, Nhận dạng giọng nói, Phân loại văn bản, Xử lý hình ảnh, v.v.

– Nếu bạn có nhiều dữ liệu cần thiết để xây dựng các loại mô hình Machine Learning khác nhau hoặc thậm chí các mô hình Deep Learning.

– Sau đó, bạn có thể thử tìm kiếm bộ dữ liệu tại đây.

– Về cơ bản, nó sử dụng Dịch máy thần kinh dựa trên AI để cung cấp dữ liệu đào tạo AI bằng 300 ngôn ngữ (NMT).

Kết luận

Vì vậy, các bạn, để trở thành một chuyên gia về Khoa học dữ liệu là một chặng đường dài. Đó không phải là thứ bạn có thể học qua đêm hoặc trong một tháng. Bạn có thể sử dụng các trang web mà tôi đã đề cập ở phần trên của bài viết khi làm việc trong các dự án tập trung vào dữ liệu. Hầu hết dữ liệu đều có sẵn miễn phí như tôi đã đề cập trước đó trong thời gian dùng thử hoặc hoàn toàn mở cho công chúng. Vì vậy, nếu bạn muốn nâng cao kỹ năng Khoa học dữ liệu của mình hoặc tăng tốc trong lĩnh vực Khoa học dữ liệu, thì đây có thể là cơ hội tuyệt vời để có được trải nghiệm chất lượng bằng cách làm việc trên các bộ dữ liệu mở này.

Nhờ đọc!

Tôi hy vọng rằng bạn đã thích bài viết này. Nếu bạn thích nó, hãy chia sẻ nó với bạn bè của bạn. Điều gì đó chưa được đề cập hoặc muốn chia sẻ suy nghĩ của bạn? Hãy bình luận bên dưới và tôi sẽ liên lạc lại với bạn. 😉

Bạn cũng có thể kiểm tra các bài đăng trên blog trước đây của tôi – Các bài đăng trên Blog Khoa học Dữ liệu trước đây.

Đây là hồ sơ Linkedin của tôi trong trường hợp bạn muốn kết nối với tôi. Tôi sẽ rất vui khi được kết nối với bạn. Đối với bất kỳ truy vấn nào, bạn có thể gửi thư cho tôi trên Gmail.

Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định riêng của Tác giả. 

Nguồn: https://www.analyticsvidhya.com/blog/2022/01/10-best-data-science-websites-to-find-datasets-for-your-next-ds-project/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?