Zephyrnet-logo

10 beste datawetenschapswebsites om datasets te vinden voor uw volgende DS-project

Datum:

Dit artikel is gepubliceerd als onderdeel van het Data Science-blogathon.

Introductie

een enthousiaste liefhebber of al een datawetenschapper die zijn of haar portfolio sterk probeert te maken door een groot aantal praktische projecten aan je cv toe te voegen? Maar heb geen idee waar je de datasets vandaan moet halen zodat je de Machine Learning-modellen kunt ontwikkelen of als je een student of een beginner bent die de data science-projecten nog niet heeft geprobeerd of als je iemand bent die dat wil zijn of haar vaardigheden naar een hoger niveau tillen door Machine Learning-modellen te ontwikkelen op verschillende complexe data?

Welnu, dit is het artikel voor jou!

In dit artikel ga ik je vertellen over 10+ repositories of websites waar je de verschillende Machine Learning- of Deep Learning-gerelateerde datasets kunt krijgen, dat wil zeggen dat je niet alleen de gestructureerde gegevens kunt krijgen, maar ook ongestructureerde gegevens zoals afbeeldingen, video's, enz. van deze repositories of websites.

Wat is er zo geweldig aan deze websites?

In de meeste gevallen bieden ze gratis gegevens aan. Ik zal in dit artikel ook de links naar deze websites geven. Dus blijf op de hoogte met ons en lees het hele artikel om uw vaardigheden op te frissen met de datasets die beschikbaar zijn op de platforms, zodat u klaar bent voor een baan.

Het belangrijkste dat u moet weten tijdens het leren van datawetenschap is:

Als je wilt excelleren op het gebied van data science, moet je altijd bedenken dat de beste manier om data science te leren is door data science toe te passen.

Dus laten we beginnen,

Vijf en dertig-acht logo

Bron afbeelding: FiveThirtyEight

Enkele belangrijke dingen die u moet weten over deze website:

– FiveThirtyEight is een interactieve nieuws- en sportsite met een aantal fantastische datavisualisaties.

– Ze stellen veel van hun gegevens beschikbaar aan het publiek, wat betekent dat je het kunt downloaden en er zelf mee kunt spelen!

– FiveThirtyEight bevat generieke pollinggegevens en gegevens voor meer specifieke vragen zoals "Hoe populair is Donald Trump?", enz.

– Ze stellen gegevens beschikbaar als CSV-bestanden op hun gegevensportaal en op GitHub, waardoor het eenvoudig is om toegang te krijgen tot opiniepeilingen en verhalende gegevens.

De Wereldbank

Het Wereldbank-logo | 10 beste datawetenschapswebsites

Bron afbeelding: De Wereldbank

– De Wereldbank financiert regelmatig initiatieven in onderontwikkelde landen en verzamelt vervolgens statistieken om hun succes te volgen.

– Zonder te registreren kunt u direct de datasets van de Wereldbank bekijken.

– Er zijn veel ontbrekende nummers in de datasets en het kan veel klikken kosten om bij de gegevens te komen.

– De Development Data Group van de Wereldbank beheert statistische en gegevensactiviteiten en onderhoudt een aantal macro-, financiële en sectordatabases.

Academische Torrents

Academische Torrents | 10 beste datawetenschapswebsites

Bron afbeelding: Academische Torrents

– Academic Torrents is een website gewijd aan de verspreiding van datasets uit wetenschappelijke studies. Het bevat een overvloed aan intrigerende datasets.

– U kunt door de datasets op de site bladeren en ze downloaden als ze voor u interessant zijn!

– Ze hebben een gedistribueerd systeem gecreëerd voor het uitwisselen van enorme datasets, bedoeld door onderzoekers voor onderzoekers.

– Het eindresultaat is een gegevensopslag die schaalbaar, veilig en fouttolerant is, met razendsnelle downloadsnelheden.

Amazon-gegevenssets

Amazon-gegevenssets | 10 beste datawetenschapswebsites

Bron afbeelding: AmazonDatasets

Enkele belangrijke dingen die u moet weten over deze website:

– Alle datasets in Amazon-datasets worden opgeslagen in Amazon S3, hun eigen objectopslagservice in de cloud.

- Dus als u de ML-modellen op AWS bouwt en gegevens nodig heeft voor de Amazon-dataset, dan zou u vrij snel toegang hebben tot de gegevens, omdat zowel Amazon-datasets als Amazon Sagemaker Machine Learning-services alleen beschikbaar zijn op AWS.

– Een Amazon-dataset bevat gegevens met betrekking tot Satelliet, Afbeeldingen, Transport, Economie, etc.

– Nu hoeft u alleen nog maar een type zoekopdracht met betrekking tot specifieke datasets in het zoekvak in te voeren en u krijgt de lijst met vereiste datasets te zien.

Google Dataset-zoekmachine

Google-dataset zoeken

Bron afbeelding: Google Datasets

Enkele belangrijke dingen die u moet weten over deze website:

- Dit is het gebouwd voor eindelijk allerlei soorten gegevens.

– Google lanceert deze geweldige dienst in 2018.

– U kunt op naam naar verschillende datasets zoeken.

– Hun doel is om tienduizenden verschillende opslagplaatsen voor datasets te verenigen en die gegevens voor iedereen vindbaar te maken.

Microsoft-gegevenssets

Microsoft-gegevenssets

Bron afbeelding: Microsoft-gegevenssets

Enkele belangrijke dingen die u moet weten over deze website:

– Het is een repository met een verscheidenheid aan open datasets die een verscheidenheid aan gegevens bevatten met betrekking tot sociale wetenschappen, informatica, natuurkunde, informatiewetenschappen, gezondheidszorg, biologie en andere soorten gegevens.

– Microsoft maakt samen met de externe onderzoeksgemeenschap de lancering van Microsoft Research Open Data ook in 2018 mogelijk.

- Het biedt ook een aantal samengestelde datasets die zijn gebruikt in gepubliceerde onderzoeksstudies.

– Hier moet u ook het type zoekopdracht met betrekking tot de specifieke dataset in het zoekvak doen en u krijgt een lijst met vereiste datasets te zien.

Quandli

10 beste datawetenschapswebsites

Bron afbeelding: Quandli

Enkele belangrijke dingen die u moet weten over deze website:

- Het bevat enkele van de zeer goede datasets om machine learning-modellen te bouwen. Volgens Quandl wordt hun platform gebruikt door meer dan 400,000 mensen, waaronder analisten van 's werelds beste hedgefondsen, vermogensbeheerders en investeringsbanken.

– Als u een Machine Learning-model moet bouwen, vrij snel vanuit een POC-perspectief of misschien een klein project en de resultaten aan uw zakelijke gebruikers wilt laten zien, dan kunt u hier de reeds opgeschoonde financiële en economische dataset vinden.

- U kunt die tijdrovende gerelateerde stappen voor het opschonen van gegevens vermijden door vanaf hier duidelijke gegevens te krijgen volgens uw behoefte.

– Een ding om te onthouden is dat hoewel sommige datasets helemaal gratis zijn, er andere datasets zijn die moeten worden gekocht.

– Het biedt ook aan om uw datasets aan duizenden institutionele beleggers te verkopen als u een eigen unieke gegevensopslag heeft, zodat u hun service kunt gebruiken voor het verkopen van de gegevens.

Reddit

Reddit | 10 beste datawetenschapswebsites

Bron afbeelding: Reddit

Enkele belangrijke dingen die u moet weten over deze website:

– U kunt uw datasets ook op Reddit invullen. Reddit is dus een populaire sociale nieuwssite, maar het heeft ook een sectie gewijd aan het delen van interessante datasets.

– Dit soort discussieborden worden subreddits of r/datasets genoemd, een plek om datasets te delen, te vinden en te bespreken.

– Ze hebben ook subreddits zoals r/DataIsBeautiful waar mensen discussies voeren met betrekking tot een verscheidenheid aan datavisualisatie en hoe men ze kan toepassen op basis van hun behoeften.

– Onder de subreddits is er r/LearnMachineLearning waar men datasets kan vinden rond gerelateerde onderwerpen van Machine Learning en Deep Learning.

Computer Vision-gerelateerde datasets

Computer vision-datasets

Bron afbeelding: VisueleData

Enkele belangrijke dingen die u moet weten over deze website:

– Dit is een zeer goede website als u op zoek bent naar gratis beeldgerelateerde datasets.

– Als u werkt aan beeldverwerking, computervisie of diep leren, dan kan dit uw heilige graal van op afbeeldingen gebaseerde gegevens zijn.

– Visuele data bevat een aantal geweldige datasets die kunnen worden gebruikt om Computer Vision of Deep Learning gerelateerde modellen te bouwen. U kunt naar een specifieke dataset zoeken met behulp van Computer Vision-onderwerpen zoals Image Captioning, Image Generation, Semantic Segmentation, etc.

– Sterker nog, je kunt ook zoeken naar oplossingen, zoals zelfrijdende auto’s. Dit kan dus uw go-to-place zijn als u uw Data Science-vaardigheden wilt aanscherpen.

Lionbridge AI-gegevenssets

Lionbridge AI-gegevenssets | 10 beste datawetenschapswebsites

Bron afbeelding: LionBridgeAIDatasets

Enkele belangrijke dingen die u moet weten over deze website:

– Deze website biedt datasets met betrekking tot robotica, spraakherkenning, tekstclassificatie, beeldverwerking, enz.

– Als u een verscheidenheid aan gegevens nodig heeft voor het bouwen van verschillende soorten Machine Learning-modellen of zelfs Deep Learning-modellen.

– Dan kunt u hier zoeken naar datasets.

– Kortom, het maakt gebruik van op AI gebaseerde Neural Machine Translation om AI-trainingsgegevens te leveren in 300 talen (NMT).

Conclusie

Dus mensen, een expert worden in datawetenschap is een lange weg. Het is niet iets dat je van de ene op de andere dag of in een maand kunt leren. U kunt deze websites, die ik in het bovenstaande deel van het artikel noemde, gebruiken wanneer u aan datacentrische projecten werkt. De meeste gegevens zijn gratis beschikbaar, zoals ik eerder al zei, hetzij via een proefperiode, hetzij volledig open voor het publiek. Dus als je je Data Science-vaardigheden wilt opfrissen of wilt versnellen op het gebied van Data Science, dan kan dit een fantastische kans zijn om kwaliteitservaring op te doen door aan deze open datasets te werken.

Bedankt voor het lezen!

Ik hoop dat je genoten hebt van het artikel. Als je het leuk vindt, deel het dan ook met je vrienden. Iets niet genoemd of wilt u uw mening delen? Voel je vrij om hieronder commentaar te geven en ik zal contact met je opnemen. 😉

Je kunt ook mijn eerdere blogberichten bekijken - Eerdere Data Science-blogberichten.

Hier is mijn Linkedin-profiel voor het geval je met mij in contact wilt komen. Ik sta graag met je in verbinding. Voor vragen kunt u mij mailen op Gmail.

De in dit artikel getoonde media zijn geen eigendom van Analytics Vidhya en worden naar goeddunken van de auteur gebruikt. 

Bron: https://www.analyticsvidhya.com/blog/2022/01/10-best-data-science-websites-to-find-datasets-for-your-next-ds-project/

spot_img

Laatste intelligentie

spot_img