Zephyrnet-logo

Hoe de eerste Amazon Elastic MapReduce (EMR) te lanceren?

Datum:

Introductie

Amazon Elastic MapReduce (EMR) is een volledig beheerde service die het gemakkelijk maakt om grote hoeveelheden gegevens te verwerken met behulp van het populaire open-sourceframework Apache Hadoop. Met EMR kunt u datawarehouses en analyseworkloads op petabyte-schaal uitvoeren met behulp van de Apache Spark-, Presto- en Hadoop-ecosystemen.

AWS EPD

Amazon Elastic MapReduce (EMR) is ontworpen om flexibel en gebruiksvriendelijk te zijn. Hiermee kunt u snel een big data-omgeving opzetten en schalen zonder dat u zich zorgen hoeft te maken over infrastructuur en onderhoud. EMR kan worden gebruikt om gegevens te verwerken die zijn opgeslagen in Amazon S3, Amazon RDS, Amazon DynamoDB en Amazon Redshift, evenals op uw on-premises gegevensbronnen.

EMR biedt veel krachtige tools en functies om u te helpen bij het verwerken en analyseren van uw gegevens, waaronder het uitvoeren van aangepaste scripts, integratie met andere AWS-services en het instellen van automatische schaling. Met EMR kunt u veel big data-taken efficiënt uitvoeren, zoals datatransformatie, machine learning, real-time verwerking en meer.

Voordelen van het gebruik van Amazon Elastic MapReduce (EMR)

AWS EMR-voordelen
Er zijn verschillende redenen waarom u ervoor zou kunnen kiezen om Amazon Elastic MapReduce (EMR) te gebruiken voor de verwerking van big data:

  • Volledig beheerde service: EMR is een volledig beheerde service die zorgt voor uw onderliggende infrastructuur en onderhoud. Dit betekent dat u zich kunt concentreren op het verwerken en analyseren van uw gegevens in plaats van u zorgen te maken over het opzetten en onderhouden van een big data-omgeving.
  • Schaalbaarheid: EMR maakt het gemakkelijk om uw big data-verwerkingsbehoeften naar behoefte naar boven of naar beneden te schalen. U kunt eenvoudig instanties toevoegen aan of verwijderen uit uw cluster om aan veranderende eisen te voldoen.
  • Integratie met andere AWS-services: EMR integreert naadloos met andere AWS-services, zoals Amazon S3, Amazon RDS, Amazon DynamoDB en Amazon Redshift. Dit maakt het gemakkelijk om gegevens die in deze services zijn opgeslagen te verwerken en te analyseren.
  • Breed scala aan tools en frameworks: EMR biedt tools en frameworks voor de verwerking en analyse van big data, waaronder Apache Spark, Presto en Hadoop. Dit geeft u veel flexibiliteit en keuze bij het verwerken en analyseren van uw data.
  • Aanpassingsopties: Met EMR kunt u uw cluster aanpassen door extra toepassingen of bibliotheken te installeren of aangepaste scripts uit te voeren. Hierdoor kunt u uw big data-omgeving afstemmen op uw specifieke behoeften.

Stapsgewijs proces om Amazon Elastic MapReduce (EMR) op AWS te lanceren

Om een ​​Amazon Elastic MapReduce (EMR)-cluster te starten, moet u deze stappen volgen:

Stap 1. Log in op de AWS Beheerconsole en navigeer naar de EMR-servicepagina.

Stap 2. Klik op de knop “Create cluster” om een ​​nieuw EMR-cluster aan te maken.

Amazon Elastic MapReduce (EMR)

Stap 3. Kies op de pagina "Configuratie selecteren" de software- en instantietypen die u voor uw cluster wilt gebruiken. U kunt ook het aantal exemplaren en de grootte van de exemplaren specificeren.

Amazon Elastic MapReduce (EMR)

Als u uw cluster aan een jupyter-notebook wilt koppelen, moet u ook de "JupyterEnterpriseGateway" controleren (zie de onderstaande momentopname)

Amazon Elastic MapReduce (EMR)

Stap 4. Kies op de pagina "Hardwareconfiguratie" het type hardware dat u voor uw cluster wilt gebruiken. U kunt kiezen tussen on-demand instances of spot-instances.

Amazon Elastic MapReduce (EMR)

Amazon Elastic MapReduce (EMR)

Stap 5. Geef op de pagina "Algemene clusterinstellingen" de naam en logboekopties van uw cluster op. U kunt extra toepassingen of bibliotheken opgeven die u op uw cluster wilt installeren.

Amazon Elastic MapReduce (EMR)

Stap 6. Geef op de pagina "Beveiliging en toegang" de beveiligingsinstellingen voor uw cluster op. U kunt een bestaande beveiligingsgroep gebruiken of een nieuwe maken. Geef ook het te gebruiken EC2-sleutelpaar op. Klik na het voltooien van deze stap op een cluster maken.

Amazon Elastic MapReduce (EMR)

Nadat uw cluster is gelanceerd, hebt u er toegang toe via de EMR-console of met behulp van de AWS CLI of SDK's. Vervolgens kunt u de tools en frameworks van EMR gebruiken om uw gegevens te verwerken en te analyseren.

Een Pyspark-script uitvoeren op Amazon Elastic MapReduce (EMR)

Nu zullen we zien hoe we een voorbeeld van een pyspark-script op EMR kunnen uitvoeren. Hier is ons voorbeeld van een pyspark-script:

Een pyspark-script uitvoeren op EMR

Allereerst moet u via SSH verbinding maken met het hoofdknooppunt. Open een terminal waar uw EC2-sleutelpaar zich bevindt. Klik nu op "Verbinding maken met het hoofdknooppunt via SSH

Een pyspark-script uitvoeren op EMR

Kopieer nu de opdracht en plak deze in de terminal.

Een pyspark-script uitvoeren op EMR

Als het hoofdknooppunt met succes is verbonden, ziet u zoiets als dit:

Een pyspark-script uitvoeren op EMR

Om nu het pyspark-script dat u op uw lokale computer hebt naar EMR te uploaden, opent u een andere terminal en voert u de volgende opdracht uit:

scp -i ./my_ec2_key_pair.pem voorbeeldPysparkScript.py [e-mail beveiligd]:~/

Een pyspark-script uitvoeren op EMR

Nu is uw dossier geüpload op EMR; je kunt dit bevestigen door deze opdracht in de terminal uit te voeren:

Een pyspark-script uitvoeren op EMR

Om het script op EMR uit te voeren, voert u gewoon "spark-submit samplePysparkScript.py" uit

Een pyspark-script uitvoeren op EMR

Dit is de uitvoer:

Een pyspark-script uitvoeren op EMR

Wanneer u klaar bent met uw cluster, kunt u deze beëindigen om te voorkomen dat er kosten in rekening worden gebracht. Als u dit cluster opnieuw wilt gebruiken, kunt u het cluster selecteren uit de lijst "Clusters" en op "Klonen" klikken met of zonder de eerder gekozen instellingen te wijzigen.

Conclusie

Om alles samen te vatten wat tot nu toe is gezegd: Amazon Elastic MapReduce (EMR) is een krachtige en gebruiksvriendelijke service voor het verwerken van big data waarmee u snel en efficiënt grote hoeveelheden gegevens in de cloud kunt verwerken en analyseren. Met zijn brede scala aan tools en frameworks, schaalbaarheid en integratie met andere AWS-services, is EMR een uitstekende keuze voor bedrijven van elke omvang die grote hoeveelheden gegevens moeten verwerken en analyseren.

spot_img

Laatste intelligentie

spot_img