Zephyrnet-logo

GoDaddy-benchmarking resulteert in een tot 24% betere prijs-prestatieverhouding voor hun Spark-workloads met AWS Graviton2 op Amazon EMR Serverless | Amazon-webservices

Datum:

Dit is een gastpost die is geschreven in samenwerking met Mukul Sharma, Software Development Engineer, en Ozcan IIikhan, Director of Engineering van GoDaddy.

GoDaddy ondersteunt alledaagse ondernemers door alle hulp en hulpmiddelen te bieden om online succesvol te zijn. Met meer dan 22 miljoen klanten wereldwijd is GoDaddy de plek waar mensen naartoe komen om hun ideeën een naam te geven, een professionele website te bouwen, klanten aan te trekken en hun werk te beheren.

GoDaddy is een datagestuurd bedrijf en door betekenisvolle inzichten uit data te halen, kunnen we zakelijke beslissingen nemen die onze klanten tevreden stellen. Bij GoDaddy zijn we aan een reis begonnen om de efficiëntiebeloften van te ontdekken AWS Graviton2 on Amazon EMR Serverloos als onderdeel van onze langetermijnvisie voor kosteneffectief intelligent computergebruik.

In dit bericht delen we de methodologie en resultaten van onze benchmarkingoefening waarbij we de kosteneffectiviteit van EMR Serverless op de arm64 (Graviton2)-architectuur vergelijken met de traditionele x86_64-architectuur. EMR Serverless op Graviton2 toonde een voordeel op het gebied van kosteneffectiviteit, resulterend in aanzienlijke besparingen op de totale bedrijfskosten. We hebben een prijs-prestatieverbetering van 23.85% bereikt voor de voorbeeldproductie van Spark-workloads; een resultaat dat een enorm potentieel biedt voor bedrijven die ernaar streven hun computerefficiëntie te maximaliseren.

Overzicht oplossingen

Het intelligente rekenplatform van GoDaddy voorziet in een vereenvoudiging van computeractiviteiten voor alle persona's, zonder de hoofdgebruikers te beperken, om out-of-box kosten- en prestatie-optimalisatie voor data- en ML-workloads te garanderen. Als onderdeel van deze visie is het Data & ML Platform-team van GoDaddy van plan om EMR Serverless te gebruiken als een van de computeroplossingen onder de motorkap.

Het volgende diagram toont een illustratie op hoog niveau van de visie op een intelligent computerplatform.

EMR-serverloos benchmarken voor GoDaddy

EMR Serverless is een serverloze optie in Amazon EMR dat elimineert de complexiteit van het configureren, beheren en schalen van clusters bij het uitvoeren van big data-frameworks zoals Apache Spark en Apache Hive. Met EMR Serverless kunnen bedrijven profiteren van tal van voordelen, waaronder kosteneffectiviteit, snellere provisioning, vereenvoudigde ontwikkelaarservaring en verbeterde veerkracht bij storingen in de Availability Zone.

Bij GoDaddy zijn we begonnen aan een uitgebreid onderzoek om EMR Serverless te benchmarken met behulp van echte productieworkflows bij GoDaddy. Het doel van het onderzoek was om de prestaties en efficiëntie van EMR Serverless te evalueren en een goed geïnformeerd adoptieplan te ontwikkelen. De resultaten van het onderzoek zijn zeer veelbelovend en laten het potentieel zien van EMR Serverless voor onze werklasten.

Nadat we overtuigende resultaten hadden geboekt ten gunste van EMR Serverless voor onze workloads, richtte onze aandacht zich op het evalueren van het gebruik van de Graviton2 (arm64) architectuur op EMR Serverless. In dit bericht concentreren we ons op het vergelijken van de prestaties van Graviton2 (arm64) met de x86_64-architectuur op EMR Serverless. Door deze vergelijkende analyse van appels tot appels uit te voeren, willen we waardevolle inzichten verkrijgen in de voordelen en overwegingen van het gebruik van Graviton2 voor onze big data-workloads.

Door EMR Serverless te gebruiken en de prestaties van Graviton2 te onderzoeken, wil GoDaddy hun big data-workflows optimaliseren en weloverwogen beslissingen nemen over de meest geschikte architectuur voor hun specifieke behoeften. De combinatie van EMR Serverless en Graviton2 biedt een opwindende kans om de gegevensverwerkingsmogelijkheden te verbeteren en de efficiëntie in onze activiteiten te vergroten.

AWS Graviton2

De Graviton2-processors zijn speciaal ontworpen door AWS en maken gebruik van krachtige 64-bit Arm Neoverse-kernen. Deze op maat gemaakte architectuur biedt een opmerkelijke prijs-prestatieverbetering voor verschillende cloudworkloads.

Qua kosten biedt Graviton2 een aantrekkelijk voordeel. Zoals aangegeven in de volgende tabel is de prijs voor Graviton2 20% lager vergeleken met de x86-architectuuroptie.

   x86_64  arm64 (Graviton2) 
per vCPU per uur $0.052624 $0.042094
per GB per uur $0.0057785 $0.004628
per opslag GB per uur* $0.000111

*Efemere opslag: 20 GB tijdelijke opslag is standaard beschikbaar voor alle werknemers. U betaalt alleen voor eventuele extra opslag die u per werknemer configureert.

Voor specifieke prijsdetails en actuele informatie, zie Amazon EMR-prijzen.

AWS-benchmark

Het AWS-team voerde benchmarktests uit op Spark-workloads met Graviton2 op EMR Serverless met behulp van de TPC-DS prestatiebenchmarks op 3 TB-schaal. De samenvatting van hun analyse is als volgt:

  • Graviton2 op EMR Serverless liet een gemiddelde verbetering van 10% zien voor Spark-workloads in termen van runtime. Dit geeft aan dat de runtime voor Spark-gebaseerde taken met ongeveer 10% werd verminderd bij gebruik van Graviton2.
  • Hoewel de meeste zoekopdrachten verbeterde prestaties lieten zien, ondervond een kleine subset van zoekopdrachten een regressie van maximaal 7% op Graviton2. Deze specifieke zoekopdrachten lieten een lichte prestatiedaling zien vergeleken met de x86-architectuuroptie.
  • Naast de prestatieanalyse hield het AWS-team rekening met de kostenfactor. Graviton2 wordt aangeboden tegen 20% lagere kosten dan de x86-architectuuroptie. Rekening houdend met dit kostenvoordeel leverde de AWS-benchmarkset een algehele 27% betere prijs-prestatieverhouding op voor workloads. Dit betekent dat gebruikers door het gebruik van Graviton2 een prestatieverbetering van 27% per kosteneenheid kunnen bereiken in vergelijking met de x86-architectuuroptie.

Deze bevindingen benadrukken de aanzienlijke voordelen van het gebruik van Graviton2 op EMR Serverless voor Spark-workloads, met verbeterde prestaties en kostenefficiëntie. Het toont het potentieel van Graviton2 bij het leveren van verbeterde prijs-prestatieverhoudingen, waardoor het een aantrekkelijke keuze is voor organisaties die hun big data-workloads willen optimaliseren.

GoDaddy-benchmark

Tijdens onze eerste experimenten hebben we vastgesteld dat arm64 op EMR Serverless consequent beter presteerde of vergelijkbaar presteerde met x86_64. Eén van de banen vertoonde een toename van 7.51% in het gebruik van hulpbronnen op arm64 vergeleken met x86_64, maar vanwege de lagere prijs van arm64 resulteerde dit nog steeds in een kostenbesparing van 13.48%. In een ander geval bereikten we een indrukwekkende verlaging van de bedrijfskosten met 43.7%, dankzij zowel de lagere prijs als het verminderde gebruik van hulpbronnen. Over het geheel genomen gaven onze eerste tests aan dat arm64 op EMR Serverless superieure prijs-kwaliteitverhouding leverde in vergelijking met x86_64. Deze veelbelovende bevindingen motiveerden ons om een ​​uitgebreider en rigoureuzer onderzoek uit te voeren.

Benchmarkresultaten

Om een ​​beter inzicht te krijgen in de waarde van Graviton2 op EMR Serverless, hebben we ons onderzoek uitgevoerd met behulp van real-life productieworkloads van GoDaddy, die volgens de planning in een dagelijks ritme moeten worden uitgevoerd. Zonder enige uitzondering is EMR Serverless op arm64 (Graviton2) aanzienlijk kosteneffectiever vergeleken met dezelfde taken die worden uitgevoerd op EMR Serverless op de x86_64-architectuur. We hebben zelfs een indrukwekkende verbetering van 23.85% in prijs-prestatieverhouding geregistreerd voor de voorbeeldopdrachten van GoDaddy met behulp van Graviton2.

Net als bij de AWS-benchmarks hebben we een lichte achteruitgang van minder dan 5% waargenomen in de totale looptijd van sommige taken. Aangezien deze taken echter worden gemigreerd van Amazon EMR op EC2 naar EMR Serverless, zal de totale totale runtime nog steeds korter zijn vanwege de minimale inrichtingstijd in EMR Serverless. Bovendien hebben we voor alle opdrachten een gemiddelde snelheidsstijging van 2.1% waargenomen, bovenop de gerealiseerde kostenbesparingen.

Deze benchmarkresultaten bieden overtuigend bewijs van de waarde en effectiviteit van Graviton2 op EMR Serverless. De combinatie van verbeterde prijs-prestaties, kortere runtimes en algemene kostenbesparingen maakt Graviton2 een zeer aantrekkelijke optie voor het optimaliseren van big data-workloads.

Benchmarking methodologie

Als uitbreiding van een groter EMR Serverless voor GoDaddy-benchmarkonderzoek, waarbij we Spark-taken in haakjes hebben verdeeld op basis van de totale runtime (snelle uitvoering, middellange termijn, lange termijn), hebben we het effect van de architectuur (arm64 vs. x86_64) gemeten op totale kosten en totale looptijd. Alle andere parameters werden hetzelfde gehouden om een ​​appel-met-appel-vergelijking te verkrijgen.

Het team volgde deze stappen:

  1. Bereid de gegevens en omgeving voor.
  2. Kies twee willekeurige productietaken uit elke taakgroep.
  3. Breng de nodige wijzigingen aan om gevolgtrekkingen met de daadwerkelijke productie-outputs te voorkomen.
  4. Voer tests uit om scripts over meerdere iteraties uit te voeren om nauwkeurige en consistente gegevenspunten te verzamelen.
  5. Valideer invoer- en uitvoergegevenssets, partities en rijtellingen om identieke gegevensverwerking te garanderen.
  6. Verzamel relevante statistieken uit de tests.
  7. Analyseer de resultaten om inzichten en conclusies te trekken.

De volgende tabel toont de samenvatting van een voorbeeld van een Spark-taak.

metrisch  EMR serverloos (gemiddeld) – X86_64  EMR serverloos (gemiddeld) – Graviton  X86_64 versus Graviton (% verschil) 
Totale exploitatiekosten $2.76 $1.85 32.97%

Totale looptijd

(uu:mm:ss)

00:41:31 00:34:32 16.82%
EMR-vrijgavelabel emr-6.9.0
Type baan Vonk
Spark-versie Vonk 3.3.0
Hadoop-distributie Amazon 3.3.3
Hive/HCatalog-versie Hive 3.1.3, HCatalog 3.1.3

Samenvatting van de resultaten

De volgende tabel toont een vergelijking van de taakprestaties tussen EMR Serverless op arm64 (Graviton2) en EMR Serverless op x86_64. Voor elke architectuur werd elke taak minstens drie keer uitgevoerd om de nauwkeurige gemiddelde kosten en looptijd te verkrijgen.

 Jobomschrijving:  Gemiddelde x86_64-kosten Gemiddelde arm64-kosten Gemiddelde x86_64 looptijd (uu:mm:ss) Gemiddelde arm64-looptijd (uu:mm:ss)  Gemiddelde kostenbesparingen %  Gemiddelde prestatiewinst % 
1 $1.64 $1.25 00:08:43 00:09:01 23.89% -3.24%
2 $10.00 $8.69 00:27:55 00:28:25 13.07% -1.79%
3 $29.66 $24.15 00:50:49 00:53:17 18.56% -4.85%
4 $34.42 $25.80 01:20:02 01:24:54 25.04% -6.08%
5 $2.76 $1.85 00:41:31 00:34:32 32.97% 16.82%
6 $34.07 $24.00 00:57:58 00:51:09 29.57% 11.76%
Gemiddelde  23.85% 2.10%

Houd er rekening mee dat de verbeteringsberekeningen gebaseerd zijn op resultaten met hogere precisie voor meer nauwkeurigheid.

Conclusie

Op basis van dit onderzoek heeft GoDaddy een significante verbetering van 23.85% waargenomen in de prijs-prestatieverhouding voor Spark-taken die gebruik maken van de arm64-architectuur, vergeleken met de x86_64-architectuur. Deze overtuigende resultaten hebben ertoe geleid dat we interne teams sterk hebben aanbevolen om arm64 (Graviton2) op EMR Serverless te gebruiken, behalve in gevallen waarin er compatibiliteitsproblemen zijn met pakketten en bibliotheken van derden. Door een arm64-architectuur te adopteren kunnen organisaties een verbeterde kosteneffectiviteit en prestatie voor hun werklasten bereiken, wat bijdraagt ​​aan efficiëntere gegevensverwerking en -analyse.


Over de auteurs

Mukul Sharma is een Software Development Engineer voor Data & Analytics (DNA)-organisatie bij GoDaddy. Hij is een meertalige programmeur met ervaring in een breed scala aan technologieën om snel schaalbare oplossingen te leveren. Hij zingt graag karaoke, speelt verschillende bordspellen en werkt in zijn vrije tijd aan persoonlijke programmeerprojecten.

Ozcan Ilikhan is Director of Engineering on Data & Analytics (DNA) bij GoDaddy. Hij heeft een passie voor het oplossen van klantproblemen en het verhogen van de efficiëntie met behulp van data en ML/AI. In zijn vrije tijd houdt hij van lezen, wandelen, tuinieren en werken aan doe-het-zelf-projecten.

Harde Vardhan Singh Gaur is een AWS Solutions Architect, gespecialiseerd in analyse. Hij heeft meer dan 6 jaar ervaring op het gebied van big data en data science. Hij is gepassioneerd om klanten te helpen bij het toepassen van best practices en het ontdekken van inzichten uit hun data.

Ramesh Kumar Venkatraman is een Senior Solutions Architect bij AWS met een passie voor containers en databases. Hij werkt samen met AWS-klanten om hun AWS-workloads en -architecturen te ontwerpen, implementeren en beheren. In zijn vrije tijd speelt hij graag met zijn twee kinderen en volgt hij cricket.

spot_img

Laatste intelligentie

spot_img