Zephyrnet-logo

Hoe Wallapop de prestaties van analytische workloads verbeterde met Amazon Redshift Serverless en het delen van gegevens | Amazon-webservices

Datum:

Amazon roodverschuiving is een snel, volledig beheerd datawarehouse in de cloud waarmee u eenvoudig en kosteneffectief al uw gegevens op petabyte-schaal kunt analyseren, met behulp van standaard SQL en uw bestaande business intelligence (BI)-tools. Tegenwoordig draaien tienduizenden klanten bedrijfskritische workloads op Amazon Redshift.

Amazon Redshift Serverloos maakt het moeiteloos uitvoeren en schalen van analyseworkloads zonder dat u een datawarehouse-infrastructuur hoeft te beheren.

Redshift Serverless voorziet automatisch de datawarehouse-capaciteit en schaalt deze op intelligente wijze om snelle prestaties te leveren voor zelfs de meest veeleisende en onvoorspelbare workloads, en u betaalt alleen voor wat u gebruikt.

Dit is ideaal wanneer het moeilijk is om rekenbehoeften te voorspellen, zoals variabele werkbelastingen, periodieke werkbelastingen met inactieve tijd en stabiele werkbelastingen met pieken. Naarmate uw vraag evolueert met nieuwe workloads en meer gelijktijdige gebruikers, voorziet Redshift Serverless automatisch de juiste computerbronnen, en schaalt uw datawarehouse naadloos en automatisch.

Amazon Redshift-gegevens delen Hiermee kunt u veilig live, transactioneel consistente gegevens delen in het ene Redshift-datawarehouse met een ander Redshift-datawarehouse (ingericht of serverloos) tussen accounts en regio's zonder dat u gegevens van het ene datawarehouse naar het andere hoeft te kopiëren, repliceren of verplaatsen.

Met het delen van Amazon Redshift-gegevens kunt u uw Amazon Redshift-implementatiearchitecturen evolueren naar een hub-and-spoke- of datamesh-model om beter te voldoen aan prestatie-SLA's, werklastisolatie te bieden, groepsoverschrijdende analyses uit te voeren en nieuwe gebruiksscenario's te ontwikkelen, allemaal zonder de complexiteit van gegevensverplaatsing en gegevenskopieën.

In dit bericht laten we zien hoe Wallapop Redshift Serverless en het delen van gegevens heeft gebruikt om hun datawarehouse-architectuur te moderniseren.

Wallapop's initiële data-architectuurplatform

Wallapop is een Spaans e-commerce marktplaatsbedrijf dat zich richt op tweedehands artikelen, opgericht in 2013. Elke dag ontvangen ze ongeveer 300,000 nieuwe artikelen van kopers die aan hun catalogus kunnen worden toegevoegd. De marktplaats is toegankelijk via de mobiele app of website.

Het gemiddelde maandelijkse verkeer bedraagt ​​ongeveer 15 miljoen actieve gebruikers. Sinds de oprichting in 2013 zijn er meer dan 40 miljoen downloads bereikt en zijn er meer dan 700 miljoen producten vermeld.

Amazon Redshift speelt een centrale rol in hun dataplatform op AWS voor opname, ETL (extract, transform, and load), machine learning (ML) en consumptieworkloads die hun inzichtconsumptie uitvoeren om de besluitvorming te stimuleren.

De initiële architectuur bestaat uit één door Redshift ingericht hoofdcluster dat alle werklasten afhandelde, zoals geïllustreerd in het volgende diagram. Hun cluster werd ingezet met 8 knooppunten ra3.4xlarge en gelijktijdigheid schaling ingeschakeld.

Wallapop had drie belangrijke gebieden die verbeterd moesten worden in hun initiële data-architectuurplatform:

  • Uitdagingen voor het isoleren van werklasten met groeiende datavolumes en nieuwe werklasten die parallel worden uitgevoerd
  • Administratieve lasten voor data-engineeringteams om de gelijktijdige werklast te beheren, vooral tijdens piekuren
  • Kosten-prestatieverhouding tijdens het schalen tijdens piekperioden

De verbeterpunten waren vooral gericht op de prestaties van dataconsumptie-workloads in combinatie met de BI- en analytics-consumptietool, waarbij een hoge mate van gelijktijdigheid van query's van invloed was op de uiteindelijke analysevoorbereiding en het inzichtenverbruik ervan.

Overzicht oplossingen

Om hun dataplatformarchitectuur te verbeteren, ontwierp en bouwde Wallapop een nieuwe gedistribueerde aanpak met Amazon Redshift met de steun van AWS.

De clustergrootte van het ingerichte datawarehouse is niet gewijzigd. Wat er veranderde, was het verlagen van de gelijktijdigheidsschaling naar 1 uur, wat in het Free Tier-gebruik valt voor elke 24 uur gebruik van het hoofdcluster. Het volgende diagram illustreert de doelarchitectuur.

Oplossingsdetails

De nieuwe dataplatformarchitectuur combineert Redshift Serverless en ingerichte datawarehouses met het delen van Amazon Redshift-gegevens, waardoor Wallapop hun algehele Amazon Redshift-ervaring kan verbeteren met verbeterd gebruiksgemak, prestaties en geoptimaliseerde kosten.

Redshift Serverless meet de capaciteit van het datawarehouse in Redshift Processing Units (RPU's). RPU's zijn bronnen die worden gebruikt om werklasten af ​​te handelen. U kunt de basiscapaciteitsinstelling aanpassen van 8 RPU's tot 512 RPU's in eenheden van 8 (8, 16, 24, enzovoort).

De nieuwe architectuur maakt gebruik van een door Redshift ingericht cluster met RA3-knooppunten om hun constante werklasten en schrijftaken uit te voeren (gegevensopname en transformatietaken). Voor de kostenefficiëntie profiteert Wallapop ook van Gereserveerde exemplaren roodverschuiving om de kosten voor deze bekende, voorspelbare en stabiele werklasten te optimaliseren. Dit cluster fungeert als het producentencluster in hun gedistribueerde architectuur met behulp van het delen van gegevens, wat betekent dat de gegevens worden opgenomen in de opslaglaag van Amazon Redshift: Redshift Managed Storage (RMS).

Voor het verbruiksgedeelte van de dataplatformarchitectuur worden de gegevens gedeeld met verschillende Redshift Serverless-eindpunten om te voldoen aan de behoeften voor verschillende verbruikswerklasten.

Het delen van gegevens biedt isolatie van werklasten. Met deze architectuur realiseert Wallapop een betere isolatie van de werklast en zorgt ervoor dat alleen de juiste gegevens worden gedeeld met de verschillende verbruiksapplicaties. Bovendien vermijdt deze aanpak gegevensduplicatie in hun consumentengedeelte, wat de kosten optimaliseert en betere beheerprocessen mogelijk maakt, omdat ze slechts één versie van de datawarehouse-gegevens hoeven te beheren in plaats van verschillende kopieën of versies ervan.

Redshift Serverless wordt gebruikt als consumentenonderdeel van de dataplatformarchitectuur om tegemoet te komen aan de voorspelbare en onvoorspelbare, niet-stabiele en vaak veeleisende analyse-workloads, zoals hun CI/CD-taken en BI- en analytics-consumptie-workloads afkomstig van hun datavisualisatietoepassing. Redshift Serverless helpt hen ook een betere isolatie van de werklast te bereiken dankzij de beheerde automatische schalingsfunctie die ervoor zorgt dat de prestaties consistent goed zijn voor deze onvoorspelbare werklasten, zelfs op piekmomenten. Het biedt ook een betere gebruikerservaring voor het Wallapop-dataplatformteam, dankzij de autonome mogelijkheden die Redshift Serverless biedt.

Dankzij de nieuwe oplossing die Redshift Serverless en het delen van gegevens combineert, kon Wallapop betere prestaties, kosten en gebruiksgemak realiseren.

Eduard Lopez, Wallapop Data Engineering Manager, deelde de verbeterde ervaring van analytics-gebruikers: “Onze analisten vertellen ons dat Looker nu vliegt.' Het inzichtverbruik ging daardoor omhoog zonder dat de kosten toenamen.”

Evaluatie van de uitkomst

Wallapop begon deze herarchitectuurinspanning door eerst de isolatie van hun BI-consumptiewerklast te testen met Amazon Redshift-gegevensuitwisseling en Redshift Serverless met de ondersteuning van AWS. De werklast werd getest met behulp van verschillende basis-RPU-configuraties om de basiscapaciteit en bronnen in Redshift Serverless te meten. Basis-RPU-bereiken voor Redshift Serverless variëren van 8-512. Wallapop testte hun BI-werklast met twee configuraties: 32 basis-RPU en 64 basis-RPU, nadat ze het delen van gegevens vanuit hun door Redshift ingerichte cluster hadden ingeschakeld om ervoor te zorgen dat de serverloze eindpunten toegang hebben tot de benodigde datasets.

Op basis van de resultaten die 1 week vóór de test zijn gemeten, was het belangrijkste verbeterpunt de zoekopdrachten die langer dan 10 seconden nodig hadden om te voltooien (52%), weergegeven door de gele, oranje en rode gebieden van het volgende diagram, evenals de langlopende zoekopdrachten weergegeven door het rode gebied (meer dan 600 seconden, 9%).

De eerste test van deze werklast met Redshift Serverless met een 64 basis-RPU-configuratie liet onmiddellijk prestatieverbeteringsresultaten zien: de queries die langer dan 10 seconden duurden werden met 38% verminderd en de langlopende queries (meer dan 120 seconden) werden bijna volledig geëlimineerd.

Javier Carbajo, Wallapop Data Engineer, zegt: “Het leveren van een dienst zonder downtime of te lange laadtijden was een van onze belangrijkste eisen, aangezien we geen analisten of belanghebbenden konden hebben zonder de data te kunnen raadplegen.”

Na de eerste reeks resultaten testte Wallapop ook met een Redshift Serverless-configuratie met behulp van 32 basis-RPU om de resultaten te vergelijken en de configuratie te selecteren die hen de beste prijs-prestatieverhouding voor deze werklast zou kunnen bieden. Met deze configuratie waren de resultaten vergelijkbaar met de eerdere testrun op Redshift Serverless met 64 basis-RPU (die nog steeds een aanzienlijke prestatieverbetering laat zien ten opzichte van de oorspronkelijke resultaten). Op basis van de tests is deze configuratie geselecteerd voor de nieuwe architectuur.

Gergely Kajtár, Wallapop Data Engineer, zegt: "We merkten een aanzienlijke toename in de stabiliteit van de dagelijkse workflows na de verandering naar de nieuwe Redshift-architectuur."

Na deze eerste werklast is Wallapop doorgegaan met het uitbreiden van hun Amazon Redshift-gedistribueerde architectuur met CI/CD-werklasten die draaien op een afzonderlijk Redshift Serverless-eindpunt, waarbij gebruik wordt gemaakt van het delen van gegevens met hun door Redshift ingerichte (RA3) cluster.

“Met de nieuwe Redshift-architectuur hebben we opmerkelijke verbeteringen opgemerkt, zowel op het gebied van snelheid als stabiliteit. Dat heeft zich vertaald in een verdubbeling van het aantal analytische vragen, niet alleen door analisten en datawetenschappers, maar ook vanuit andere rollen, zoals marketing, engineering, C-level, enz. Dat bewijst dat investeren in een schaalbare architectuur zoals Redshift Serverless een direct gevolg voor het versnellen van de adoptie van data als besluitvormingsmotor in de organisatie.”

– Nicolás Herrero, Wallapop-directeur Data & Analytics.

Conclusie

In dit bericht hebben we u laten zien hoe dit platform Wallapop kan helpen in de toekomst te schalen door nieuwe consumenten toe te voegen wanneer nieuwe behoeften of toepassingen toegang tot gegevens vereisen.

Als je nieuw bent bij Amazon Redshift, kun je demo's, andere klantverhalen en de nieuwste functies verkennen op Amazon roodverschuiving. Als je Amazon Redshift al gebruikt, neem dan contact op met je AWS-accountteam voor ondersteuning en leer er meer over wat is er nieuw bij Amazon Redshift.


Over de auteurs

Eduard Lopez is de Data Engineer Manager bij Wallapop. Hij is een software-ingenieur met meer dan 6 jaar ervaring in data-engineering, machine learning en data science.

Daniel Martinez is Solutions Architect bij Iberia Digital Native Businesses (DNB), onderdeel van de wereldwijde commerciële verkooporganisatie (WWCS) bij AWS.

Jordi Montoliu is een Sr. Redshift Specialist in EMEA, onderdeel van de wereldwijde specialistenorganisatie (WWSO) bij AWS.

Ziad Wali is een Acceleration Lab Solutions Architect bij Amazon Web Services. Hij heeft meer dan 10 jaar ervaring in databases en datawarehousing, waar hij graag betrouwbare, schaalbare en efficiënte oplossingen bouwt. Buiten zijn werk houdt hij van sporten en tijd doorbrengen in de natuur.

Semir Naffati is een Sr. Redshift Specialist Solutions Architect in EMEA, onderdeel van de wereldwijde specialistenorganisatie (WWSO) bij AWS.

spot_img

Laatste intelligentie

spot_img