Zephyrnet-logo

Hvordan Getir reduserte modelltreningsvarigheten med 90 % med Amazon SageMaker og AWS Batch | Amazon Web Services

Dato:

Dette er et gjesteinnlegg medforfatter av Nafi Ahmet Turgut, Hasan Burak Yel og Damla Şentürk fra Getir.

Etablert i 2015, brakt har posisjonert seg som banebryteren innen ultrarask dagligvarelevering. Dette innovative teknologiselskapet har revolusjonert leveringssegmentet for siste mil med sitt overbevisende tilbud om "dagligvarer på få minutter." Med tilstedeværelse i Tyrkia, Storbritannia, Nederland, Tyskland og USA, har Getir blitt en multinasjonal styrke å regne med. I dag representerer Getir-merket et diversifisert konglomerat som omfatter ni forskjellige vertikaler, som alle jobber synergistisk under en enkelt paraply.

I dette innlegget forklarer vi hvordan vi bygde en ende-til-ende produktkategoriprediksjonspipeline for å hjelpe kommersielle team ved å bruke Amazon SageMaker og AWS-batch, noe som reduserer modelltreningsvarigheten med 90 %.

Å forstå vårt eksisterende produktsortiment på en detaljert måte er en avgjørende utfordring som vi, sammen med mange bedrifter, står overfor i dagens fartsfylte og konkurranseutsatte marked. En effektiv løsning på dette problemet er prediksjonen av produktkategorier. En modell som genererer et omfattende kategoritre lar våre kommersielle team sammenligne vår eksisterende produktportefølje mot konkurrentene våre, og gir en strategisk fordel. Derfor er vår sentrale utfordring å lage og implementere en nøyaktig produktkategoriprediksjonsmodell.

Vi utnyttet de kraftige verktøyene fra AWS for å takle denne utfordringen og effektivt navigere i det komplekse feltet maskinlæring (ML) og prediktiv analyse. Vår innsats førte til vellykket etablering av en ende-til-ende produktkategoriprediksjonspipeline, som kombinerer styrkene til SageMaker og AWS Batch.

Denne evnen til prediktiv analyse, spesielt den nøyaktige prognosen for produktkategorier, har vist seg uvurderlig. Det ga teamene våre kritisk datadrevet innsikt som optimaliserte lagerstyring, forbedret kundeinteraksjoner og styrket vår markedstilstedeværelse.

Metodikken vi forklarer i dette innlegget spenner fra den innledende fasen av innsamling av funksjoner til den endelige implementeringen av prediksjonspipeline. Et viktig aspekt av strategien vår har vært bruken av SageMaker og AWS Batch for å avgrense forhåndstrente BERT-modeller for syv forskjellige språk. I tillegg vår sømløse integrasjon med AWS sin objektlagringstjeneste Amazon enkel lagringstjeneste (Amazon S3) har vært nøkkelen til effektiv lagring og tilgang til disse raffinerte modellene.

SageMaker er en fullt administrert ML-tjeneste. Med SageMaker kan dataforskere og utviklere raskt og enkelt bygge og trene ML-modeller, og deretter distribuere dem direkte i et produksjonsklart vertsmiljø.

Som en fullstendig administrert tjeneste hjelper AWS Batch deg med å kjøre batch-databehandlingsarbeidsmengder i alle skalaer. AWS Batch klargjør automatisk dataressurser og optimerer arbeidsbelastningsfordelingen basert på mengden og omfanget av arbeidsbelastningene. Med AWS Batch er det ikke nødvendig å installere eller administrere batch databehandlingsprogramvare, slik at du kan fokusere tiden din på å analysere resultater og løse problemer. Vi brukte GPU-jobber som hjelper oss å kjøre jobber som bruker en forekomsts GPU-er.

Oversikt over løsning

Fem personer fra Getirs datavitenskapsteam og infrastrukturteam jobbet sammen om dette prosjektet. Prosjektet ble fullført på en måned og distribuert til produksjon etter en uke med testing.

Følgende diagram viser løsningens arkitektur.

Modellrørledningen kjøres separat for hvert land. Arkitekturen inkluderer to AWS Batch GPU cron-jobber for hvert land, som kjører på definerte tidsplaner.

Vi overvant noen utfordringer ved å strategisk distribuere SageMaker og AWS Batch GPU-ressurser. Prosessen som brukes for å løse hver vanskelighet er beskrevet i de følgende avsnittene.

Finjuster flerspråklige BERT-modeller med AWS Batch GPU-jobber

Vi søkte en løsning for å støtte flere språk for vår mangfoldige brukerbase. BERT-modeller var et opplagt valg på grunn av deres etablerte evne til å håndtere komplekse naturlige språkoppgaver effektivt. For å skreddersy disse modellene til våre behov, utnyttet vi kraften til AWS ved å bruke enkelt-node GPU-instansjobber. Dette tillot oss å finjustere ferdigtrente BERT-modeller for hvert av de syv språkene vi trengte støtte for. Gjennom denne metoden sikret vi høy presisjon i å forutsi produktkategorier, og overvinne eventuelle språkbarrierer.

Effektiv modelllagring med Amazon S3

Vårt neste skritt var å ta for oss modelllagring og -administrasjon. Til dette valgte vi Amazon S3, kjent for sin skalerbarhet og sikkerhet. Lagring av våre finjusterte BERT-modeller på Amazon S3 gjorde det mulig for oss å gi enkel tilgang til forskjellige team i organisasjonen vår, og dermed effektivisere distribusjonsprosessen vår betydelig. Dette var et avgjørende aspekt for å oppnå smidighet i våre operasjoner og en sømløs integrasjon av vår ML-innsats.

Opprette en ende-til-ende prediksjonspipeline

En effektiv rørledning var nødvendig for å utnytte våre ferdigtrente modeller best mulig. Vi implementerte først disse modellene på SageMaker, en handling som muliggjorde sanntidsprediksjoner med lav ventetid, og dermed forbedret brukeropplevelsen vår. For større batch-forutsigelser, som var like viktige for vår virksomhet, brukte vi AWS Batch GPU-jobber. Dette sikret optimal bruk av ressursene våre, og ga oss en perfekt balanse mellom ytelse og effektivitet.

Utforske fremtidige muligheter med SageMaker MMEer

Ettersom vi fortsetter å utvikle oss og søke effektivitet i vår ML-pipeline, er en vei vi er opptatt av å utforske å bruke SageMaker multi-model endpoints (MME) for å distribuere våre finjusterte modeller. Med MME-er kan vi potensielt strømlinjeforme distribusjonen av ulike finjusterte modeller, og sikre effektiv modelladministrasjon samtidig som vi drar nytte av de opprinnelige egenskapene til SageMaker som skyggevarianter, automatisk skalering og Amazon CloudWatch integrering. Denne utforskningen er i tråd med vår kontinuerlige streben etter å forbedre våre prediktive analysefunksjoner og gi overlegne opplevelser til kundene våre.

konklusjonen

Vår vellykkede integrasjon av SageMaker og AWS Batch har ikke bare adressert våre spesifikke utfordringer, men har også økt vår operasjonelle effektivitet betydelig. Gjennom implementeringen av en sofistikert produktkategoriprediksjonspipeline er vi i stand til å styrke våre kommersielle team med datadrevet innsikt, og dermed legge til rette for mer effektiv beslutningstaking.

Resultatene våre sier mye om tilnærmingens effektivitet. Vi har oppnådd en prediksjonsnøyaktighet på 80 % på tvers av alle fire nivåer av kategorigranularitet, noe som spiller en viktig rolle i utformingen av produktutvalget for hvert land vi betjener. Dette presisjonsnivået utvider vår rekkevidde utover språkbarrierer og sikrer at vi imøtekommer vår mangfoldige brukerbase med den største nøyaktighet.

Ved å strategisk bruke planlagte AWS Batch GPU-jobber, har vi dessuten kunnet redusere modellopplæringsvarigheten med 90 %. Denne effektiviteten har ytterligere strømlinjeformet prosessene våre og styrket vår operasjonelle smidighet. Effektiv modelllagring ved bruk av Amazon S3 har spilt en avgjørende rolle i denne prestasjonen, og balanserer både sanntids- og batchprediksjoner.

For mer informasjon om hvordan du kommer i gang med å bygge dine egne ML-rørledninger med SageMaker, se Amazon SageMaker-ressurser. AWS Batch er et utmerket alternativ hvis du leter etter en rimelig, skalerbar løsning for å kjøre batchjobber med lav driftskostnad. For å komme i gang, se Komme i gang med AWS Batch.


Om forfatterne

Nafi Ahmet Turgut fullførte sin mastergrad i elektro- og elektronikkteknikk og jobbet som utdannet forsker. Fokuset hans var å bygge maskinlæringsalgoritmer for å simulere nervøse nettverksavvik. Han begynte i Getir i 2019 og jobber for tiden som Senior Data Science & Analytics Manager. Teamet hans er ansvarlig for å designe, implementere og vedlikeholde ende-til-ende maskinlæringsalgoritmer og datadrevne løsninger for Getir.

Hasan Burak Yel mottok sin bachelorgrad i elektro- og elektronikkteknikk ved Boğaziçi universitet. Han jobbet hos Turkcell, hovedsakelig fokusert på tidsserieprognoser, datavisualisering og nettverksautomatisering. Han begynte i Getir i 2021 og jobber for tiden som Data Science & Analytics Manager med ansvar for søke-, anbefalings- og vekstdomener.

Damla Şentürk mottok sin bachelorgrad i datateknikk ved Galatasaray University. Hun fortsetter sin mastergrad i datateknikk ved Boğaziçi universitet. Hun begynte i Getir i 2022, og har jobbet som Data Scientist. Hun har jobbet med kommersielle, forsyningskjede- og oppdagelsesrelaterte prosjekter.

Esra Kayabalı er en senior løsningsarkitekt hos AWS, spesialisert på analysedomenet, inkludert datavarehus, datainnsjøer, big data-analyse, batch- og sanntidsdatastrømming og dataintegrasjon. Hun har 12 års erfaring med programvareutvikling og arkitektur. Hun brenner for å lære og undervise i skyteknologier.

spot_img

Siste etterretning

spot_img