Λογότυπο Zephyrnet

Πώς η Amazon βελτιστοποίησε τη διαδικασία χρηματοοικονομικής συμφωνίας μεγάλου όγκου με το Amazon EMR για μεγαλύτερη επεκτασιμότητα και απόδοση | Υπηρεσίες Ιστού της Amazon

Ημερομηνία:

Η συμφωνία λογαριασμών είναι ένα σημαντικό βήμα για τη διασφάλιση της πληρότητας και της ακρίβειας των οικονομικών καταστάσεων. Συγκεκριμένα, οι εταιρείες πρέπει να συμφιλιωθούν ισολογισμό λογαριασμούς που θα μπορούσαν να περιέχουν σημαντικές ή ουσιώδεις ανακρίβειες. Οι λογιστές περνούν από κάθε λογαριασμό στο γενικό καθολικό λογαριασμών και επαληθεύουν ότι το υπόλοιπο που αναφέρεται είναι πλήρες και ακριβές. Όταν εντοπίζονται αποκλίσεις, οι λογιστές ερευνούν και λαμβάνουν τα κατάλληλα διορθωτικά μέτρα.

Ως μέρος του οργανισμού FinTech της Amazon, προσφέρουμε μια πλατφόρμα λογισμικού που εξουσιοδοτεί τις εσωτερικές λογιστικές ομάδες της Amazon να διεξάγουν συμφωνίες λογαριασμών. Για τη βελτιστοποίηση της διαδικασίας συμφωνίας, αυτοί οι χρήστες απαιτούν μετασχηματισμό υψηλής απόδοσης με δυνατότητα κλιμάκωσης κατά παραγγελία, καθώς και δυνατότητα επεξεργασίας μεταβλητών μεγεθών αρχείων που κυμαίνονται από λίγα MB έως περισσότερα από 100 GB. Δεν είναι πάντα δυνατό να τοποθετήσετε δεδομένα σε ένα μόνο μηχάνημα ή να τα επεξεργαστείτε με ένα μόνο πρόγραμμα σε εύλογο χρονικό διάστημα. Αυτός ο υπολογισμός πρέπει να γίνει αρκετά γρήγορα για να παρέχει πρακτικές υπηρεσίες όπου η λογική προγραμματισμού και οι υποκείμενες λεπτομέρειες (κατανομή δεδομένων, ανοχή σφαλμάτων και προγραμματισμός) μπορούν να διαχωριστούν.

Μπορούμε να επιτύχουμε αυτούς τους ταυτόχρονους υπολογισμούς σε πολλαπλές μηχανές ή νήματα της ίδιας συνάρτησης σε ομάδες στοιχείων ενός συνόλου δεδομένων χρησιμοποιώντας κατανεμημένες λύσεις επεξεργασίας δεδομένων. Αυτό μας ενθάρρυνε να εφεύρουμε εκ νέου την υπηρεσία συμφιλίωσης που υποστηρίζεται από υπηρεσίες AWS, συμπεριλαμβανομένων EMR Αμαζονίου και την Apache Spark κατανεμημένο πλαίσιο επεξεργασίας, το οποίο χρησιμοποιεί PySpark. Αυτή η υπηρεσία επιτρέπει στους χρήστες να επεξεργάζονται αρχεία άνω των 100 GB που περιέχουν έως και 100 εκατομμύρια συναλλαγές σε λιγότερο από 30 λεπτά. Η υπηρεσία συμφιλίωσης έχει γίνει μια κινητήρια δύναμη για την επεξεργασία δεδομένων και τώρα οι χρήστες μπορούν να εκτελούν απρόσκοπτα μια ποικιλία λειτουργιών, όπως π.χ. άξονας περιστροφής, Ενώνω (όπως μια λειτουργία Excel VLOOKUP), αριθμητική λειτουργίες, και περισσότερο, παρέχοντας μια ευέλικτη και αποτελεσματική λύση για τον συνδυασμό τεράστιων συνόλων δεδομένων. Αυτή η βελτίωση αποτελεί απόδειξη της επεκτασιμότητας και της ταχύτητας που επιτυγχάνεται μέσω της υιοθέτησης κατανεμημένων λύσεων επεξεργασίας δεδομένων.

Σε αυτήν την ανάρτηση, εξηγούμε πώς ενσωματώσαμε το Amazon EMR για να δημιουργήσουμε ένα εξαιρετικά διαθέσιμο και επεκτάσιμο σύστημα που μας επέτρεψε να εκτελέσουμε μια διαδικασία οικονομικής συμφιλίωσης μεγάλου όγκου.

Αρχιτεκτονική πριν από τη μετανάστευση

Το παρακάτω διάγραμμα απεικονίζει την προηγούμενη αρχιτεκτονική μας.

Η υπηρεσία παλαιού τύπου μας δημιουργήθηκε με Υπηρεσία ελαστικών εμπορευματοκιβωτίων Amazon (Amazon ECS) σε AWS Fargate. Επεξεργάσαμε τα δεδομένα διαδοχικά χρησιμοποιώντας Python. Ωστόσο, λόγω της έλλειψης δυνατότητας παράλληλης επεξεργασίας, έπρεπε συχνά να αυξήσουμε το μέγεθος του συμπλέγματος κατακόρυφα για να υποστηρίξουμε μεγαλύτερα σύνολα δεδομένων. Για το περιβάλλον, η επεξεργασία 5 GB δεδομένων με 50 λειτουργίες χρειάστηκε περίπου 3 ώρες. Αυτή η υπηρεσία διαμορφώθηκε ώστε να κλιμακώνεται οριζόντια σε πέντε περιπτώσεις ECS που συλλέγουν μηνύματα από Υπηρεσία απλής ουράς Amazon (Amazon SQS), το οποίο τροφοδότησε τα αιτήματα μετασχηματισμού. Κάθε παρουσία διαμορφώθηκε με 4 vCPU και 30 GB μνήμης για να επιτρέπεται οριζόντια κλιμάκωση. Ωστόσο, δεν μπορέσαμε να επεκτείνουμε τη χωρητικότητά του όσον αφορά τις επιδόσεις, επειδή η διαδικασία έγινε διαδοχικά, επιλέγοντας κομμάτια δεδομένων από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) για επεξεργασία. Για παράδειγμα, μια λειτουργία VLOOKUP όπου πρόκειται να ενωθούν δύο αρχεία απαιτούσε την ανάγνωση και των δύο αρχείων στη μνήμη ανά κομμάτι για να ληφθεί η έξοδος. Αυτό έγινε εμπόδιο για τους χρήστες επειδή έπρεπε να περιμένουν για μεγάλα χρονικά διαστήματα για να επεξεργαστούν τα σύνολα δεδομένων τους.

Ως μέρος της εκ νέου αρχιτεκτονικής και εκσυγχρονισμού μας, θέλαμε να επιτύχουμε τα εξής:

  • Μεγάλη διαθεσιμότητα – Τα συμπλέγματα επεξεργασίας δεδομένων θα πρέπει να είναι εξαιρετικά διαθέσιμα, παρέχοντας τρία 9s διαθεσιμότητας (99.9%)
  • Διακίνηση – Η υπηρεσία θα πρέπει να χειρίζεται 1,500 τρεξίματα την ημέρα
  • Αφάνεια – Θα πρέπει να μπορεί να επεξεργάζεται 100 GB δεδομένων μέσα σε 30 λεπτά
  • Ανομοιογένεια – Το σύμπλεγμα θα πρέπει να μπορεί να υποστηρίζει μια μεγάλη ποικιλία φόρτων εργασίας, με αρχεία που κυμαίνονται από λίγα MB έως εκατοντάδες GB
  • Συγχρονισμός ερωτήματος – Η υλοποίηση απαιτεί τη δυνατότητα υποστήριξης τουλάχιστον 10 μοιρών συγχρονισμού
  • Αξιοπιστία εργασιών και συνέπεια δεδομένων – Οι εργασίες πρέπει να εκτελούνται αξιόπιστα και με συνέπεια για να αποφευχθεί η παραβίαση των Συμφωνιών Επιπέδου Υπηρεσιών (SLA)
  • Οικονομικά αποδοτικό και επεκτάσιμο – Πρέπει να είναι επεκτάσιμο βάσει του φόρτου εργασίας, καθιστώντας το οικονομικά αποδοτικό
  • Ασφάλεια και συμμόρφωση – Δεδομένης της ευαισθησίας των δεδομένων, πρέπει να υποστηρίζει λεπτομερή έλεγχο πρόσβασης και κατάλληλες υλοποιήσεις ασφάλειας
  • παρακολούθηση – Η λύση πρέπει να προσφέρει συνεχή παρακολούθηση των συμπλεγμάτων και των εργασιών

Γιατί Amazon EMR

Το Amazon EMR είναι η κορυφαία στον κλάδο cloud λύση μεγάλων δεδομένων για επεξεργασία δεδομένων σε κλίμακα petabyte, διαδραστικά αναλυτικά στοιχεία και μηχανική μάθηση (ML) χρησιμοποιώντας πλαίσια ανοιχτού κώδικα όπως Apache Spark, Κυψέλη Apache, να Presto. Με αυτά τα πλαίσια και τα σχετικά έργα ανοιχτού κώδικα, μπορείτε να επεξεργάζεστε δεδομένα για σκοπούς ανάλυσης και φόρτου εργασίας BI. Το Amazon EMR σάς επιτρέπει να μεταμορφώνετε και να μετακινείτε μεγάλες ποσότητες δεδομένων μέσα και έξω από άλλα καταστήματα και βάσεις δεδομένων AWS, όπως το Amazon S3 και Amazon DynamoDB.

Ένα αξιοσημείωτο πλεονέκτημα του Amazon EMR έγκειται στην αποτελεσματική χρήση της παράλληλης επεξεργασίας με το PySpark, σημειώνοντας σημαντική βελτίωση σε σχέση με τον παραδοσιακό διαδοχικό κώδικα Python. Αυτή η καινοτόμος προσέγγιση απλοποιεί την ανάπτυξη και την κλιμάκωση των συμπλεγμάτων Apache Spark, επιτρέποντας την αποτελεσματική παραλληλοποίηση σε μεγάλα σύνολα δεδομένων. Η κατανεμημένη υπολογιστική υποδομή όχι μόνο βελτιώνει την απόδοση, αλλά επιτρέπει επίσης την επεξεργασία τεράστιων ποσοτήτων δεδομένων με πρωτοφανείς ταχύτητες. Εξοπλισμένο με βιβλιοθήκες, το PySpark διευκολύνει λειτουργίες που μοιάζουν με το Excel Πλαίσια δεδομένων, και η αφαίρεση υψηλότερου επιπέδου των DataFrames απλοποιεί τους περίπλοκους χειρισμούς δεδομένων, μειώνοντας την πολυπλοκότητα του κώδικα. Σε συνδυασμό με την αυτόματη παροχή συμπλέγματος, τη δυναμική κατανομή πόρων και την ενσωμάτωση με άλλες υπηρεσίες AWS, το Amazon EMR αποδεικνύεται μια ευέλικτη λύση κατάλληλη για διαφορετικούς φόρτους εργασίας, που κυμαίνονται από επεξεργασία κατά παρτίδες έως ML. Η εγγενής ανοχή σφαλμάτων στο PySpark και στο Amazon EMR προάγει την ευρωστία, ακόμη και σε περίπτωση αποτυχίας κόμβου, καθιστώντας το μια επεκτάσιμη, οικονομικά αποδοτική και υψηλής απόδοσης επιλογή για παράλληλη επεξεργασία δεδομένων στο AWS.

Το Amazon EMR επεκτείνει τις δυνατότητές του πέρα ​​από τα βασικά, προσφέροντας μια ποικιλία επιλογών ανάπτυξης για την κάλυψη διαφορετικών αναγκών. Είτε είναι Amazon EMR στο EC2, Amazon EMR στο EKS, Amazon EMR χωρίς διακομιστή, ή Amazon EMR σε AWS Outposts, μπορείτε να προσαρμόσετε την προσέγγισή σας σε συγκεκριμένες απαιτήσεις. Για όσους αναζητούν περιβάλλον χωρίς διακομιστή για θέσεις εργασίας Spark, ενσωμάτωση Κόλλα AWS είναι επίσης μια βιώσιμη επιλογή. Εκτός από την υποστήριξη διαφόρων πλαισίων ανοιχτού κώδικα, συμπεριλαμβανομένου του Spark, το Amazon EMR παρέχει ευελιξία στην επιλογή τρόπων ανάπτυξης, Amazon Elastic Compute Cloud Τύποι παρουσιών (Amazon EC2), μηχανισμοί κλιμάκωσης και πολλές τεχνικές βελτιστοποίησης εξοικονόμησης κόστους.

Το Amazon EMR αποτελεί μια δυναμική δύναμη στο cloud, παρέχοντας απαράμιλλες δυνατότητες σε οργανισμούς που αναζητούν ισχυρές λύσεις μεγάλων δεδομένων. Η απρόσκοπτη ενσωμάτωση, τα ισχυρά χαρακτηριστικά και η προσαρμοστικότητά του το καθιστούν απαραίτητο εργαλείο για την πλοήγηση στην πολυπλοκότητα της ανάλυσης δεδομένων και της ML στο AWS.

Επανασχεδιασμένη αρχιτεκτονική

Το παρακάτω διάγραμμα απεικονίζει την επανασχεδιασμένη αρχιτεκτονική μας.

Η λύση λειτουργεί στο πλαίσιο μιας σύμβασης API, όπου οι πελάτες μπορούν να υποβάλουν διαμορφώσεις μετασχηματισμού, ορίζοντας το σύνολο λειτουργιών παράλληλα με τη θέση δεδομένων S3 για επεξεργασία. Το αίτημα βρίσκεται στην ουρά μέσω του Amazon SQS και, στη συνέχεια, κατευθύνεται στο Amazon EMR μέσω μιας συνάρτησης Lambda. Αυτή η διαδικασία ξεκινά τη δημιουργία ενός βήματος Amazon EMR για την υλοποίηση του πλαισίου Spark σε ένα αποκλειστικό σύμπλεγμα EMR. Αν και το Amazon EMR δέχεται απεριόριστο αριθμό βημάτων κατά τη διάρκεια ζωής ενός μακροχρόνιου cluster, μόνο 256 βήματα μπορούν να εκτελούνται ή να εκκρεμούν ταυτόχρονα. Για βέλτιστη παραλληλοποίηση, η ταυτόχρονη βηματοδότηση ορίζεται στο 10, επιτρέποντας σε 10 βήματα να εκτελούνται ταυτόχρονα. Σε περίπτωση αποτυχίας αιτήματος, το Amazon SQS ουρά νεκρών γραμμάτων (DLQ) διατηρεί το συμβάν. Το Spark επεξεργάζεται το αίτημα, μεταφράζοντας λειτουργίες που μοιάζουν με το Excel σε κώδικα PySpark για ένα αποτελεσματικό σχέδιο ερωτημάτων. Τα ελαστικά DataFrames αποθηκεύουν δεδομένα εισόδου, εξόδου και ενδιάμεσων δεδομένων στη μνήμη, βελτιστοποιώντας την ταχύτητα επεξεργασίας, μειώνοντας το κόστος εισόδου/εξόδου του δίσκου, βελτιώνοντας την απόδοση του φόρτου εργασίας και παραδίδοντας την τελική έξοδο στην καθορισμένη τοποθεσία Amazon S3.

Ορίζουμε το SLA μας σε δύο διαστάσεις: καθυστέρηση και απόδοση. Η καθυστέρηση ορίζεται ως ο χρόνος που απαιτείται για την εκτέλεση μιας εργασίας σε σχέση με ένα ντετερμινιστικό μέγεθος δεδομένων και τον αριθμό των λειτουργιών που εκτελούνται στο σύνολο δεδομένων. Η παροχή ορίζεται ως ο μέγιστος αριθμός ταυτόχρονων εργασιών που μπορεί να εκτελέσει η υπηρεσία χωρίς να παραβιάσει το SLA καθυστέρησης μιας εργασίας. Η συνολική επεκτασιμότητα SLA της υπηρεσίας εξαρτάται από την ισορροπία της οριζόντιας κλίμακας των ελαστικών υπολογιστικών πόρων και της κάθετης κλίμακας μεμονωμένων διακομιστών.

Επειδή έπρεπε να εκτελούμε 1,500 διεργασίες την ημέρα με ελάχιστο λανθάνοντα χρόνο και υψηλή απόδοση, επιλέγουμε να ενσωματώσουμε το Amazon EMR στη λειτουργία ανάπτυξης EC2 με τη διαχειριζόμενη κλίμακα ενεργοποιημένη για την υποστήριξη της επεξεργασίας μεταβλητών μεγεθών αρχείων.

Η διαμόρφωση συμπλέγματος EMR παρέχει πολλές διαφορετικές επιλογές:

  • Τύποι κόμβων EMR – Κύριοι, πυρήνες ή κόμβοι εργασιών
  • Παράδειγμα επιλογές αγοράς – Περιπτώσεις κατ' απαίτηση, δεσμευμένες περιπτώσεις ή τοπικές περιπτώσεις
  • Επιλογές διαμόρφωσης – Στόλος παρουσίας EMR ή ομάδα ομοιόμορφων περιπτώσεων
  • Επιλογές κλιμάκωσης - Αυτόματη κλιμάκωση ή διαχειριζόμενη κλιμάκωση Amazon EMR

Με βάση τον μεταβλητό φόρτο εργασίας μας, διαμορφώσαμε έναν στόλο παρουσίας EMR (για βέλτιστες πρακτικές, βλ. Αξιοπιστία). Αποφασίσαμε επίσης να χρησιμοποιήσουμε τη διαχειριζόμενη κλίμακα Amazon EMR για να κλιμακώσουμε τους κόμβους πυρήνα και εργασιών (για σενάρια κλιμάκωσης, ανατρέξτε στο Σενάρια κατανομής κόμβων). Τέλος, επιλέξαμε βελτιστοποιημένη μνήμη AWS Graviton περιπτώσεις, οι οποίες παρέχουν έως 30% χαμηλότερο κόστος και έως και 15% βελτιωμένη απόδοση για φόρτους εργασίας Spark.

Ο παρακάτω κώδικας παρέχει ένα στιγμιότυπο της διαμόρφωσης του συμπλέγματός μας:

Concurrent steps:10

EMR Managed Scaling:
minimumCapacityUnits: 64
maximumCapacityUnits: 512
maximumOnDemandCapacityUnits: 512
maximumCoreCapacityUnits: 512

Master Instance Fleet:
r6g.xlarge
- 4 vCore, 30.5 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:250 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 1 units

Core Instance Fleet:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

Task Instances:
r6g.2xlarge
- 8 vCore, 61 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 8 units
r6g.4xlarge
- 16 vCore, 122 GiB memory, EBS only storage
- EBS Storage:100 GiB
- Maximum Spot price: 100 % of On-demand price
- Each instance counts as 16 units

επίδοση

Με τη μετεγκατάστασή μας στο Amazon EMR, μπορέσαμε να επιτύχουμε μια απόδοση συστήματος ικανή να χειριστεί μια ποικιλία συνόλων δεδομένων, που κυμαίνονται από τόσο χαμηλά όσο 273 B έως 88.5 GB με p99 491 δευτερολέπτων (περίπου 8 λεπτά).

Το παρακάτω σχήμα δείχνει την ποικιλία των μεγεθών αρχείων που υποβλήθηκαν σε επεξεργασία.

Το παρακάτω σχήμα δείχνει την καθυστέρηση μας.

Για σύγκριση με τη διαδοχική επεξεργασία, πήραμε δύο σύνολα δεδομένων που περιείχαν 53 εκατομμύρια εγγραφές και εκτελέσαμε μια λειτουργία VLOOKUP μεταξύ τους, μαζί με 49 άλλες λειτουργίες που μοιάζουν με το Excel. Χρειάστηκαν 26 λεπτά για την επεξεργασία στη νέα υπηρεσία, σε σύγκριση με 5 ημέρες για την επεξεργασία στην υπηρεσία παλαιού τύπου. Αυτή η βελτίωση είναι σχεδόν 300 φορές μεγαλύτερη σε σχέση με την προηγούμενη αρχιτεκτονική όσον αφορά την απόδοση.

Κρίσεις

Λάβετε υπόψη τα ακόλουθα όταν εξετάζετε αυτήν τη λύση:

  • Συστάδες σωστού μεγέθους – Παρόλο που το Amazon EMR έχει δυνατότητα αλλαγής μεγέθους, είναι σημαντικό το σωστό μέγεθος των συμπλεγμάτων. Το σωστό μέγεθος μετριάζει ένα αργό cluster, εάν είναι μικρότερο, ή το υψηλότερο κόστος, εάν το cluster είναι μεγάλο. Για να προβλέψετε αυτά τα ζητήματα, μπορείτε να υπολογίσετε τον αριθμό και τον τύπο των κόμβων που θα χρειαστούν για τους φόρτους εργασίας.
  • Παράλληλα βήματα – Η παράλληλη εκτέλεση βημάτων σάς επιτρέπει να εκτελείτε πιο προηγμένους φόρτους εργασίας, να αυξήσετε τη χρήση πόρων του συμπλέγματος και να μειώσετε το χρόνο που απαιτείται για την ολοκλήρωση του φόρτου εργασίας σας. Ο αριθμός των βημάτων που επιτρέπεται να εκτελούνται ταυτόχρονα είναι διαμορφώσιμος και μπορεί να οριστεί κατά την εκκίνηση ενός συμπλέγματος και οποιαδήποτε στιγμή μετά την έναρξη του συμπλέγματος. Πρέπει να λάβετε υπόψη και να βελτιστοποιήσετε τη χρήση της CPU/μνήμης ανά εργασία όταν εκτελούνται πολλές εργασίες σε ένα κοινό σύμπλεγμα.
  • Μεταβατικά συμπλέγματα EMR με βάση την εργασία – Εάν ισχύει, συνιστάται η χρήση ενός μεταβατικού συμπλέγματος EMR που βασίζεται στην εργασία, το οποίο παρέχει ανώτερη απομόνωση, επαληθεύοντας ότι κάθε εργασία λειτουργεί εντός του αποκλειστικού της περιβάλλοντος. Αυτή η προσέγγιση βελτιστοποιεί τη χρήση των πόρων, βοηθά στην αποφυγή παρεμβολών μεταξύ εργασιών και ενισχύει τη συνολική απόδοση και αξιοπιστία. Η παροδική φύση επιτρέπει την αποτελεσματική κλιμάκωση, παρέχοντας μια ισχυρή και απομονωμένη λύση για διαφορετικές ανάγκες επεξεργασίας δεδομένων.
  • EMR χωρίς διακομιστή – Το EMR Serverless είναι η ιδανική επιλογή εάν προτιμάτε να μην χειρίζεστε τη διαχείριση και τη λειτουργία συμπλεγμάτων. Σας επιτρέπει να εκτελείτε αβίαστα εφαρμογές χρησιμοποιώντας πλαίσια ανοιχτού κώδικα που είναι διαθέσιμα στο EMR Serverless, προσφέροντας μια απλή και χωρίς προβλήματα εμπειρία.
  • Amazon EMR στο EKS – Το Amazon EMR στο EKS προσφέρει ευδιάκριτα πλεονεκτήματα, όπως ταχύτερους χρόνους εκκίνησης και βελτιωμένη επεκτασιμότητα για την επίλυση προκλήσεων υπολογιστικής χωρητικότητας—το οποίο είναι ιδιαίτερα ωφέλιμο για τους χρήστες Graviton και Spot Instance. Η συμπερίληψη ενός ευρύτερου φάσματος τύπων υπολογιστών ενισχύει την αποδοτικότητα κόστους, επιτρέποντας την εξατομικευμένη κατανομή πόρων. Επιπλέον, η υποστήριξη Multi-AZ παρέχει αυξημένη διαθεσιμότητα. Αυτά τα συναρπαστικά χαρακτηριστικά παρέχουν μια ισχυρή λύση για τη διαχείριση φόρτου εργασίας μεγάλων δεδομένων με βελτιωμένη απόδοση, βελτιστοποίηση κόστους και αξιοπιστία σε διάφορα σενάρια υπολογιστών.

Συμπέρασμα

Σε αυτήν την ανάρτηση, εξηγήσαμε πώς η Amazon βελτιστοποίησε τη διαδικασία χρηματοοικονομικής συμφιλίωσης μεγάλου όγκου με το Amazon EMR για μεγαλύτερη επεκτασιμότητα και απόδοση. Εάν έχετε μια μονολιθική εφαρμογή που εξαρτάται από την κατακόρυφη κλιμάκωση για την επεξεργασία πρόσθετων αιτημάτων ή συνόλων δεδομένων, τότε η μετεγκατάστασή της σε ένα κατανεμημένο πλαίσιο επεξεργασίας όπως το Apache Spark και η επιλογή μιας διαχειριζόμενης υπηρεσίας όπως το Amazon EMR για υπολογισμό μπορεί να συμβάλει στη μείωση του χρόνου εκτέλεσης για τη μείωση της παράδοσής σας SLA, και επίσης μπορεί να συμβάλει στη μείωση του Συνολικού Κόστος Ιδιοκτησίας (TCO).

Καθώς αγκαλιάζουμε το Amazon EMR για αυτήν τη συγκεκριμένη περίπτωση χρήσης, σας ενθαρρύνουμε να εξερευνήσετε περαιτέρω δυνατότητες στο ταξίδι σας καινοτομίας δεδομένων. Εξετάστε το ενδεχόμενο να αξιολογήσετε το AWS Glue, μαζί με άλλες δυναμικές επιλογές ανάπτυξης Amazon EMR, όπως το EMR Serverless ή το Amazon EMR στο EKS, για να ανακαλύψετε την καλύτερη υπηρεσία AWS προσαρμοσμένη στη μοναδική σας περίπτωση χρήσης. Το μέλλον του ταξιδιού καινοτομίας δεδομένων περιέχει συναρπαστικές δυνατότητες και προόδους που πρέπει να διερευνηθούν περαιτέρω.


Σχετικά με τους Συγγραφείς

Τζεσάν Χετραπάλ είναι Μηχανικός Ανάπτυξης Λογισμικού Sr. στην Amazon, όπου αναπτύσσει προϊόντα fintech βασισμένα σε αρχιτεκτονικές χωρίς διακομιστές υπολογιστών νέφους, οι οποίες είναι υπεύθυνες για τους γενικούς ελέγχους πληροφορικής των εταιρειών, τις οικονομικές αναφορές και τον έλεγχο για τη διακυβέρνηση, τον κίνδυνο και τη συμμόρφωση.

Σάκτι Μίσρα είναι κύριος αρχιτέκτονας λύσεων στην AWS, όπου βοηθά τους πελάτες να εκσυγχρονίσουν την αρχιτεκτονική δεδομένων τους και να καθορίσουν τη στρατηγική δεδομένων τους από άκρο σε άκρο, συμπεριλαμβανομένης της ασφάλειας δεδομένων, της προσβασιμότητας, της διακυβέρνησης και πολλά άλλα. Είναι και ο συγγραφέας του βιβλίου Απλοποιήστε το Big Data Analytics με το Amazon EMR. Εκτός δουλειάς, η Sakti απολαμβάνει να μαθαίνει νέες τεχνολογίες, να βλέπει ταινίες και να επισκέπτεται μέρη με την οικογένεια.

spot_img

Τελευταία Νοημοσύνη

spot_img