Logo Zephyrnet

Potenziare l'eccellenza basata sui dati: come la piattaforma dati Bluestone ha adottato il data mesh per il successo | Servizi Web di Amazon

Data:

Questo post è stato scritto in collaborazione con Toney Thomas e Ben Vengerovsky di Bluestone.

Nel mondo in continua evoluzione della finanza e dei prestiti, la necessità di dati in tempo reale, affidabili e centralizzati è diventata fondamentale. Bluestone, un istituto finanziario leader, ha intrapreso un percorso di trasformazione per modernizzare la propria infrastruttura di dati e passare a un'organizzazione basata sui dati. In questo post esploriamo il modo in cui Bluestone utilizza i servizi AWS, in particolare il servizio di data warehousing nel cloud Amazon RedShift, per implementare un'architettura mesh di dati all'avanguardia, rivoluzionando il modo in cui gestiscono, accedono e utilizzano le proprie risorse di dati.

La sfida: l’eredità della modernizzazione

Bluestone operava con una piattaforma di prestito legacy basata su SQL, come illustrato nel diagramma seguente. Per rimanere competitivi e reattivi alle mutevoli dinamiche del mercato, hanno deciso di modernizzare la propria infrastruttura. Questa modernizzazione ha comportato il passaggio a un software SaaS (software as a service) per la creazione di prestiti e a piattaforme di prestito principali. Poiché questi nuovi sistemi producevano grandi quantità di dati, è emersa la sfida di garantire un’unica fonte di verità per tutti i consumatori di dati.

Nascita della piattaforma dati Bluestone

Per rispondere alla necessità di dati centralizzati, scalabili e governabili, Bluestone ha introdotto la piattaforma dati Bluestone. Questa piattaforma è diventata l'hub per tutte le attività relative ai dati in tutta l'organizzazione. AWS ha svolto un ruolo fondamentale nel dare vita a questa visione.

Di seguito sono riportati i componenti chiave della piattaforma dati Bluestone:

  • Architettura della rete dati – Bluestone ha adottato un’architettura data mesh, un paradigma che distribuisce la proprietà dei dati tra diverse unità aziendali. Ogni produttore di dati all'interno dell'organizzazione dispone del proprio data lake in formato Apache Hudi, garantendo la sovranità e l'autonomia dei dati.
  • Architettura di data Lake e data warehouse a quattro livelli – L'architettura comprende quattro livelli, incluso il livello analitico, che ospita fatti appositamente creati e set di dati dimensionali ospitati in Amazon Redshift. Questi set di dati sono fondamentali per i casi d'uso di reporting e analisi, alimentati da servizi come Amazon Redshift e strumenti come Power BI.
  • Analisi dell'apprendimento automatico – Varie business unit, come Assistenza, Prestiti, Vendite e Marketing, Finanza e Rischio di credito, utilizzano analisi di machine learning, che vengono eseguite sul modello dimensionale all'interno del data Lake e del data warehouse. Ciò consente un processo decisionale basato sui dati in tutta l’organizzazione.
  • Governance e self-service – La piattaforma dati Bluestone fornisce un percorso governato, curato e self-service per tutti i casi di utilizzo dei dati. Servizi AWS come Formazione AWS Lake insieme a Atlan contribuire a governare l'accesso ai dati e le politiche.
  • Quadro della qualità dei dati – Per garantire l’affidabilità dei dati, hanno implementato un quadro di riferimento per la qualità dei dati. Valuta continuamente la qualità dei dati e sincronizza i punteggi di qualità con lo strumento di governance Atlan, infondendo fiducia nelle risorse di dati all'interno della piattaforma.

Il diagramma seguente illustra l'architettura della loro piattaforma dati aggiornata.

AWS e servizi di terze parti

AWS ha svolto un ruolo fondamentale e poliedrico nel consentire alla piattaforma dati di Bluestone di prosperare. I seguenti servizi AWS e di terze parti sono stati determinanti nel plasmare il percorso di Bluestone per diventare un'organizzazione basata sui dati:

  • Amazon RedShift – Bluestone ha sfruttato la potenza di Amazon Redshift e le sue funzionalità simili condivisione dei dati per creare un repository centralizzato di risorse di dati. Questa mossa strategica ha facilitato la condivisione e la collaborazione continua dei dati tra diverse unità aziendali, aprendo la strada a un processo decisionale più informato e basato sui dati.
  • Formazione del lago – Lake Formation è emersa come una pietra angolare nella strategia di governance dei dati di Bluestone. Ha svolto un ruolo fondamentale nell’applicazione dei controlli di accesso ai dati e nell’implementazione delle politiche sui dati. Con Lake Formation, Bluestone ha ottenuto la protezione dei dati sensibili e la conformità ai requisiti normativi.
  • Monitoraggio della qualità dei dati – Per mantenere l’affidabilità e l’accuratezza dei dati, Bluestone ha implementato un solido framework per la qualità dei dati. I servizi AWS sono stati essenziali in questo sforzo, perché integravano gli strumenti open source per stabilire un sistema interno di monitoraggio della qualità dei dati. Questo sistema valuta continuamente la qualità dei dati, fornendo fiducia nell'affidabilità del patrimonio di dati dell'organizzazione.
  • Strumenti di governance dei dati – Bluestone ha scelto Atlan, disponibile tramite Mercato AWS, per attuare strumenti completi di governance dei dati. Questo servizio SaaS ha svolto un ruolo fondamentale nell'onboarding di più team aziendali e nella promozione di una cultura incentrata sui dati all'interno di Bluestone. Ha consentito ai team di gestire e governare in modo efficiente le risorse di dati.
  • Orchestrazione tramite Amazon MWAA – Bluestone faceva molto affidamento Flussi di lavoro gestiti da Amazon per Apache Airflow (Amazon MWAA) per gestire in modo efficiente le orchestrazioni del flusso di lavoro. Questo framework di orchestrazione si integra perfettamente con varie regole di qualità dei dati, che sono state valutate utilizzando grandi aspettative operatori all'interno dell'ambiente Airflow.
  • AWSDMS – Pietra blu usata Servizio di migrazione del database AWS (AWS DMS) per semplificare il consolidamento dei dati legacy nella piattaforma dati. Questo servizio ha facilitato il trasferimento agevole dei dati dai data warehouse SQL Server legacy al data Lake e al data warehouse, garantendo continuità e accessibilità dei dati.
  • Colla AWS – Bluestone ha usato il Colla AWS Ambiente PySpark per l'implementazione dei processi di estrazione, trasformazione e caricamento dei dati (ETL). Ha svolto un ruolo fondamentale nell'elaborazione dei dati provenienti da vari sistemi di origine, fornendo coerenza dei dati e idoneità per l'uso analitico.
  • Catalogo dati di AWS Glue – Bluestone ha centralizzato la gestione dei dati utilizzando il Catalogo dati di AWS Glue. Questo catalogo fungeva da spina dorsale per la gestione delle risorse di dati all'interno del patrimonio di dati Bluestone, migliorando la rilevabilità e l'accessibilità dei dati.
  • AWS CloudTrail – Implementato Bluestone AWS CloudTrail monitorare e verificare rigorosamente le attività della piattaforma. Questo servizio incentrato sulla sicurezza ha fornito visibilità essenziale sulle azioni della piattaforma, garantendo conformità e sicurezza nelle operazioni sui dati.

La suite completa di servizi di AWS è stata fondamentale per spingere la piattaforma dati Bluestone verso il successo basato sui dati. Questi servizi non solo hanno consentito un’efficiente governance dei dati, garanzia della qualità e orchestrazione, ma hanno anche promosso una cultura della centralità dei dati all’interno dell’organizzazione, portando in ultima analisi a un migliore processo decisionale e ad un vantaggio competitivo. Il viaggio di Bluestone mette in mostra la potenza di AWS nel trasformare le organizzazioni in leader guidati dai dati nei rispettivi settori.

Architettura dei dati Bluestone

L'architettura dei dati di Bluestone ha subito una trasformazione dinamica, passando da una struttura Lake House a un'architettura a rete di dati. Questa evoluzione è stata guidata dalla necessità dell'organizzazione di prodotti dati con proprietà distribuita e dalla necessità di un meccanismo centralizzato per governare e accedere a questi prodotti dati nelle varie unità aziendali.

Il diagramma seguente illustra l'architettura della soluzione e il relativo utilizzo di AWS e servizi di terze parti.

Esaminiamo più a fondo come si è svolto questo cambiamento di architettura e cosa comporta:

  • La necessità di un cambiamento – Il catalizzatore di questa trasformazione è stata la crescente domanda di prodotti dati discreti, adattati ai requisiti specifici di ciascuna unità aziendale all’interno di Bluestone. Poiché queste unità aziendali generavano le proprie risorse di dati nei rispettivi domini, la sfida consisteva nel gestire, governare e accedere in modo efficiente a questi diversi archivi di dati. Bluestone ha riconosciuto la necessità di un approccio più strutturato e scalabile.
  • Prodotti dati con proprietà distribuita – In risposta a questa richiesta, Bluestone ha adottato un'architettura data mesh, che ha consentito la creazione di prodotti dati distinti in linea con le esigenze di ciascuna unità aziendale. Ciascuno di questi prodotti di dati esiste in modo indipendente, generando e curando risorse di dati specifiche per il suo dominio. Questi prodotti di dati fungono da hub di dati individuali, garantendo l'autonomia e la specializzazione dei dati.
  • Integrazione centralizzata del catalogo – Per semplificare la scoperta e l’accessibilità delle risorse di dati disperse in questi prodotti di dati, Bluestone ha introdotto un catalogo centralizzato. Questo catalogo funge da repository unificato in cui tutti i prodotti di dati registrano le rispettive risorse di dati. Serve come componente critico per il rilevamento e la gestione dei dati.
  • Integrazione dello strumento di governance dei dati – Un’altra considerazione fondamentale è stata garantire la governance dei dati e il tracciamento della lineage all’interno dell’organizzazione. Bluestone ha implementato un solido strumento di governance dei dati che si collega al catalogo centralizzato. Questa integrazione garantisce che la linea generale delle risorse di dati sia mappata e acquisita in modo completo. I processi di governance dei dati vengono quindi applicati in modo coerente, garantendo la qualità e la conformità dei dati.
  • Condivisione dei dati Amazon Redshift per controllo e accesso – Per facilitare l’accesso controllato e sicuro alle risorse di dati che risiedono nelle istanze Redshift dei singoli prodotti dati, Bluestone ha utilizzato la condivisione dei dati di Amazon Redshift. Questa funzionalità consente di esporre e condividere in modo selettivo le risorse di dati, fornendo un controllo granulare sull'accesso mantenendo la sicurezza e l'integrità dei dati.

In sostanza, il viaggio di Bluestone da una casa sul lago a un'architettura a rete di dati rappresenta un cambiamento strategico nella gestione e nella governance dei dati. Questa trasformazione consente a diverse business unit di operare in modo autonomo all’interno dei propri domini di dati, garantendo al tempo stesso controllo, governance e accessibilità centralizzati. L'integrazione di un catalogo centralizzato e strumenti di governance dei dati, insieme alla flessibilità della condivisione dei dati di Amazon Redshift, crea un ecosistema armonioso in cui prospera il processo decisionale basato sui dati, contribuendo in definitiva al successo di Bluestone nel panorama finanziario in continua evoluzione.

Conclusione

Il percorso di Bluestone da un sistema legacy basato su SQL a una moderna architettura mesh di dati su AWS ha migliorato il modo in cui l'organizzazione interagisce con i dati e l'ha posizionata come una potenza basata sui dati nel settore finanziario. Adottando i servizi AWS, Bluestone è riuscita a realizzare una piattaforma dati centralizzata, scalabile e governabile che consente ai suoi team di prendere decisioni informate, promuovere l'innovazione e rimanere all'avanguardia nel panorama competitivo. Questa trasformazione costituisce una prova convincente del fatto che le funzionalità di condivisione dei dati di Amazon Redshift e AWS Cloud rappresentano un ottimo percorso per le organizzazioni che desiderano intraprendere il proprio viaggio basato sui dati con AWS.


Informazioni sugli autori

Toney Thomas è Data Architect e Data Engineering Lead presso Bluestone, rinomato per il suo ruolo nell'immaginare e coniare la strategia pionieristica dei dati dell'azienda. Con un focus strategico sullo sfruttamento della potenza della tecnologia avanzata per affrontare complesse sfide aziendali, Toney guida un team dinamico di ingegneri di dati, ingegneri di reporting, specialisti di controllo qualità e analisti aziendali presso Bluestone. La sua leadership si estende alla guida dell'implementazione di solidi framework di governance dei dati in diverse unità organizzative. Sotto la sua guida, Bluestone ha ottenuto un notevole successo, inclusa l'implementazione di piattaforme innovative come un sistema di dati aziendali data mesh completamente governato con meccanismi di qualità dei dati incorporati, allineandosi perfettamente con l'impegno dell'organizzazione verso la democratizzazione e l'eccellenza dei dati.

Ben Vengerovsky è un Product Manager della piattaforma dati presso Bluestone. La sua passione è l'utilizzo della tecnologia cloud per rivoluzionare l'infrastruttura dati dell'azienda. Con esperienza nel settore dei prestiti ipotecari e una profonda conoscenza dei servizi AWS, Ben è specializzato nella progettazione di soluzioni dati scalabili ed efficienti che guidano la crescita del business e migliorano le esperienze dei clienti. Si dedica alla collaborazione con team interfunzionali per tradurre i requisiti aziendali in soluzioni tecniche innovative che potenziano il processo decisionale basato sui dati.

Rada Stanic è Chief Technologist presso Amazon Web Services, dove aiuta i clienti ANZ in diversi segmenti a risolvere i loro problemi aziendali utilizzando le tecnologie cloud AWS. Le sue aree di interesse speciali sono l'analisi dei dati, l'apprendimento automatico/intelligenza artificiale e la modernizzazione delle applicazioni.

spot_img

L'ultima intelligenza

spot_img