Logo Zéphyrnet

Favoriser l'excellence basée sur les données : comment la plateforme de données Bluestone a adopté le maillage de données pour réussir | Services Web Amazon

Date :

Cet article est co-écrit avec Toney Thomas et Ben Vengerovsky de Bluestone.

Dans le monde en constante évolution de la finance et du crédit, le besoin de données en temps réel, fiables et centralisées est devenu primordial. pierre bleue, une institution financière de premier plan, s'est lancée dans un parcours de transformation pour moderniser son infrastructure de données et passer à une organisation axée sur les données. Dans cet article, nous explorons comment Bluestone utilise les services AWS, notamment le service d'entreposage de données cloud. Redshift d'Amazon, pour mettre en œuvre une architecture de maillage de données de pointe, révolutionnant la façon dont ils gèrent, accèdent et utilisent leurs actifs de données.

Le défi : l’héritage de la modernisation

Bluestone fonctionnait avec une ancienne plateforme de prêt basée sur SQL, comme illustré dans le diagramme suivant. Pour rester compétitifs et réactifs à l’évolution de la dynamique du marché, ils ont décidé de moderniser leur infrastructure. Cette modernisation impliquait la transition vers des plateformes de prêt et de prêt de base basées sur un logiciel en tant que service (SaaS). Étant donné que ces nouveaux systèmes produisaient de grandes quantités de données, le défi consistant à garantir une source unique de vérité pour tous les consommateurs de données est apparu.

Naissance de la plateforme de données Bluestone

Pour répondre au besoin de données centralisées, évolutives et gouvernables, Bluestone a introduit la Bluestone Data Platform. Cette plateforme est devenue la plaque tournante de toutes les activités liées aux données dans l’ensemble de l’organisation. AWS a joué un rôle central dans la concrétisation de cette vision.

Voici les composants clés de la plateforme de données Bluestone :

  • Architecture de maillage de données – Bluestone a adopté une architecture de maillage de données, un paradigme qui répartit la propriété des données entre différentes unités commerciales. Chaque producteur de données au sein de l’organisation dispose de son propre lac de données au format Apache Hudi, garantissant la souveraineté et l’autonomie des données.
  • Architecture de lac de données et d'entrepôt de données à quatre couches – L'architecture comprend quatre couches, dont la couche analytique, qui héberge des faits spécialement conçus et des ensembles de données dimensionnelles hébergés dans Amazon Redshift. Ces ensembles de données sont essentiels pour les cas d'utilisation de reporting et d'analyse, alimentés par des services comme Amazon Redshift et des outils comme Power BI.
  • Analyse de l'apprentissage automatique – Diverses unités commerciales, telles que les services, les prêts, les ventes et le marketing, les finances et le risque de crédit, utilisent des analyses d'apprentissage automatique, qui s'exécutent au-dessus du modèle dimensionnel au sein du lac de données et de l'entrepôt de données. Cela permet une prise de décision basée sur les données dans toute l’organisation.
  • Gouvernance et libre-service – La plateforme de données Bluestone offre une voie régie, organisée et en libre-service pour tous les cas d'utilisation des données. Services AWS comme Formation AWS Lake en conjonction avec Atlan aider à gouverner l’accès aux données et les politiques.
  • Cadre de qualité des données – Pour garantir la fiabilité des données, ils ont mis en œuvre un cadre de qualité des données. Il évalue en permanence la qualité des données et synchronise les scores de qualité avec l'outil de gouvernance Atlan, instaurant ainsi la confiance dans les actifs de données au sein de la plateforme.

Le diagramme suivant illustre l'architecture de leur plate-forme de données mise à jour.

AWS et services tiers

AWS a joué un rôle central et multiforme en permettant à la plateforme de données de Bluestone de prospérer. Les services AWS et tiers suivants ont joué un rôle déterminant dans l'évolution de Bluestone vers une organisation axée sur les données :

  • Redshift d'Amazon – Bluestone a exploité la puissance d'Amazon Redshift et ses fonctionnalités telles que partage de données pour créer un référentiel centralisé d’actifs de données. Cette évolution stratégique a facilité le partage de données et la collaboration transparentes entre diverses unités commerciales, ouvrant la voie à une prise de décision plus éclairée et basée sur les données.
  • Formation du lac – Lake Formation est devenu la pierre angulaire de la stratégie de gouvernance des données de Bluestone. Il a joué un rôle essentiel dans l’application des contrôles d’accès aux données et la mise en œuvre de politiques en matière de données. Avec Lake Formation, Bluestone a assuré la protection des données sensibles et la conformité aux exigences réglementaires.
  • Surveillance de la qualité des données – Pour maintenir la fiabilité et l’exactitude des données, Bluestone a déployé un cadre de qualité des données robuste. Les services AWS ont été essentiels dans cette entreprise, car ils complétaient les outils open source pour établir un système interne de surveillance de la qualité des données. Ce système évalue en permanence la qualité des données, garantissant ainsi la fiabilité des actifs de données de l'organisation.
  • Outils de gouvernance des données – Bluestone a choisi Atlan, disponible via Marketplace AWS , pour mettre en œuvre des outils complets de gouvernance des données. Ce service SaaS a joué un rôle central dans l'intégration de plusieurs équipes commerciales et dans la promotion d'une culture centrée sur les données au sein de Bluestone. Il a permis aux équipes de gérer et de gouverner efficacement les actifs de données.
  • Orchestration à l'aide d'Amazon MWAA – Bluestone était fortement utilisé Flux de travail gérés par Amazon pour Apache Airflow (Amazon MWAA) pour gérer efficacement les orchestrations de flux de travail. Ce cadre d'orchestration s'intègre parfaitement à diverses règles de qualité des données, qui ont été évaluées à l'aide Great Expectations opérateurs dans l’environnement Airflow.
  • AWSDMS – Pierre bleue utilisée Service de migration de base de données AWS (AWS DMS) pour rationaliser la consolidation des données existantes dans la plateforme de données. Ce service a facilité le transfert fluide des données des anciens entrepôts SQL Server vers le lac de données et l'entrepôt de données, assurant ainsi la continuité et l'accessibilité des données.
  • Colle AWS – Bluestone a utilisé le Colle AWS Environnement PySpark pour la mise en œuvre de processus d'extraction, de transformation et de chargement de données (ETL). Il a joué un rôle central dans le traitement des données provenant de divers systèmes sources, assurant la cohérence des données et leur adéquation à une utilisation analytique.
  • Catalogue de données AWS Glue – Bluestone a centralisé la gestion de ses données à l’aide du Catalogue de données AWS Glue. Ce catalogue a servi de base pour la gestion des actifs de données au sein du parc de données Bluestone, améliorant ainsi la découverte et l'accessibilité des données.
  • AWS CloudTrail – Pierre bleue implémentée AWS CloudTrail pour surveiller et auditer rigoureusement les activités de la plateforme. Ce service axé sur la sécurité a fourni une visibilité essentielle sur les actions de la plateforme, assurant ainsi la conformité et la sécurité des opérations de données.

La suite complète de services d'AWS a joué un rôle essentiel dans la propulsation de la plateforme de données Bluestone vers un succès basé sur les données. Ces services ont non seulement permis une gouvernance, une assurance qualité et une orchestration efficaces des données, mais ont également favorisé une culture centrée sur les données au sein de l'organisation, conduisant finalement à une meilleure prise de décision et à un avantage concurrentiel. Le parcours de Bluestone met en valeur la puissance d'AWS pour transformer les organisations en leaders axés sur les données dans leurs secteurs respectifs.

Architecture de données Bluestone

L'architecture de données de Bluestone a subi une transformation dynamique, passant d'un cadre Lake House à une architecture de maillage de données. Cette évolution a été motivée par le besoin de l'organisation de disposer de produits de données à propriété distribuée et par la nécessité d'un mécanisme centralisé pour gérer et accéder à ces produits de données dans diverses unités commerciales.

Le diagramme suivant illustre l'architecture de la solution et son utilisation d'AWS et de services tiers.

Examinons plus en détail comment ce changement d'architecture s'est déroulé et ce qu'il implique :

  • Le besoin de changement – Le catalyseur de cette transformation a été la demande croissante de produits de données discrets adaptés aux exigences uniques de chaque unité commerciale au sein de Bluestone. Étant donné que ces unités commerciales généraient leurs propres ressources de données dans leurs domaines respectifs, le défi résidait dans la gestion, la gouvernance et l'accès efficaces à ces divers magasins de données. Bluestone a reconnu la nécessité d'une approche plus structurée et évolutive.
  • Produits de données à propriété distribuée – En réponse à cette demande, Bluestone a adopté une architecture de maillage de données, qui a permis la création de produits de données distincts alignés sur les besoins de chaque unité commerciale. Chacun de ces produits de données existe indépendamment, générant et conservant des actifs de données spécifiques à son domaine. Ces produits de données servent de hubs de données individuels, garantissant l'autonomie et la spécialisation des données.
  • Intégration de catalogue centralisée – Pour rationaliser la découverte et l'accessibilité des actifs de données dispersés dans ces produits de données, Bluestone a introduit un catalogue centralisé. Ce catalogue agit comme un référentiel unifié où tous les produits de données enregistrent leurs actifs de données respectifs. Il constitue un composant essentiel pour la découverte et la gestion des données.
  • Intégration d'outils de gouvernance des données – Assurer la gouvernance des données et le suivi du traçage dans l’ensemble de l’organisation était une autre considération cruciale. Bluestone a mis en œuvre un outil de gouvernance des données robuste qui se connecte au catalogue centralisé. Cette intégration garantit que la lignée globale des actifs de données est entièrement cartographiée et capturée. Les processus de gouvernance des données sont ainsi appliqués de manière cohérente, garantissant la qualité et la conformité des données.
  • Partage de données Amazon Redshift pour le contrôle et l'accès – Pour faciliter un accès contrôlé et sécurisé aux actifs de données résidant dans les instances Redshift de produits de données individuels, Bluestone a utilisé le partage de données Amazon Redshift. Cette fonctionnalité permet d'exposer et de partager de manière sélective les ressources de données, offrant ainsi un contrôle granulaire de l'accès tout en préservant la sécurité et l'intégrité des données.

Essentiellement, le passage de Bluestone d'une maison au bord d'un lac à une architecture de maillage de données représente un changement stratégique dans la gestion et la gouvernance des données. Cette transformation permet aux différentes unités commerciales de fonctionner de manière autonome dans leurs domaines de données tout en garantissant un contrôle, une gouvernance et une accessibilité centralisés. L'intégration d'un catalogue centralisé et d'outils de gouvernance des données, associée à la flexibilité du partage de données Amazon Redshift, crée un écosystème harmonieux où prospère la prise de décision basée sur les données, contribuant ainsi au succès de Bluestone dans un paysage financier en constante évolution.

Conclusion

Le passage de Bluestone d'un ancien système basé sur SQL à une architecture moderne de maillage de données sur AWS a amélioré la façon dont l'organisation interagit avec les données et l'a positionnée comme une puissance axée sur les données dans le secteur financier. En adoptant les services AWS, Bluestone a réussi à créer une plateforme de données centralisée, évolutive et gouvernable qui permet à ses équipes de prendre des décisions éclairées, de stimuler l'innovation et de garder une longueur d'avance dans le paysage concurrentiel. Cette transformation constitue une preuve irréfutable que les capacités de partage de données d'Amazon Redshift et d'AWS Cloud constituent une excellente voie pour les organisations qui cherchent à se lancer dans leur propre parcours axé sur les données avec AWS.


À propos des auteurs

Tony Thomas est architecte de données et responsable de l'ingénierie des données chez Bluestone, réputé pour son rôle dans la conception et l'élaboration de la stratégie de données pionnière de l'entreprise. Avec un accent stratégique sur l'exploitation de la puissance de la technologie de pointe pour relever des défis commerciaux complexes, Toney dirige une équipe dynamique d'ingénieurs de données, d'ingénieurs de reporting, de spécialistes de l'assurance qualité et d'analystes commerciaux chez Bluestone. Son leadership s'étend à la conduite de la mise en œuvre de cadres de gouvernance des données robustes dans diverses unités organisationnelles. Sous sa direction, Bluestone a obtenu un succès remarquable, notamment le déploiement de plates-formes innovantes telles qu'un système de données d'entreprise entièrement gouverné avec des mécanismes de qualité des données intégrés, s'alignant parfaitement avec l'engagement de l'organisation en faveur de la démocratisation et de l'excellence des données.

Ben Vengerovski est chef de produit de plateforme de données chez Bluestone. Il est passionné par l'utilisation de la technologie cloud pour révolutionner l'infrastructure de données de l'entreprise. Fort d'une expérience dans le domaine des prêts hypothécaires et d'une compréhension approfondie des services AWS, Ben se spécialise dans la conception de solutions de données évolutives et efficaces qui stimulent la croissance de l'entreprise et améliorent l'expérience client. Il aime collaborer avec des équipes interfonctionnelles pour traduire les exigences commerciales en solutions techniques innovantes qui permettent une prise de décision basée sur les données.

Rada Stanic est technologue en chef chez Amazon Web Services, où elle aide les clients d'ANZ de différents segments à résoudre leurs problèmes commerciaux à l'aide des technologies AWS Cloud. Ses domaines d'intérêt particuliers sont l'analyse de données, l'apprentissage automatique/IA et la modernisation des applications.

spot_img

Dernières informations

spot_img