Logo Zéphyrnet

Comment la mise en œuvre de la capture de données modifiées peut faire évoluer les capacités de données de votre organisation

Date :

Alors que les entreprises cherchent des moyens d'utiliser leurs données pour trouver de nouvelles opportunités, l'importance des informations en temps réel augmente. Mais de nombreuses entreprises s'appuient encore sur des approches plus anciennes et plus lentes de la gestion des données qui ont du mal à suivre le rythme des affaires d'aujourd'hui. Les entreprises savent qu'elles ont besoin de meilleures méthodes pour gérer les données sans ralentir les systèmes de production. Mais combiner de manière fiable les données de plusieurs systèmes en un seul endroit sans ralentissements est difficile sans une approche de réplication avancée. La réplication des données permet un accès consolidé aux données opérationnelles pour l'analyse en temps réel, le streaming de données et les cas d'utilisation d'apprentissage automatique.

La capture de données modifiées (CDC) est un Gestion des données stratégie qui aide les entreprises à transférer en continu les données au fur et à mesure qu'elles changent, avec une latence allant jusqu'à quelques secondes. Avec un accès plus rapide aux données les plus récentes, les entreprises peuvent accélérer la vitesse à laquelle elles prennent des décisions. J'expliquerai ici comment fonctionne la capture de données modifiées basée sur le journal et pourquoi c'est la base incontournable pour synchroniser les données de plusieurs systèmes de base de données.

COURS À LA DEMANDE : BUSINESS ANALYTICS IN ACTION

Apprenez de nouvelles compétences et stratégies d'analyse et d'apprentissage automatique que vous pouvez mettre en œuvre immédiatement dans votre organisation.

L'un des plus grands défis des anciennes approches d'extraction de données est qu'elles peuvent ajouter une surcharge importante aux systèmes de base de données qui gèrent l'entreprise. Si une entreprise n'a pas besoin d'accéder à ces données de manière régulière, par exemple au milieu de la nuit, elle peut exécuter des processus par lots ou prendre des instantanés lorsque la charge est faible, tant que ces données ne sont pas susceptibles d'être nécessaires ou modifiés pendant le processus de transfert.

Mais avec la nature mondiale 24 heures sur 7 et XNUMX jours sur XNUMX du traitement des transactions en ligne, les entreprises n'ont peut-être pas planifié de temps d'arrêt. Lorsque les entreprises mettent en œuvre analyses prédictives ou des recommandations de produits en temps réel, les données d'hier ne sont pas très utiles. Les entreprises doivent tenir compte de la rapidité avec laquelle elles prennent des décisions et utiliser cette exigence pour indiquer la fréquence à laquelle elles mettent à jour leurs systèmes. Mon collègue Alexander Lovell a écrit à ce sujet récemment dans l'article «Ce que vous ne savez pas sur les données en temps réel vous tue. »

Pour les bases de données, la réplication de capture de données modifiées basée sur les journaux offre le meilleur des deux mondes en termes de rapidité et de commodité : la configuration du pipeline est minimale et les administrateurs du système source ne s'inquiètent pas de la dégradation des performances. Une fois que les données résident dans la destination cible, les équipes d'analyse peuvent effectuer une analyse sans affecter les sources de données de production ou les systèmes de base de données. 

Capture de données de modification basée sur le journal et alternatives

Une grande avancée avec la plupart des bases de données de traitement des transactions en ligne (OLTP) conformes à ACID est l'adoption d'un journal des transactions, de sorte que toutes les modifications sont disponibles à tout moment et peuvent être lues par un petit agent s'exécutant sur la base de données. Le journal des transactions est la base de la récupération de la base de données et garantit que la qualité des données est maintenue même si un système hôte ou source tombe en panne en cours de transfert.

Certaines entreprises utilisent des attributs basés sur des filigranes élevés comme la date de dernière modification pour suivre les modifications. Cette approche maintient la cohérence lorsque les données d'une ligne ou d'une colonne changent. Mais si une ligne est supprimée, il n'y a plus de date de dernière modification, ce qui rend difficile le suivi des suppressions. Une approche consiste à calculer les différences entre la source et la cible, mais cela consomme beaucoup de ressources et peut ralentir les performances du système.

Les suppressions posent également un défi pour le traitement par lots filtré. Si les données ne sont plus stockées sur le système source, un traitement par lots peut ne pas « savoir » pour supprimer la ligne pertinente sur le système de destination.

Avec les instantanés, les entreprises peuvent obtenir une copie complète de leurs données, mais les données sont gelées au moment où l'instantané est pris - les mises à jour, modifications, etc. en temps réel ne sont pas accessibles avant le prochain instantané, et les données ne se propage pas vers l'avant. Lorsque les entreprises ont besoin de transformer ou de consolider des données sans impact sur les systèmes sources, il est très difficile de vérifier quelles données ont été modifiées à l'aide d'un instantané.

Un grand avantage de l'approche de capture de données de modification basée sur le journal en temps réel est qu'elle n'ajoute qu'une charge minuscule au système de base de données source principale pour suivre les modifications. La capture de données modifiées permet aux données d'être transférées au fur et à mesure que des modifications se produisent. Cette approche utilise un lecteur de journal binaire pour analyser directement le journal des transactions, sans couches d'API intermédiaires susceptibles de ralentir ou de limiter le transfert de données. Un lecteur de journal binaire n'a aucun impact sur le traitement de la base de données et peut même être exécuté sur un système de secours ou en lisant des sauvegardes du journal.

Les algorithmes d'analyse doivent souvent combiner des données provenant de plusieurs sources telles que le CRM, les données de production ou le comportement de première partie pour exécuter des modèles d'apprentissage automatique. Mais ce travail est gourmand en calculs. La capture de données modifiées aide les entreprises à utiliser des données suffisamment instantanées pour prendre des décisions et des prévisions plus éclairées, sans affecter la base de données principale. 

Cas d'utilisation des données en temps réel

À mesure que les interactions en ligne deviennent plus personnalisées pour chaque personne, il y a un besoin accru de données consolidées qui peuvent résoudre des problèmes limités dans le temps. Les exigences marketing telles que les recommandations instantanées, l'ajustement du flux d'un site Web ou la création d'offres uniques nécessitent toutes des décisions en quelques millisecondes basées sur les comportements des clients en temps réel. 

Combiner plusieurs flux de données en temps réel devient encore plus compliqué, mais est également essentiel pour les entreprises industrielles. Prenons l'exemple d'une entreprise industrielle qui construit et entretient des locomotives de chemin de fer. Ces types d'entreprises sont confrontées à un problème de science des données important lorsqu'elles tentent de mettre en œuvre une maintenance prédictive avec des techniques de gestion des données plus anciennes. Les capteurs de l'équipement collectent des données d'usure qui peuvent indiquer quand des pannes sont susceptibles de se produire. Les pièces doivent être remplacées par un ingénieur qualifié avant qu'une panne ne se produise. Cependant, la locomotive se déplace et l'objectif est de minimiser les temps d'arrêt afin que le chemin de fer puisse maximiser l'utilisation de l'équipement. Par exemple, si un moteur doit être réparé, le chemin de fer doit confirmer que la locomotive 7280-45 sera à Chicago mardi et s'assurer que les bonnes pièces et la bonne mécanique sont également disponibles au même moment et au même endroit. Ces entreprises utilisent un système d'intelligence artificielle pour combiner les données de localisation des actifs, la planification, l'inventaire des pièces et les besoins en main-d'œuvre en un seul endroit afin qu'elles sachent que le travail peut être effectué comme prévu. Mais travailler à partir des données d'hier rend cela presque impossible. 

Pour un grand fabricant de boissons, ces problèmes prennent une échelle de données différente lorsque l'entreprise combine les données SAP ERP, la capacité des embouteilleurs, les prévisions de ventes et d'autres signaux tout en un. entrepôt de données. Une entreprise aussi complexe a besoin de tonnes de données provenant de sources multiples pour trouver des informations. Si les données et l'analyse en temps réel ne sont pas disponibles, une entreprise peut ne pas être en mesure de réagir assez rapidement aux changements du marché.

La capture de données modifiées basée sur le journal vous convient-elle ?

Lors de l'évaluation de la manière d'améliorer votre système de gestion des données pour obtenir le type d'analyse en temps réel qui est essentiel pour les entreprises aujourd'hui, il y a quelques domaines clés à vérifier pour l'état de préparation. 

  1. Identifiez les connecteurs et les sources de données dont vous tirerez parti et réfléchissez aux sources qui pourraient être nécessaires à l'avenir. Un bon cadre montrant comment les données entrent et sortent vous guidera vers la meilleure façon de gérer ces données, et réfléchir à la façon dont vous pourriez incorporer d'autres sources de données vous préparera au succès futur.
  2. Assurez-vous d'avoir accès au journal des transactions sur votre serveur de base de données. Travaillez avec votre équipe informatique pour identifier qui aura besoin d'un accès et toutes les autorisations nécessaires pour transférer les données avec succès. Considérer l'utilisation d'un agent sur le serveur est particulièrement important pour obtenir les meilleures performances avec un impact minimal et suivre le plus grand volume de données. Regardez quels systèmes ont la capacité d'exécuter un agent architecturalement proche de l'endroit où les données sont traitées.
  3. Enfin, demandez-vous si vous aviez plus d'accès en temps réel aux données, qu'est-ce que cela signifierait pour votre organisation ? Que pouvez-vous apprendre sur votre entreprise avec une meilleure compréhension ? Où sont les opportunités de croissance ou les domaines où réduire les ressources ? Si vous aviez plus de contrôle sur les données de votre entreprise, comment pourriez-vous économiser de l'argent et être plus efficace ?

Alors que les entreprises déplacent davantage de leurs données vers le cloud pour tirer parti de la fiabilité du SaaS et optimiser les résultats de l'apprentissage automatique, alimenter ces systèmes avec les données les plus récentes est crucial pour le succès de l'entreprise. La capture de données modifiées à l'aide de bases de données basées sur des journaux est l'un des meilleurs moyens de capturer et d'utiliser rapidement des données précieuses tout en les stockant en toute sécurité pour une analyse plus approfondie. En transférant de manière fiable les données à l'aide d'une approche de capture des données modifiées basée sur les journaux, les entreprises peuvent avoir accès à de nouvelles informations sans ralentir les systèmes de base de données à forte demande.

spot_img

Dernières informations

spot_img