Logo Zéphyrnet

Une brève histoire de la modélisation des données – DATAVERSITY

Date :

la modélisation des donnéesla modélisation des données

La modélisation des données est « l'acte » de créer un modèle de données (physique, logique, conceptuel, etc.) et comprend la définition et la détermination des besoins et des objectifs d'une organisation en matière de données. L'acte de modélisation des données définit non seulement les éléments de données, mais également les structures qu'ils forment et les relations entre eux. Le développement d'un modèle de données nécessite que les modélisateurs de données travaillent en étroite collaboration avec le reste de l'organisation pour établir les objectifs, et les utilisateurs finaux des systèmes d'information pour établir les processus.

Un modèle de données contient des « éléments de données » (par exemple, le nom d'un client, une adresse ou la photo d'un avion) ​​qui sont normalisés et organisés en modèles, ce qui leur permet d'être liés les uns aux autres. Le langage de programmation utilisé a une influence sur la forme du modèle, tout comme la base de données utilisée. Le modèle définit comment les données sont connectées et comment les données sont traitées et stockées à l'intérieur du système informatique. Par exemple, un élément de données représentant une maison peut être associé à d'autres éléments qui, à leur tour, représentent la couleur de la maison, sa taille, son adresse et le nom du propriétaire. L'organisation des informations varie d'un modèle à l'autre.

La modélisation des données, les bases de données et les langages de programmation sont interdépendants et ont évolué ensemble. Les bases de données ont essentiellement évolué en quatre phases, et ces phases ont tendance à se chevaucher :

Dans son livre, "Données et réalité» (1978), Bill Kent a comparé des modèles de données à des cartes routières, soulignant les différences entre le monde réel et le monde des symboles. Il a écrit: "Les autoroutes ne sont pas peintes en rouge, les rivières n'ont pas de lignes de comté qui traversent le milieu et vous ne pouvez pas voir les courbes de niveau sur une montagne." Cette observation contraste avec de nombreux chercheurs qui ont tenté de créer des modèles propres et mathématiquement stériles. Kent a préféré mettre l'accent sur le désordre fondamental de la réalité et a suggéré que les modélisateurs de données devraient se concentrer sur la création d'ordre à partir du chaos, sans déformer la vérité fondamentale. (Avec la popularité de NoSQL et des données non relationnelles, les suggestions de Kent de 1978 se sont avérées être une bonne idée, mais pour des raisons techniques, il nous a fallu du temps pour y arriver.)

Modélisation des données dans les années 1960

Le concept de modélisation des données a commencé à devenir important dans les années 1960, à mesure que les systèmes d'information de gestion (MIS) devenaient populaires. (Avant 1960, il y avait très peu de données ou de stockage de données. Les ordinateurs de cette époque étaient essentiellement des calculatrices géantes). Divers modèles de données théoriques ont été proposés au cours des années 1960, dont trois sont devenus une réalité. Les deux premiers sont "le modèle de données hiérarchique" et "le modèle de données du réseau.” Le troisième modèle théorique, le modèle relationnel, a été proposé par Edgar F. Codd à la fin des années 1960.

Le premier véritable système de base de données commercial est devenu disponible en 1964, s'appelait le Magasin de données intégré (IDS), et a été développé par Charles Bachman, avec General Electric soutenant ses recherches. IDS a utilisé le modèle de réseau, décrit comme un moyen flexible de représenter des objets et leurs relations sous forme de graphique. IBM a choisi de se concentrer sur des modèles hiérarchiques, conçus pour leur Système de gestion de l'information (IMS). Dans ce modèle, les relations entre les enregistrements prennent une forme arborescente. Bien que la structure soit simple, elle est également rigide en raison d'un format de relation « un à plusieurs » confiné.

Au fur et à mesure que la modélisation des données et les SGBD ont évolué, les langages de programmation ont également évolué. Début a été développé en 1967 et a été le premier langage de programmation orienté objet. (D'autres langages ont évolué à partir de Simula, tels que Java, Eifel, C++ et Smalltalk). L'évolution des langages de programmation a eu une forte influence sur l'élaboration des modèles utilisant ces langages.

Modélisation des données dans les années 1970

En 1970, Edgar F.CoddLes idées de ont été publiées. Ses idées offraient une manière très différente de gérer les données, suggérant que toutes les données d'une base de données pourraient être affichées sous forme de tableaux utilisant des colonnes et des lignes, appelées « relations ». Ces « relations » seraient accessibles en utilisant un langage non procédural, ou déclaratif. (N'oubliez pas que les langues influencent la forme du modèle, et vice versa). Plutôt que d'écrire un algorithme pour accéder aux données, cette approche ne nécessitait que la saisie d'un nom de fichier pour identifier les informations souhaitées. Cette idée intelligente a conduit à une productivité beaucoup plus élevée. Il était plus rapide et plus efficace et a incité IBM à créer SQL. (Initialement appelé SEQUEL ou Langage de requête en anglais structuré).

De plus, au cours de cette décennie, GM Nijssen a créé "The Nijssen Information Analysis Method" (NIAM). Étant donné que l'évolution de cette méthode a inclus un certain nombre d'autres développeurs, le titre a été modifié pour lire "Méthode d'analyse de l'information en langage naturel" avec un petit "L" dans la langue, de sorte qu'il conserve le même acronyme. 

Modélisation des données dans les années 1980

NIAM a été développé dans les années 1980, avec l'aide de Terry Halpin. Son nom a été changé en Object Role Modeling (ORM). ORM a entraîné un changement radical dans la façon dont les données sont perçues et comment les traiter. L'état d'esprit traditionnel exigeait que les données et les procédures soient stockées séparément. (Il convient de noter qu'un certain nombre de techniciens n'aiment pas l'ORM car il enfreint toutes les règles.)

À la fin des années 1980, le modèle hiérarchique devenait obsolète, le modèle relationnel de Codd devenant le remplaçant populaire. Optimiseurs de requête était devenu suffisamment bon marché et suffisamment sophistiqué pour que le modèle relationnel soit intégré aux systèmes de bases de données de la plupart des industries. (Les banques et les institutions similaires préfèrent toujours les modèles de données hiérarchiques pour le traitement des informations monétaires et statistiques.)

1998 et NoSQL

La version originale de NoSQL est une base de données développée par Carlo Strozzi en 1998. Il a créé une base de données relationnelle open source, qui "n'exposait pas" les connexions SQL, "mais restait relationnelle". Les versions ultérieures de NoSQL ont complètement abandonné les aspects du modèle relationnel.

De 2008 à aujourd'hui : la croissance des modèles non relationnels

Un d' NoSQLL'avantage de réside dans sa capacité à stocker des données à l'aide d'un format sans schéma ou non relationnel. Un autre est ses énormes capacités de stockage de données, se référant à son évolutivité horizontale. Cela le rend particulièrement bien adapté à la gestion de données non structurées et, à son tour, bien adapté au traitement de données volumineuses. (Le terme « big data » a perdu son sens car l'utilisation du big data est devenue la norme.) Rick van der Lans, un analyste et consultant indépendant, a déclaré dans un Entretien DATAVERSITY:

« Le processus de modélisation des données est toujours là. Vous pouvez regarder ce rôle d'une manière simple, en le considérant comme un processus qui mène à un diagramme. Dans le processus de création du diagramme, vous essayez de comprendre ce que signifient les données et comment les éléments de données sont liés entre eux. Ainsi, compréhension est un aspect clé de la modélisation des données.

Étant donné que les données sont sans structure, divers modèles de données peuvent être utilisés, après coup, pour traduire et cartographier les données, en leur donnant une structure. Il est généralement entendu que différents modèles de données, et les différents langages qui leur sont associés, fournissent différents paradigmes ou différentes façons d'envisager les problèmes et les solutions. Avec NoSQL, il est courant de stocker des données dans une variété d'emplacements (évolutivité horizontale), fournissant une variété de traductions potentielles de modèles de données. Cette technique de stockage est appelée persistance polyglotte. La question devient alors : "Quel est le meilleur modèle de données à utiliser ?" Selon van der Lans :

"C'est pourquoi certains appellent les données multi-structuré, ce qui signifie que vous pouvez regarder les mêmes données sous différents angles. C'est comme si vous utilisiez différents filtres lorsque vous regardiez le même objet.

En raison de sa flexibilité et de sa grande capacité de stockage de données, les magasins de données de style NoSQL sont devenus populaires. Cependant, les bases de données NoSQL ont encore un long chemin à parcourir en termes d'évolution. De nombreuses organisations n'ont pas inclus de modèle de données dans leurs systèmes NoSQL, car la modélisation des données avec de tels magasins de données existe principalement dans le code réel.

Ces mêmes organisations peuvent souhaitez construire et utiliser un modèle de données et augmenter le personnel avec des compétences en modélisation de données. L'écart est basé sur un manque de modélisateurs expérimentés avec les bases de données NoSQL, combiné à presque aucun outil pour la modélisation des données NoSQL. Le besoin de modélisateurs de données NoSQL expérimentés et des outils appropriés est toujours présent.

Hackolade a développé un modèle de données téléchargeable et convivial qui fournit de puissants outils visuels pour NoSQL. Leur logiciel combine la simplicité des modèles de données graphiques avec des bases de données documentaires NoSQL. Cette combinaison réduit le temps de développement, augmente la qualité des applications et réduit les risques d'exécution. Le logiciel est actuellement compatible avec les schémas Couchbase, DynamoDB et MongoDB, et la société prévoit d'introduire un logiciel pour plusieurs autres bases de données NoSQL.

Le désir de modélisation des données dans de nouveaux modèles de bases de données continuera à faire avancer l'industrie alors que de plus en plus d'organisations cherchent à capitaliser sur la diversité des conceptions non relationnelles tout en utilisant leurs pratiques de modélisation des données séculaires et bien connues.

Image utilisée sous licence de Shutterstock.com

spot_img

Dernières informations

spot_img