Logo Zéphyrnet

Utilisation d'un moteur de lac de données pour fournir des informations en libre-service

Date :

Comprendre et satisfaire le client
les besoins sont la clé du succès de l'entreprise, et les données client sont la base sur laquelle
sur lequel ce succès se construit. Accéder aux données et les analyser est presque toujours
dépendent des ingénieurs de données et d'autres équipes informatiques, tandis que les décideurs attendent
recevoir des aperçus. Une façon d'éviter l'attente et de fournir des données directement à
utilisateurs finaux, consiste à créer un modèle interne Data-as-a-Service (DaaS), permettant
accès aux données de l'entreprise, où qu'elles se trouvent, sans l'aide de
Le personnel informatique.

Données en tant que service

Selon le DAMA DMBOK2, il existe deux modèles de Data-as-a-Service : un modèle utilise des données externes à l'entreprise, et le second modèle utilise les données internes de l'entreprise, présentées comme un « service » via le service informatique aux consommateurs de données internes. Le DaaS externe utilise des données sous licence d'un fournisseur, fournies à la demande, plutôt que d'être stockées et gérées par l'organisme de licence. Un exemple courant de ce type de Données en tant que service comprend des informations sur les titres vendus en bourse et les prix associés. Le modèle interne de DaaS utilise le concept de « service » au sein d'une organisation pour fournir les données d'entreprise ou les services de données d'une entreprise à diverses fonctions, personnes et systèmes opérationnels.

Daniel Newman, dans un post sur Forbes intitulé Les données en tant que service : la grande opportunité pour les entreprises a déclaré que la plupart des entreprises disposant de stockage et d'analyse de données sur site "ont du mal à répondre à la demande croissante d'informations basées sur les données". DaaS propose des flux de données adaptés aux besoins des clients, ce qui permet d'économiser un temps et des efforts précieux, a-t-il déclaré. Lorsque les entreprises ont accès aux données dont elles ont besoin dans un format facile à utiliser, cela rend l'exploitation de ces données en tant qu'actif beaucoup plus facile et prend moins de temps.

Tomer Shiran, co-fondateur et PDG de Drémio, déclare que l'objectif est de permettre aux entreprises de devenir enfin axées sur les données, en s'efforçant d'atteindre le "Saint Graal de l'analyse, de poser n'importe quelle question sur les données à tout moment, quelle que soit la taille des données ou de quel système il s'agit. Shiran pense que l'accessibilité à l'analyse devrait être similaire à un service public : "Tout comme vous pouvez brancher l'électricité ou ouvrir le robinet à la maison et vous avez de l'eau. Vous n'avez pas à vous en soucier. La réalité, a-t-il dit, est que les entreprises n'ont pas toutes leurs données au même endroit, elles sont donc loin de pouvoir accéder et analyser facilement leurs données.

Données dispersées et charge informatique

Considérant que de nombreuses entreprises voient
leurs données comme leur principal atout différenciateur, ils doivent pouvoir prendre
en profiter, a déclaré Shiran, mais pour la plupart des entreprises, c'est impossible. Avec
données dispersées dans plusieurs systèmes différents, y accéder à des fins d'analyse
devient trop complexe et écrasante, et les compétences ne sont pas là pour pouvoir
pour l'organiser et exécuter des requêtes dessus.

Aujourd'hui, le personnel informatique est obligé de copier et de déplacer des données du lac vers entrepôts de données, des cubes, des extraits de BI et des tables d'agrégation afin d'obtenir suffisamment de performances pour pouvoir poser des questions, a déclaré Shiran. Mais cela réduit également considérablement la portée des données disponibles pour l'analyse. "L'objectif encore non réalisé est de pouvoir poser des questions sur toutes les données, où qu'elles se trouvent, tout en obtenant une réponse extrêmement rapide."

Les utilisateurs finaux ne comprennent pas ou ne comprennent pas
se soucier de la différence entre une base de données Oracle et un annuaire de parquet
fichiers sur S3, dit-il. "La seule façon dont cela fonctionnera, c'est si vous pouvez
poser des questions sur les données où elles se trouvent, et de plus en plus, c'est dans le stockage du lac de données.

Pour les utilisateurs du côté entreprise, un
l'ensemble de données est un ensemble de données, et ils veulent juste ajouter facilement de nouvelles sources, et
bénéficient de temps de réponse rapides, qu'ils interrogent sur un
source unique ou sur plusieurs sources. "Les gens ne veulent pas passer par une
agent de voyage plus. Ils veulent être indépendants et libres de se déplacer rapidement »

Le lieu de travail a évolué jusqu'à
les analystes du côté commercial connaissent très bien l'utilisation des données et
veulent pouvoir explorer tout cela et poser leurs propres questions. « Ces gens
ne veulent plus voir une impression sur leur bureau le matin. Ils veulent
aller le faire eux-mêmes.

Défis liés à Hadoop et au verrouillage des fournisseurs

Basé sur Hadoop lacs de données Il est finalement devenu difficile pour les entreprises de créer, de maintenir et d'utiliser, a-t-il déclaré, de sorte que les personnes qui en ont tiré le meilleur parti étaient les développeurs et le personnel technique.

"Dremio a commencé par penser que si vous pouviez tout recommencer à zéro et rendre radicalement plus facile et plus rapide l'interrogation du stockage du lac de données et d'autres sources, ce serait magique."

La mentalité de « table rase » a permis
qu'ils voient la sagesse de capitaliser sur les tendances technologiques actuelles dans le
l'industrie, comme l'adoption du cloud, et en particulier la tendance à l'atterrissage
et stocker tous les types de données dans un stockage de lac de données basé sur le cloud comme AWS S3 et
Microsoft ADLS. Et le volume considérablement croissant de ces données signifie qu'il est
devenant de moins en moins pratique pour le copier, le transformer et le déplacer en données
entrepôts. Il commençait à devenir clair que toutes les entreprises, pas seulement
startups et entreprises technologiques, tireraient parti du cloud public dans un
grand chemin, a déclaré Shiran, alors ils voulaient s'appuyer sur cette tendance.

Ils voulaient aussi avoir une ouverture
approche, où les entreprises pouvaient choisir les clouds qu'elles voulaient et facilement
migrer entre eux. "Beaucoup d'entreprises ont une stratégie multi-cloud. Être
capable d'utiliser cette même technologie à la fois pour votre lac de données sur site et
votre lac de données basé sur le cloud est tout aussi important. »

Un problème qu'ils voulaient éviter était
verrouillage du fournisseur, une tendance dont ils avaient entendu parler par les entreprises au cours de la dernière
décennie. Être enfermé dans des fournisseurs spécifiques ou dans un type spécifique de données
entrepôt avec des coûts qui montent en flèche a été un point douloureux pour les clients, a-t-il déclaré.
"Notre objectif en tant qu'entreprise a été d'innover de manière à permettre au client
d'utiliser d'autres moteurs de calcul et d'autres outils avec leurs données.

Moteur de lac de données

Un système moderne doit pouvoir soutenir l'indépendance des données et l'innovation en fournissant des réponses rapides et accessibles aux demandes des utilisateurs, quel que soit l'endroit où se trouvent les données. Dremio combine le stockage de lac de données avec leur solution spécialement conçue moteur de lac de données, offrant flexibilité et contrôle aux architectes de données, et libre-service aux consommateurs de données, a déclaré Shiran. Avec le moteur de lac de données, les consommateurs de données effectuent leurs analyses directement sur le lac de données, avec des performances interactives complètes. Toutes les données restent en place, car le moteur de lac de données élimine les copies et les déplacements de données.

Le moteur de lac de données fournit une couche sémantique générée par l'utilisateur avec un catalogue intégré et consultable qui indexe toutes les métadonnées afin que les utilisateurs professionnels puissent facilement donner un sens à toutes leurs données. Il peut se connecter à n'importe quel outil de BI ou de Data Science et ressemble à un base de données relationnelle. La curation des données dans un contexte virtuel SQL standard permet une filtration, une transformation, une jointure et une agrégation rapides, faciles et économiques des données à partir d'une ou plusieurs sources, le tout sans aucune implication des équipes informatiques et d'ingénierie des données.

Architectes de données gardez un contrôle total : les données sensibles peuvent être masquées, des autorisations au niveau des lignes et des colonnes peuvent être définies, et le contrôle basé sur les rôles garantit un accès fluide à tout ce dont les utilisateurs finaux ont besoin. Le lignage des données est intégré, avec des relations entre les sources de données, les ensembles de données virtuels et les requêtes maintenues dans le graphique de données de Dremio, indiquant exactement d'où provient chaque ensemble de données.

Shiran a utilisé Royal Caribbean Cruise Line comme exemple d'entreprise qui utilise DaaS pour offrir une expérience personnalisée à ses clients. "Ils ont créé une architecture de données très moderne dans le cloud, sur Azur, et ils ont des données dans une vingtaine de systèmes différents alimentant Azure Data Lake Storage », a-t-il déclaré, allant de la gestion immobilière à leur casino en passant par leurs systèmes de réservation.

Le comportement des clients est capturé dans la période précédant la réservation d'une croisière et pendant que les clients achètent leur voyage, et cela est combiné avec des informations sur ce qu'ils font pendant la croisière, ainsi que les commentaires que les clients fournissent après leur croisière. Ce processus complet de collecte de données fournit une compréhension beaucoup plus approfondie de leurs clients, permettant à Royal Caribbean, par exemple, d'envoyer à un couple de retraités une offre de croisière ciblée différente de celle qu'il enverrait à une famille avec quatre jeunes enfants.

Un changement massif engendre une opportunité

"Nous sommes au milieu d'un énorme
changement dû à la montée en puissance du cloud public, et avec la séparation qui en résulte
de calcul et de stockage », a déclaré Shiran. Dans le passé, avec les clusters Hadoop, le
le calcul fonctionnait sur le stockage car à l'époque, la mise en réseau était la plus grande
préoccuper. "C'était la vitesse de lecture aléatoire, et je me demandais si j'avais assez de réseautage
bande passante pour faire fonctionner ces grandes requêtes. Maintenant avec le nuage,
la mise en réseau n'est plus un problème, et parce que le stockage est proposé en tant que service,
le calcul est séparé. "Alors maintenant, vous voyez cette opportunité pour les entreprises de
choisir le meilleur outil pour le travail.

Dans une interview sur Sourceforge, Shiran a déclaré que le DaaS est un paradigme pour faciliter la découverte, la conservation, le partage et l'analyse des données, quel que soit l'endroit où elles sont gérées, quelle que soit leur taille et quel que soit l'outil utilisé pour l'analyse ou la visualisation. DaaS intègre plusieurs domaines fonctionnels dans une solution unique, évolutive et en libre-service. En adoptant le paradigme DaaS, les entreprises peuvent rendre leurs consommateurs de données plus autonomes et indépendants, tout en rendant leurs ingénieurs de données plus productif.

"Les entreprises doivent être axées sur les données pour survivre dans le monde dans lequel nous vivons actuellement, mais à moins que ce ne soit facile, cela n'arrivera tout simplement pas", a déclaré Shiran.

Image utilisée sous licence de
Shutterstock.com

Source : https://www.dataversity.net/using-a-data-lake-engine-to-provide-self-service-insights/

spot_img

Dernières informations

spot_img