Zephyrnet-logo

Een Data Lake Engine gebruiken om selfservice-inzichten te bieden

Datum:

Klant begrijpen en vervullen
behoeften is de sleutel tot zakelijk succes, en klantgegevens vormen de basis waarop
waaraan dat succes is gebouwd. Toegang tot en analyse van gegevens is bijna altijd
afhankelijk van data-engineers en ander IT-personeel, terwijl besluitvormers wachten om
inzichten krijgen. Een manier om het wachten over te slaan en gegevens rechtstreeks te leveren aan:
eindgebruikers, is door het creëren van een intern Data-as-a-Service (DaaS) model, waardoor
toegang tot bedrijfsgegevens, ongeacht waar deze zich bevinden, zonder de hulp van
IT medewerkers.

Data-as-a-Service

Volgens de DAMA DMBoK2, zijn er twee modellen voor Data-as-a-Service: het ene model gebruikt gegevens van buiten het bedrijf en het tweede model gebruikt de interne gegevens van het bedrijf, die door de IT-afdeling als een "service" worden gepresenteerd aan interne gegevensconsumenten. Externe DaaS gebruikt gegevens in licentie van een leverancier, die op aanvraag worden geleverd, in plaats van te worden opgeslagen en onderhouden door de licentieorganisatie. Een veelvoorkomend voorbeeld van dit type Data-as-a-Service bevat informatie over de effecten die via een beurs worden verkocht en de bijbehorende prijzen. Het interne model van DaaS gebruikt het concept van 'service' binnen een organisatie om bedrijfseigen bedrijfsgegevens of gegevensservices te leveren aan verschillende functies, mensen en operationele systemen.

Daniel Newman, in een bericht op Forbes getiteld: Data as a Service: de grote kans voor bedrijven zei dat de meeste bedrijven met onsite gegevensopslag en -analyse "het moeilijk hebben om gelijke tred te houden met de toenemende vraag naar gegevensgestuurde inzichten." DaaS biedt verzorgde datastromen die zijn afgestemd op de behoeften van de klant, wat waardevolle tijd en moeite bespaart, zei hij. Wanneer bedrijven toegang hebben tot de gegevens die ze nodig hebben in een gebruiksvriendelijke indeling, wordt het gebruik van die gegevens als een troef veel eenvoudiger en minder tijdrovend.

Tomer Shiran, mede-oprichter en CEO van Dremio, zegt dat het doel is om het voor bedrijven mogelijk te maken om eindelijk datagedreven te worden, strevend naar de "heilige graal van analyses, om op elk moment vragen te stellen over de gegevens, ongeacht hoe groot de gegevens zijn of welk systeem het is opgeslagen in.”Shiran vindt dat toegankelijkheid tot analyses vergelijkbaar moet zijn met een hulpprogramma: “Net zoals je thuis elektriciteit kunt aanboren of de kraan kunt openen en je hebt water. Daar hoef je je geen zorgen over te maken.” De realiteit, zei hij, is dat bedrijven niet al hun gegevens op één plek hebben, dus ze zijn verre van in staat om hun gegevens gemakkelijk te openen en te analyseren.

Verspreide gegevens en de last van IT

Gezien veel bedrijven zien:
hun gegevens als hun belangrijkste onderscheidende bezit, moeten ze kunnen nemen
profiteren, zei Shiran, maar voor de meeste bedrijven is dat onmogelijk. Met
gegevens verspreid over meerdere verschillende systemen, toegankelijk voor analyses
wordt te complex en overweldigend, en de vaardigheden zijn er niet om te kunnen
om het te ordenen en er query's op uit te voeren.

IT-personeel wordt tegenwoordig gedwongen gegevens te kopiëren en te verplaatsen van het meer naar data warehouses, kubussen, BI-extracten en aggregatietabellen om voldoende prestaties te krijgen om er vragen over te kunnen stellen, zei Shiran. Maar door dit te doen, wordt ook de reikwijdte van de beschikbare gegevens voor analyse drastisch verkleind. "Het nog niet gerealiseerde doel is om vragen te kunnen stellen over alle gegevens, ongeacht waar deze zich bevinden en toch een extreem snel antwoord te krijgen."

Eindgebruikers begrijpen het niet of niet
geef om het verschil tussen een Oracle-database en een map met parket
bestanden op S3, zei hij. "De enige manier waarop dit ooit gaat werken, is als je kunt"
stel vragen over de gegevens waar ze zich bevinden, en dat is in toenemende mate in data lake-opslag.”

Voor gebruikers aan de zakelijke kant:
dataset is een dataset, en ze willen gewoon gemakkelijk nieuwe bronnen toevoegen, en
ervaar snelle reactietijden, ongeacht of ze een vraag stellen op a
enkele bron of over meerdere bronnen. “Mensen willen niet door een
reisbureau niet meer. Ze willen onafhankelijk zijn en snel kunnen bewegen”

De werkplek is geëvolueerd naar waar
analisten aan de zakelijke kant hebben veel kennis van het gebruik van data en
willen alles kunnen ontdekken en hun eigen vragen kunnen stellen. "Deze mensen"
niet langer alleen een afdruk 's ochtends op hun bureau willen zien. Zij willen
om het zelf te gaan doen.”

Hadoop en Vendor Lock-In-uitdagingen

op Hadoop gebaseerd gegevensmeren uiteindelijk werd het voor bedrijven moeilijk om te creëren, te onderhouden en te gebruiken, zei hij, dus de mensen die de meeste waarde uit hen haalden, waren de ontwikkelaars en technische staf.

"Dremio begon met te denken dat als je helemaal opnieuw zou kunnen beginnen met een schone lei en het radicaal eenvoudiger en sneller zou maken om data lake-opslag en andere bronnen te bevragen, het magisch zou zijn."

De "schone lei" mentaliteit toegestaan
om de wijsheid te zien van het profiteren van de huidige technologische trends in de
industrie, zoals cloudadoptie, en in het bijzonder de trend naar landing
en het opslaan van alle soorten gegevens in cloudgebaseerde data lake-opslag zoals AWS S3 en
Microsoft-ADLS. En het dramatisch toenemende volume van die gegevens betekent dat dat zo is
steeds minder praktisch worden om het te kopiëren, te transformeren en naar gegevens te verplaatsen
magazijnen. Het begon duidelijk te worden dat niet alleen alle bedrijven,
startups en technologiebedrijven, zouden in een mum van tijd gebruikmaken van de publieke cloud
grote manier, zei Shiran, dus ze wilden voortbouwen op die trend.

Ze wilden ook een open
aanpak, waar bedrijven gemakkelijk en gemakkelijk de gewenste clouds konden kiezen
tussen hen migreren. “Veel bedrijven hebben wel een multi-cloudstrategie. Wezen
in staat om dezelfde technologie te gebruiken voor zowel uw on-premise data lake als
uw cloudgebaseerde datameer is net zo belangrijk.”

Een probleem dat ze wilden vermijden was:
vendor lock-in, een trend waar ze de afgelopen tijd over hoorden van bedrijven
decennium. Opgesloten zijn in specifieke leveranciers of in een specifiek soort gegevens
magazijn met torenhoge kosten was een pijnpunt voor klanten, zei hij.
“Onze focus als bedrijf was om te innoveren op een manier die de klant toelaat
om andere rekenmachines en andere tools met hun gegevens te gebruiken.”

Data Lake-engine

Een modern systeem moet de onafhankelijkheid en innovatie van gegevens kunnen ondersteunen door snelle, toegankelijke antwoorden te bieden op verzoeken van gebruikers, ongeacht waar de gegevens zich bevinden. Dremio combineert data lake-opslag met hun speciaal gebouwde data lake-motor, biedt flexibiliteit en controle voor data-architecten en selfservice voor dataconsumenten, zei Shiran. Met de data lake-engine voeren dataconsumenten hun analyses rechtstreeks uit op het data lake, met volledige interactieve prestaties. Alle gegevens blijven op hun plaats, omdat de data lake-engine gegevenskopieën en -verplaatsingen elimineert.

De data lake-engine biedt een door gebruikers gegenereerde semantische laag met een geïntegreerde, doorzoekbare catalogus die alle metadata indexeert, zodat zakelijke gebruikers gemakkelijk al hun gegevens kunnen begrijpen. Het kan verbinding maken met elke BI- of Data Science-tool en ziet er net zo uit als een relationele database. Gegevensbeheer in een standaard virtuele SQL-context maakt snelle, gemakkelijke en kosteneffectieve filtratie, transformatie, samenvoeging en aggregatie van gegevens uit een of meer bronnen mogelijk, allemaal zonder enige tussenkomst van IT- en data-engineeringteams.

Gegevensarchitecten volledige controle behouden: gevoelige gegevens kunnen worden gemaskeerd, machtigingen op rij- en kolomniveau kunnen worden ingesteld en op rollen gebaseerde controle zorgt voor soepele toegang tot alles wat eindgebruikers nodig hebben. Gegevensafstamming is ingebouwd, met relaties tussen gegevensbronnen, virtuele gegevenssets en query's die worden onderhouden in de gegevensgrafiek van Dremio, die precies laat zien waar elke gegevensset vandaan komt.

Shiran gebruikte Royal Caribbean Cruise Line als voorbeeld van een bedrijf dat DaaS gebruikt om hun klanten een persoonlijke ervaring te bieden. “Ze hebben een zeer moderne data-architectuur in de cloud gecreëerd, op Azure, en ze hebben gegevens in een paar dozijn verschillende systemen die worden ingevoerd in Azure Data Lake Storage, "zei hij, variërend van eigendomsbeheer tot hun casino en hun reserveringssystemen.

Het gedrag van de klant wordt vastgelegd in de periode voorafgaand aan het boeken van een cruise en als klanten winkelen voor hun reis, en dit wordt gecombineerd met informatie over wat ze doen op de cruise, evenals de feedback die de klanten geven na hun cruise. Dat uitgebreide gegevensverzamelingsproces zorgt voor een veel dieper begrip van hun klanten, waardoor Royal Caribbean bijvoorbeeld een gepensioneerd echtpaar een ander gericht cruiseaanbod kan sturen dan het aanbod dat ze zouden sturen naar een gezin met vier jonge kinderen.

Enorme verandering schept kansen

“We zitten midden in een enorme
verandering door de opkomst van de public cloud, en met de daaruit voortvloeiende scheiding
van rekenkracht en opslag,” zei Shiran. In het verleden, met Hadoop-clusters,
compute draaide op de opslag, omdat netwerken in die tijd de grootste was
zorg. "Het was de shuffle-snelheid en ik vroeg me af of ik genoeg netwerken had
bandbreedte om deze grote vragen daadwerkelijk te laten werken.” Nu met de wolk,
netwerken is geen issue meer en omdat storage als een service wordt aangeboden,
de berekening is gescheiden. “Dus nu zie je deze kans voor bedrijven om
kies het beste gereedschap voor de klus.”

In een interview op Sourceforge zei Shiran dat DaaS een paradigma is om gegevens gemakkelijk te ontdekken, te beheren, te delen en te analyseren, ongeacht waar ze worden beheerd, hoe groot ze ook zijn en welke tool ook wordt gebruikt voor analyse of visualisatie. DaaS integreert verschillende functionele gebieden in een enkele, schaalbare en zelfbedieningsoplossing. Door het DaaS-paradigma over te nemen, kunnen bedrijven hun dataconsumenten zelfvoorzienend en onafhankelijk maken, terwijl ze hun data-ingenieurs productiever.

"Bedrijven moeten datagedreven zijn om te overleven in de wereld waarin we nu leven, maar tenzij het gemakkelijk is, gaat dat gewoon niet gebeuren," zei Shiran.

Afbeelding gebruikt onder licentie van
Shutterstock.com

Bron: https://www.dataversity.net/using-a-data-lake-engine-to-provide-self-service-insights/

spot_img

Laatste intelligentie

spot_img

Chat met ons

Hallo daar! Hoe kan ik u helpen?