Zephyrnet-logo

Een hybride aanpak in datawarehousing in de gezondheidszorg met Amazon Redshift

Datum:

Datawarehouses spelen een cruciale rol bij de besluitvorming in de gezondheidszorg en dienen als opslagplaats van historische gegevens. Een datawarehouse voor de gezondheidszorg kan een enkele bron van waarheid zijn voor systemen voor klinische kwaliteitscontrole. Datawarehouses worden meestal gebouwd met behulp van de dimensionale modelbenadering, die consistent heeft voldaan aan de zakelijke behoeften.

Het laden van complexe meerpuntsdatasets in een dimensionaal model, het identificeren van problemen en het valideren van de data-integriteit van de geaggregeerde en samengevoegde datapunten zijn de grootste uitdagingen waarmee klinische kwaliteitsmanagementsystemen worden geconfronteerd. Bovendien is de schaalbaarheid van het dimensionale model complex en vormt het een hoog risico op problemen met de gegevensintegriteit.

De benadering van gegevenskluis lost de meeste problemen op die verband houden met dimensionale modellen, maar brengt ook andere uitdagingen met zich mee bij toepassingen voor klinische kwaliteitscontrole en regelgevende rapporten. Omdat gegevens dichter bij de bron staan ​​en in onbewerkt formaat worden opgeslagen, moeten ze worden getransformeerd voordat ze kunnen worden gebruikt voor rapportage en andere toepassingsdoeleinden. Dit is een van de grootste hindernissen bij de benadering van datakluis.

In dit bericht bespreken we enkele van de belangrijkste uitdagingen waarmee datawarehouses van ondernemingen worden geconfronteerd bij het werken met dimensionale modellen en datakluizen. We duiken diep in een hybride aanpak die tot doel heeft de problemen van deze twee te omzeilen en doen ook aanbevelingen om te profiteren van deze aanpak voor datawarehouses in de gezondheidszorg die gebruikmaken van Amazon roodverschuiving.

Wat is een dimensionaal datamodel?

Dimensionale modellering is een strategie voor het opslaan van gegevens in een datawarehouse met behulp van dimensies en feiten. Het optimaliseert de database voor sneller ophalen van gegevens. Dimensionale modellen hebben een duidelijke structuur en organiseren gegevens om rapporten te leveren die de prestaties verbeteren.

In een dimensionaal model wordt een transactierecord opgedeeld in feiten (vaak numerieke), aanvullende transactiegegevens of dimensies (referentiële informatie die context geeft aan de feiten). Deze indeling van gegevens in feiten en dimensies, evenals het raamwerk tussen entiteiten en relaties van het dimensionale model, stelt complexe bedrijfsprocessen voor op een manier die voor analisten gemakkelijk te begrijpen is.

Een dimensionaal model in datawarehousing is ontworpen voor het lezen, samenvatten en analyseren van numerieke informatie zoals vitale patiëntstatistieken, laboratoriumwaarden, tellingen, enzovoort. Ongeacht de divisie of use case waaraan het gerelateerd is, kunnen dimensionale gegevensmodellen worden gebruikt om gegevens op te slaan die zijn verkregen door het volgen van verschillende processen, zoals ontmoetingen met patiënten, praktijkstatistieken van zorgverleners, nazorgenquêtes en meer.

De meeste datawarehouses van klinische kwaliteit in de gezondheidszorg zijn gebouwd op basis van dimensionale modelleringstechnieken. Het voordeel van het gebruik van dimensionale gegevensmodellering is dat, wanneer gegevens worden opgeslagen in een datawarehouse, het gemakkelijker is om deze te behouden en te extraheren.

Hoewel het een competente datastructuurtechniek is, zijn er uitdagingen op het gebied van schaalbaarheid, het volgen van bronnen en het oplossen van problemen met de benadering van dimensionale modellering. Het volgen en valideren van de bron van geaggregeerde en berekende gegevenspunten is belangrijk in regelgevende rapportagesystemen voor klinische kwaliteit. Elke fout in regelgevende rapporten kan resulteren in een hoge boete van regelgevende en nalevingsinstanties. Deze uitdagingen bestaan ​​omdat de gegevenspunten zijn gelabeld met behulp van betekenisloze numerieke surrogaatsleutels, en elke kleine fout kan de nauwkeurigheid van de voorspelling aantasten en bijgevolg de kwaliteit van beoordelingen beïnvloeden. De manieren om deze uitdagingen het hoofd te bieden, zijn door de dimensies te herstructureren en te overbruggen. Maar dat voegt in de loop van de tijd gegevensruis toe en vermindert de nauwkeurigheid.

Laten we eens kijken naar een voorbeeld van een typische dimensionale datawarehouse-architectuur in de gezondheidszorg, zoals weergegeven in het volgende logische model.

Het volgende diagram illustreert een voorbeeld van een entiteit-relatiediagram van een dimensionaal model.

Dit datamodel bevat dimensies en feitentabellen. U kunt de volgende query gebruiken om basisrelatiegegevens voor zorgverleners en patiënten op te halen uit het dimensionale model:

SELECT * FROM Fac_PatientEncounter FP JOIN Dim_PatientEncounter DP ON FP.EncounterKey = DP.EncounterKey JOIN Dim_Provider PR ON PR.ProviderKey = FP.ProviderKey

Uitdagingen van dimensionaal modelleren

Dimensionale modellering vereist voorverwerking van gegevens voordat een sterschema wordt gegenereerd, wat een grote hoeveelheid gegevensverwerking met zich meebrengt. Elke wijziging van de dimensiedefinitie resulteert in een langdurige en tijdrovende herverwerking van de dimensiegegevens, wat vaak resulteert in gegevensredundantie.

Een ander probleem is dat analisten, wanneer ze alleen vertrouwen op dimensionale modellering, de consistentie en nauwkeurigheid van gegevensbronnen niet kunnen garanderen. Vooral in de gezondheidszorg, waar afstamming, naleving, geschiedenis en traceerbaarheid van het grootste belang zijn vanwege de geldende regelgeving.

Een datakluis probeert een enterprise datawarehouse te bieden en tegelijkertijd de tekortkomingen van dimensionale modelleringsbenaderingen op te lossen. Het is een methode voor gegevensmodellering die is ontworpen voor grootschalige datawarehouse-platforms.

Wat is een datakluis?

De gegevenskluis benadering is een methode en een architectonisch raamwerk om een ​​bedrijf te voorzien van data-analysediensten ter ondersteuning van de behoeften op het gebied van business intelligence, datawarehousing, analyse en datawetenschap. De gegevenskluis is gebouwd rond bedrijfssleutels (hubs) die door het bedrijf zijn gedefinieerd; de sleutels verkregen uit de bronnen zijn niet hetzelfde.

Amazon Redshift RA3-instanties en Amazon Redshift Serverloos zijn perfecte keuzes voor een gegevenskluis. En in combinatie met Amazon Roodverschuivingsspectrum, kan een datakluis meer waarde opleveren.

Er zijn drie lagen in de gegevenskluis:

  • Regie
  • Gegevens kluis
  • Zakelijke kluis

Staging omvat het maken van een replica van de originele gegevens, die voornamelijk wordt gebruikt om het proces van het transporteren van gegevens uit verschillende bronnen naar het datawarehouse te ondersteunen. Er zijn geen beperkingen voor deze laag en deze is doorgaans niet persistent. Het is 1:1 met de bronsystemen, meestal in hetzelfde formaat als dat van de bronnen.

De datakluis is gebaseerd op bedrijfssleutels (hubs), die door de business worden gedefinieerd. Alle relevante gegevens worden geladen en de controleerbaarheid blijft behouden. De kern van alle datawarehousing is integratie, en deze laag bevat geïntegreerde gegevens uit meerdere bronnen die zijn opgebouwd rond de bedrijfsbrede bedrijfssleutels. Hoewel datalakes op datakluizen lijken, biedt een datakluis meer kenmerken van een datawarehouse. Het combineert echter de functionaliteiten van beide.

De bedrijfskluis slaat de uitkomst van bedrijfsregels op, inclusief deduplicatie, conforme resultaten en zelfs berekeningen. Wanneer resultaten worden berekend voor twee of meer datamarts, helpt dit overbodige berekeningen en bijbehorende inconsistenties te elimineren.

Omdat zakelijke kluizen nog steeds niet voldoen aan de rapportagebehoeften, creëren ondernemingen een datamart na de zakelijke kluis om aan de dashboardbehoeften te voldoen.

Datamarts zijn kortstondige weergaven die direct bovenop de zakelijke en onbewerkte kluizen kunnen worden geïmplementeerd. Dit maakt het gemakkelijk om in de loop van de tijd aan te passen en elimineert het gevaar van inconsistente resultaten. Als weergaven niet het vereiste prestatieniveau opleveren, kunnen de resultaten in een tabel worden opgeslagen. Dit is de presentatielaag en is ontworpen als door vereisten gestuurde en scope-specifieke subsets van de magazijngegevens. Hoewel dimensionale modellering vaak wordt gebruikt om deze laag te leveren, kunnen marts ook platte bestanden, .xml-bestanden of andere vormen zijn.

Het volgende diagram toont het typische gegevenskluismodel dat wordt gebruikt in opslagplaatsen van klinische kwaliteit.

Wanneer het eerder getoonde dimensionale model wordt omgezet in een datakluis met dezelfde structuur, kan het als volgt worden weergegeven.

Voordelen van een datakluis

Hoewel elk datawarehouse moet worden gebouwd binnen de context van een overkoepelende bedrijfsstrategie, maken datakluizen een incrementele levering mogelijk. Je kunt klein beginnen en in de loop van de tijd geleidelijk meer bronnen toevoegen, net als de dimensionale ontwerptechniek van Kimball.

Met een gegevenskluis hoeft u de structuur niet opnieuw te ontwerpen wanneer u nieuwe bronnen toevoegt, in tegenstelling tot dimensionale modellering. Bedrijfsregels kunnen eenvoudig worden gewijzigd omdat onbewerkte en door het bedrijf gegenereerde gegevens onafhankelijk van elkaar worden bewaard in een gegevenskluis.

Een gegevenskluis isoleert de reorganisatie van technische gegevens van bedrijfsregels, waardoor de scheiding van deze potentieel lastige processen wordt vergemakkelijkt. Evenzo kan het opschonen van gegevens afzonderlijk van het importeren van gegevens worden onderhouden.

Een datakluis vangt veranderingen in de tijd op. In tegenstelling tot een puur dimensionaal ontwerp, scheidt een gegevenskluis ruwe en door het bedrijf gegenereerde gegevens en accepteert wijzigingen van beide bronnen.

Gegevenskluizen maken het gemakkelijk om de gegevenslijn bij te houden, omdat deze metagegevens bevatten die de bronsystemen identificeren. In tegenstelling tot dimensionaal ontwerp, waarbij gegevens worden opgeschoond voordat ze worden geladen, zijn updates van gegevenskluis altijd geleidelijk en gaan de resultaten nooit verloren, waardoor een automatisch audittraject wordt geboden.

Wanneer onbewerkte gegevens worden opgeslagen in een gegevenskluis, kunnen historische attributen die aanvankelijk niet beschikbaar waren, worden toegevoegd aan het presentatiegebied. Datamarts kunnen worden geïmplementeerd als weergaven door een nieuwe kolom toe te voegen aan een bestaande weergave.

In Data Vault 2.0 elimineren hash-sleutels afhankelijkheden van het laden van gegevens, waardoor het laden van gegevens in bijna realtime mogelijk is, evenals het gelijktijdig laden van gegevens van terabytes tot petabytes. Het proces van het beheersen van zowel entiteitsrelatiemodellering als dimensionaal ontwerp kost tijd en oefening, maar het proces van het automatiseren van een gegevenskluis is eenvoudiger.

Uitdagingen van een datakluis

Een datakluis is geen pasklare oplossing voor datawarehouses en kent enkele beperkingen.

Om te beginnen moet u, wanneer u het gegevenskluismodel rechtstreeks invoert in een rapport over één onderwerpgebied, meerdere soorten gegevens combineren. Vanwege het onvermogen van rapportagetechnologieën om dergelijke gegevensverwerking uit te voeren, kan deze integratie de rapportprestaties verminderen en het risico op fouten vergroten. Data Vault-modellen kunnen de rapportprestaties echter verbeteren door dimensionale modellen op te nemen of extra rapportagelagen toe te voegen. En voor direct te rapporteren datamodellen kan een dimensionaal model worden ontwikkeld.

Bovendien, als de gegevens statisch zijn of afkomstig zijn van één enkele bron, vermindert dit de effectiviteit van gegevenskluizen. Ze doen vaak veel voordelen van gegevenskluizen teniet en vereisen meer bedrijfslogica, die kan worden vermeden.

De opslagbehoefte voor een datakluis is ook aanzienlijk hoger. Drie afzonderlijke tabellen voor hetzelfde onderwerp kunnen het aantal tabellen effectief met drie verhogen, en alleen als het om invoegingen gaat. Als de gegevens eenvoudig zijn, kunt u de hier genoemde voordelen behalen met een eenvoudiger dimensionaal model in plaats van een gegevenskluis te implementeren.

De volgende voorbeeldquery haalt provider- en patiëntgegevens op uit een gegevenskluis met behulp van het voorbeeldmodel dat we in deze sectie hebben besproken:

SELECT * FROM Lnk_PatientEncounter LP JOIN Hub_Provider HP ON LP.ProviderKey = HP.ProviderKey JOIN Dim_Sat_Provider DSP ON HP.ProviderKey = DSP.ProviderKey AND _Current=1 JOIN Hub_Patient Pt ON Pt.PatientEncounterKey = LP.PatientEncounterKey JOIN Dim_Sat_PatientEncounter DPt ON DPt.PatientEncounterKey = Pt.PatientEncounterKey AND _Current=1

De query omvat veel joins, waardoor de diepte en tijd voor het uitvoeren van de query toeneemt, zoals geïllustreerd in het volgende diagram.

De volgende tabel laat zien dat de SQL-diepte en runtime proportioneel zijn, waarbij diepte het aantal joins is. Als het aantal joins toeneemt, neemt ook de looptijd toe en daarmee de kosten.

SQL-diepte Looptijd in seconden Kosten per zoekopdracht in seconden
14 80 40,000
12 60 30,000
5 30 15,000
3 25 12,500

Het hybride model lost belangrijke problemen op die worden opgeworpen door de benaderingen van gegevenskluis en dimensionaal model die we in dit bericht hebben besproken, terwijl het ook verbeteringen in gegevensverzameling mogelijk maakt, waaronder IoT-gegevensstreaming.

Wat is een hybride model?

Het hybride model combineert de datakluis en een deel van het sterschema om de voordelen van zowel de datakluis als het dimensionale model te bieden, en is voornamelijk bedoeld voor logische enterprise datawarehouses.

De hybride benadering is van onderaf ontworpen om geleidelijk en modulair te zijn en kan worden gebruikt voor big data, gestructureerde en ongestructureerde datasets. De primaire gegevens bevatten de bedrijfsregels en normen voor gegevensstandaarden op ondernemingsniveau, evenals aanvullende metagegevens die nodig zijn om gegevens te transformeren, valideren en verrijken voor dimensionale benaderingen. In dit model bieden gegevensprocessen van links naar rechts voordelen voor de gegevenskluis en bieden gegevensprocessen van rechts naar links voordelen voor het dimensionele model. Hier dienen de satelliettabellen van de datakluis als zowel satelliettabellen als dimensionale tabellen.

Na het combineren van de dimensionale en de datakluismodellen, kan het hybride model als volgt worden bekeken.

Het volgende is een voorbeeld van een entiteit-relatiediagram van het hybride model, dat bestaat uit een feitentabel uit het dimensionale model en alle andere entiteiten uit de gegevenskluis. De satellietentiteit van de datakluis speelt de dubbele rol. Wanneer het is verbonden met een gegevenskluis, fungeert het als een sat-tafel en wanneer het is verbonden met een feitentabel, fungeert het als een dimensietabel. Om dit tweeledige doel te dienen, hebben sat-tabellen twee sleutels: een externe sleutel om verbinding te maken met de gegevenskluis en een primaire sleutel om verbinding te maken met de feitentabel.

Het volgende diagram illustreert het fysieke hybride datamodel.

Het volgende diagram illustreert een typische hybride datawarehouse-architectuur.

De volgende query haalt provider- en patiëntgegevens op uit het hybride model:

SELECT * FROM Fac_PatientEncounter FP JOIN Dim_Sat_Provider DSP ON FP.DimProviderID =DSP.DimProviderID JOIN Dim_Sat_PatientEncounter DPt ON DPt.DimPatientEncounterID = Pt.DimPatientEncounterID

Het aantal joins wordt teruggebracht van vijf naar drie door gebruik te maken van het hybride model.

Voordelen van het gebruik van het hybride model

Met dit model wordt structurele informatie gescheiden van beschrijvende informatie om flexibiliteit te bevorderen en re-engineering in het geval van een wijziging te voorkomen. Het handhaaft de gegevensintegriteit, waardoor organisaties hoge boetes kunnen vermijden wanneer de gegevensintegriteit wordt aangetast.

Het hybride paradigma stelt niet-dataprofessionals in staat om te communiceren met onbewerkte data door gebruikers in staat te stellen metadata en regels voor gegevensverrijking bij te werken of te maken. De hybride aanpak vereenvoudigt het proces van het verzamelen en evalueren van datasets voor zakelijke toepassingen. Het maakt gelijktijdig laden van gegevens mogelijk en elimineert de noodzaak van een bedrijfskluis.

Het hybride model profiteert ook van het feit dat er geen afhankelijkheid is tussen objecten in de dataopslag. Met hybride datawarehousing wordt de schaalbaarheid vermenigvuldigd.

U kunt het hybride model op AWS bouwen en profiteren van de voordelen van Amazon Redshift, een volledig beheerd, schaalbaar datawarehouse in de cloud dat uw tijd tot inzichten versnelt met snelle, eenvoudige en veilige analyses op schaal. Amazon Redshift voegt continu functies toe die het sneller, elastischer en gebruiksvriendelijker maken:

  • Het delen van gegevens door Amazon Redshift verbetert het hybride model door de noodzaak voor het kopiëren van gegevens tussen afdelingen weg te nemen. Het vereenvoudigt ook het werk van het behouden van de enige bron van waarheid, het besparen van geheugen en het beperken van redundantie. Het maakt directe, gedetailleerde en snelle gegevenstoegang mogelijk in Amazon Redshift-clusters zonder deze te hoeven kopiëren of verplaatsen. Het delen van gegevens biedt live toegang tot gegevens, zodat gebruikers altijd de meest actuele en consistente informatie zien wanneer deze wordt bijgewerkt in het datawarehouse.
  • Met Redshift Spectrum kunt u gegevens in open formaat rechtstreeks in het Amazon eenvoudige opslagservice (Amazon S3) data lake zonder dat u de gegevens hoeft te laden of uw infrastructuur hoeft te dupliceren, en het integreert goed met het data lake.
  • Met gelijktijdige schaling van Amazon Redshift kunt u consistent snelle prestaties krijgen voor duizenden gelijktijdige zoekopdrachten en gebruikers. Het voegt onmiddellijk capaciteit toe om extra gebruikers te ondersteunen en verwijdert het wanneer de belasting afneemt, zodat u niets hoeft te beheren.
  • Om de voordelen van het gebruik van een hybride model op AWS te realiseren, kunt u vandaag nog aan de slag zonder dat u datawarehouse-clusters hoeft in te richten en te beheren met behulp van Redshift Serverless. Alle gerelateerde services waarmee Amazon Redshift integreert (zoals Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon Sage Maker, Amazon EMR, AWS Lake-formatie en AWS lijm) zijn beschikbaar om met Redshift Serverless te werken.

Conclusie

Met het hybride model kunnen gegevens efficiënt en transparant worden getransformeerd en geladen in een doelgegevensmodel. Met deze aanpak kunnen datapartners datanetwerken efficiënter onderzoeken en vergelijkende effectiviteit bevorderen. En met de verschillende nieuw geïntroduceerde functies van Amazon Redshift, wordt er veel zwaar werk verzet door AWS om aan uw werkbelasting te voldoen, en betaalt u alleen voor wat u gebruikt.

U kunt aan de slag met de volgende stappen:

  1. Maak een Amazon Redshift RA3-instantie voor uw primaire opslagplaats voor klinische gegevens en datamarts.
  2. Bouw een gegevenskluisschema voor de onbewerkte kluis en maak gerealiseerde weergaven voor de zakelijke kluis.
  3. Schakel Amazon Redshift-gegevensshares in om gegevens te delen tussen het producentencluster en het consumentencluster.
  4. Laad de gestructureerde en ongestructureerde gegevens in de gegevenskluis van het producentencluster voor zakelijk gebruik.

Over de auteurs

Bindhu Chinnadurai is een Senior Partner Solutions Architect in AWS, gevestigd in Londen, Verenigd Koninkrijk. Ze heeft meer dan 18 jaar gewerkt in alles voor grootschalige bedrijfsomgevingen. Momenteel werkt ze samen met AWS-partners om klanten te helpen hun workloads naar AWS te migreren, met de nadruk op schaalbaarheid, veerkracht, prestaties en duurzaamheid. Haar expertise is DevSecOps.

 Sarathi Balakrishnan was de Global Partner Solutions Architect, gespecialiseerd in Data, Analytics en AI/ML bij AWS. Hij werkte wereldwijd nauw samen met AWS-partner om oplossingen en platforms op AWS te bouwen om de bedrijfsresultaten van klanten te versnellen met geavanceerde cloudtechnologieën en meer te bereiken in hun cloudverkenningen. Hij hielp met oplossingsarchitectuur, technische begeleiding en best practices om cloud-native oplossingen te bouwen. Hij kwam bij AWS met meer dan 20 jaar ervaring in grote ondernemingen in de landbouw, verzekeringen, gezondheidszorg en life science, marketing en reclame-industrie om data- en AI-strategieën te ontwikkelen en te implementeren.

spot_img

Laatste intelligentie

spot_img