Een nadere blik op de voorjaarsdata- en analyse-implementaties van Google

As Natalie Gagliordi bedekt in haar rapport vanochtend kondigt Google previews aan van een drietal nieuwe data- en analysediensten die enkele belangrijke hiaten in zijn portfolio opvullen en zich bezighouden met realtime integratie, het delen van gegevens en governance. De rode draad gaat over connectiviteit met bestaande databases, zowel on-premise als in de cloud, en het opzetten van een nieuw weefsel voor de analytische diensten van Google dat een gemeenschappelijke backplane zal bieden voor het ontdekken, beveiligen en beheren van gegevens.

De aankondigingen van Google passen in een patroon dat we momenteel zien bij de cloudproviders: nu hun databasebeheer- en analyseportfolio's voller worden, voegen ze nu bindweefsel toe. We nemen de nieuwste services van Google onder de loep, waaronder Datastream, Analytics Hub en Dataplex.

Datastream en DMS: automatisering van real-time replicatie en databasemigratie

Deze week kondigt Google een preview aan van Datastream, een serverloze change data capture (CDC) en replicatieservice die wijzigingsstromen van Oracle- en MySQL-databases naar een keuze uit verschillende Google Cloud-doelen brengt, waaronder BigQuery, Cloud SQL, Cloud spanner en Google Cloud Storage. Sterker nog, de replicatie van Google Datastream is realtime, hoewel netwerklatenties een vertraging zullen veroorzaken bij bronnen buiten Google Cloud.

Datastream vormt een aanvulling op en deelt een deel van dezelfde onderliggende technologie met Migratieservice voor Google Cloud-databases (DMS) dat werd afgelopen najaar aangekondigd en eind maart algemeen beschikbaar gesteld. We gaan beide in deze sectie analyseren.

Op het eerste gezicht zou het nieuwe gemakkelijk te verwarren zijn Datastream-service met DMS omdat beide verbinding maken met databases buiten Google Cloud; beide zijn serverloos; beide gebruiken vergelijkbare technologie voor het vastleggen van veranderingsgegevens; en beide automatiseren de configuraties, zoals het instellen van de connectiviteit, die traditioneel aanzienlijke handmatige inspanningen vereisten voor de inrichting.

Maar de gebruiksscenario's zijn anders: Datastream is bedoeld voor doorlopende replicaties met lage latentie, zoals voor realtime analyses of applicaties die gebeurtenisgestuurde architecturen vereisen, terwijl DMS voorlopig bedoeld is voor eenmalige lift-and-shift-databasemigraties naar die van Google Cloud. beheerde databases (zoals we hieronder opmerken, dat gaat veranderen). Hoewel Datastream heterogene ondersteuning biedt, is DMS voorlopig beperkt tot like-to-like-migraties: het ondersteunt de overgang van elk exemplaar van MySQL of PostgreSQL, van bronnen zoals on-premises of Amazon RDS, naar Cloud SQL met MySQL- of PostgreSQL-doelen respectievelijk. DMS werkt met behulp van de native datareplicatie-engines van MySQL en PostgreSQL.

Technisch gezien kan elk van de DMS-services uit elk van de drie clouds offline (eenmalige) of online (continue replicatie van updates) migraties bieden, maar ze zijn niet opgezet als realtime datareplicatieservices zoals Datastream. Er is nog een ander onderscheidend kenmerk bij beide Google Cloud-services (Datastream en DMS): het serverloze ontwerp, dat ondersteuning biedt voor automatisch schalen, waardoor klanten niet meer de cloudinfrastructuur hoeven te configureren en in te richten.

Er zijn nog enkele subtiele verschillen met betrekking tot de dekking. AWS- en Azure DMS-services ondersteunen een breed scala aan databasebronnen en -doelen en omvatten tools voor schemaconversie, zodat bijvoorbeeld een Oracle-database kan worden toegewezen aan PostgreSQL, of een SQL Server-database kan worden toegewezen aan MySQL. Toegegeven, bij het migreren tussen verschillende databases zal de complexiteit toenemen, vooral bij het vertalen van code en ondersteunde gegevenstypen, die niet allemaal kunnen worden geautomatiseerd. Voorlopig ontbeert het DMS van Google conversiemogelijkheden omdat het alleen like-to-like-migraties target, maar heterogene migraties en schemaconversiemogelijkheden zijn in de maak, gedeeltelijk gebaseerd op dezelfde CDC-engine die Datastream aandrijft.

Dit is de eerste poging van Google Cloud met geautomatiseerde realtime replicatie en databasemigratie. In de aanloop naar de GA-release van DMS eind maart maakten duizenden klanten er gebruik van. Op één uitzondering na (DMS voegt binnenkort ondersteuning toe voor SQL Server like-for-like-migraties) zijn er geen toekomstplannen aangekondigd. Maar we verwachten dat Google bij een komende vernieuwing de gebruikelijke verdachten aan Datastream zal toevoegen: PostgreSQL en SQL Server. Voor DMS zal Google binnenkort heterogene databaseconversies ondersteunen (bijvoorbeeld Oracle naar PostgreSQL), waardoor mogelijkheden voor codeconversie, migratieplanning en datatypeconversies worden toegevoegd.

Analytics Hub: Deel en deel gelijk

Google Cloud zet de eerste stappen in de richting van het openen van een marktplaats voor data en analytische modellen met de nieuwe Analytics Hub. Het biedt een beheerd one-stop-shopping-punt voor datasets en modellen dat een alternatief is voor het informele delen dat momenteel binnen organisaties plaatsvindt. Het nieuwe aanbod van Google roept gedachten op van De datamarktplaats van Snowflake; beide delen de rode draad dat het geen gecommercialiseerde marktplaatsen zijn waar aanbieders kosten in rekening kunnen brengen voor datasets, en beide opereren onder dezelfde gebruikersauthenticatie en toegangscontrole die verder gaat dan datasets en ook analytische modellen omvat. Naast het feit dat de nieuwe Analytics Hub van Google vanaf het begin modellen zal bevatten, zal deze ook visualisatiemogelijkheden bieden (zodat u niet afhankelijk bent van derden). En aangezien Google dit is, bieden ze toegang tot enkele datasets van familiejuwelen, zoals Google Search Trends. Het zou ons niet verbazen als Google uiteindelijk datadiensten of applicaties toevoegt.

Een vraag die bij ons opkomt is hoe de modelmarktplaats van de analysehub zal samenwerken Het AI-portfolio van Google, en vooral hoe het zou samenwerken met modellevenscyclusbeheerdiensten, die op dit moment zouden worden aangeboden door Google Cloud-partners. De uitdaging is ervoor te zorgen dat de modellen die op de markt worden aangeboden, doorgelicht en actueel zijn. In mindere mate kan er een soortgelijke behoefte bestaan om de kwaliteit en actualiteit van de datasets die in de hub worden aangeboden, te onderzoeken.

Dataplex: de eerste stappen zetten om gedistribueerde gegevens centraal te beheren, monitoren en openen

Google treedt in de voetsporen van Cloudera en Microsoft bij het aanpakken van het complexe probleem van het bieden van één enkel overzicht voor het beheren, beveiligen, beheren en analyseren van gedistribueerde gegevens in de cloud. Google karakteriseert dit als een ‘intelligent data fabric’ (een term die IBM is ook in gebruik genomen) die een ‘geïntegreerde analyse-ervaring’ biedt.

Dataplex is in wezen een gemeenschappelijke backplane voor het ontdekken en beheren van de gegevens die de analysediensten bevolken – aanvankelijk uit het portfolio van Google, maar het streeft ernaar een ecosysteem van derden op te bouwen dat onder dezelfde paraplu kan opereren. Het begint met het ontdekken van gegevens die zijn opgeslagen in Google Cloud Storage en BigQuery, maar Google is van plan dat netwerk binnenkort uit te breiden.

Google is niet de eerste provider die de sprong waagt met consistente selfservicetoegang om gegevens te beheren in het beheer van het datameer met SDX, en afgelopen najaar volgde Microsoft Azure Purview op. Nu is het de beurt aan Google Cloud, en het mikt breder.

De databeheer-, governance- en datatoegangsfuncties van Dataplex strekken zich uit van het begrijpen van metadata-eigenschappen, het bepalen van de herkomst ervan tot de vraag of data moeten worden bewaard, wie er toegang toe heeft en met welke privileges, en het mogelijk maken dat data worden ontdekt en opgevraagd via een verscheidenheid aan tools. Traditioneel zijn ze in silo's ondergebracht, met databases die een deel van hun eigen tools bevatten, terwijl tools van derden verdergaan waar de databasemensen waren gebleven. In de cloud wordt de uitdaging veel complexer vanwege de veelheid aan databronnen en datadiensten, die allemaal strijden om toegang tot dezelfde pool (of pools) van data.

Dataplex gebruikt met name metadata om gedistribueerde data in logische datadomeinen te groeperen en zorgt voor consistente handhaving van datakwaliteit, databeheer en toegangscontrolebeleid in deze datadomeingroepen, ongeacht waar de data fysiek zijn opgeslagen. Het helpt klanten de gegevens logisch te ordenen, ongeacht waar deze zich fysiek bevinden, in datameren, zones en onbewerkte assets. Dataplex zal in feite een gemeenschappelijk beeld bieden van governance, beveiliging en datatoegang voor een breed scala aan analytische en data-integratiediensten.

Het ontdekt automatisch metadata door metadata te verzamelen en deze te synchroniseren met BigQuery en Dataproc Metastore met ingebouwde datakwaliteitscontroles. Dat verschilt van de op tags gebaseerde benaderingen die Cloudera, IBM en Microsoft gebruiken in hun verschillende datafabrics en clouddata-governancediensten. Voor Dataplex wordt metadata de basis voor het verenigen van data-ontdekking en -beheer; voorlopig zal het de metadata publiceren naar BigQuery, Dataproc Metastore en Google Cloud-gegevenscatalogus.

Om gegevens op te nemen in lakes en zones die door Dataplex worden beheerd, kunt u Google-tools gebruiken, zoals Cloud Dataflow, Data Fusion, Dataproc, PubSub of services van externe partners. Aan de voorkant werkt het door gebruikers van BigQuery en Apache Spark met één klik toegang te bieden tot de logisch samengestelde gegevens. Google is van plan de lijst met services die gegevens van Dataplex verbruiken in de toekomst uit te breiden. Voorlopig zal Dataplex fungeren als de backplane voor beheer en gegevensbeveiliging van BigQuery en Cloud Storage, maar dat is duidelijk ook nog maar een begin. Het heeft partnerschappen aangekondigd met Accenture, Collibra, ConFluent™, Informatica, HCL, Starburst, NVIDIA en Trifacta voor het vullen van de Dataplex-metastore. En via Anthos of BigQuery Omni verwachten we dat Google in de toekomst het bereik van Dataplex zal uitbreiden naar gegevens die zich in andere cloud-objectstores bevinden.

Oh, en ja, meer multi-cloud

Een belangrijk thema in de positionering van Google Cloud is dat, hoewel Google graag zou willen dat u uw werklasten op hun openbare cloud laat draaien, zij net zo graag willen dat u hun diensten op elke gewenste cloud laat draaien. Dat is de verhaallijn van Google Cloud Anthos, een Kubernetes-platform voor algemeen gebruik dat kan draaien in vijandig gebied, en aan de data- en analysekant, BigQuery Omni en Looker. Beide zijn beschikbaar voor gebruik in AWS, en met de aankondigingen van deze week wordt Azure aan de lijst toegevoegd.

Yep, wij zijn geen fans van het uitvoeren van hetzelfde logische exemplaar van een database en applicatie over meerdere clouds (te veel operationele complexiteit). Maar laten we eerlijk zijn: de meeste organisaties hebben data en applicaties verspreid over verschillende clouds en ze hebben hulp nodig om het analyseren van gedistribueerde data te vereenvoudigen. Datazwaartekracht is een goede reden om data- en analyseservices, zoals BigQuery en Looker, elders beschikbaar te hebben.

Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://www.zdnet.com/article/a-closer-look-at-googles-spring-data-and-analytics-rollouts/#ftag=RSSbaffb68

Generatieve data-intelligentie

Een nadere blik op de uitrol van lentegegevens en -analyses van Google

Dominick Puni 2024 NFL-conceptprofiel

Cam Hart 2024 NFL-conceptprofiel

Laatste intelligentie

Het Bitcoin-sektarisme achter zich latend

Justin Sun onthult het perfecte recept voor een hausse op de cryptomarkt – CryptoInfoNet

"Een heldere lentedag" door Grant Yun: digitale kunst verkennen op Solana | NFT- en Web3-cultuurnieuws – CryptoInfoNet

Top-5 rechtsgebieden voor het verkrijgen van een Forex-licentie

De impact van AI op industriële vooruitgang

Euro staat hoger, ECB oogt voor juniverlaging – MarketPulse

Chat met ons