Zephyrnet-Logo

Was bei der Migration von Data Warehouse zu Amazon Redshift zu beachten ist

Datum:

Kunden migrieren Data Warehouses zu Amazon RedShift weil es schnell, skalierbar und kostengünstig ist. Data-Warehouse-Migrationsprojekte können jedoch komplex und herausfordernd sein. In diesem Beitrag helfe ich Ihnen, die allgemeinen Treiber der Data Warehouse-Migration, Migrationsstrategien und die verfügbaren Tools und Dienste zur Unterstützung Ihres Migrationsprojekts zu verstehen.

Lassen Sie uns zunächst die Big-Data-Landschaft, die Bedeutung einer modernen Datenarchitektur und was Sie für Ihr Data-Warehouse-Migrationsprojekt beim Aufbau einer modernen Datenarchitektur beachten müssen, besprechen.

Gelegenheiten für Geschäfte

Daten verändern die Art und Weise, wie wir arbeiten, leben und spielen. All diese Verhaltensänderungen und die Bewegung in die Cloud haben in den letzten 20 Jahren zu einer Datenexplosion geführt. Die Verbreitung von Internet of Things und Smartphones hat die Menge der täglich generierten Daten beschleunigt. Die Geschäftsmodelle haben sich verändert, ebenso wie die Bedürfnisse der Menschen, die diese Unternehmen führen. Wir haben uns von Terabytes an Daten, die noch vor ein paar Jahren sprachen, zu Petabytes und Exabytes an Daten bewegt. Durch die effiziente Nutzung von Daten und die Gewinnung umfassender geschäftlicher Erkenntnisse aus den gesammelten Daten können Unternehmen in verschiedenen Branchen und unterschiedlicher Größe eine Vielzahl von Geschäftsergebnissen erzielen. Diese können grob in die folgenden Kerngeschäftsergebnisse eingeteilt werden:

  • Verbesserung der betrieblichen Effizienz – Indem sie die aus verschiedenen betrieblichen Prozessen gesammelten Daten sinnvoll nutzen, können Unternehmen das Kundenerlebnis verbessern, die Produktionseffizienz steigern und die Agilität von Vertrieb und Marketing erhöhen
  • Treffen Sie fundiertere Entscheidungen – Durch die Entwicklung aussagekräftigerer Erkenntnisse durch die Zusammenführung eines vollständigen Bildes der Daten im gesamten Unternehmen können Unternehmen fundiertere Entscheidungen treffen
  • Beschleunigung von Innovationen – Die Kombination interner und externer Datenquellen ermöglicht eine Vielzahl von Anwendungsfällen für KI und maschinelles Lernen (ML), die Unternehmen dabei unterstützen, Prozesse zu automatisieren und Geschäftsmöglichkeiten zu erschließen, die zuvor entweder unmöglich oder zu schwierig umzusetzen waren

Geschäftliche Herausforderungen

Das exponentielle Datenwachstum hat auch geschäftliche Herausforderungen mit sich gebracht.

Zunächst einmal müssen Unternehmen auf alle Daten im gesamten Unternehmen zugreifen, und Daten können in Silos verteilt sein. Es stammt aus einer Vielzahl von Quellen, in einer Vielzahl von Datentypen und in großem Umfang und hoher Geschwindigkeit. Einige Daten können als strukturierte Daten in relationalen Datenbanken gespeichert werden. Andere Daten können als halbstrukturierte Daten in Objektspeichern gespeichert werden, beispielsweise Mediendateien und die Clickstream-Daten, die ständig von Mobilgeräten gestreamt werden.

Zweitens müssen Unternehmen tief in die Daten eintauchen, um Erkenntnisse aus Daten zu gewinnen, indem sie Analysen durchführen. An diesen Analyseaktivitäten sind im Allgemeinen Dutzende und Hunderte von Datenanalysten beteiligt, die gleichzeitig auf das System zugreifen müssen. Ein leistungsfähiges System zu haben, das skalierbar ist, um den Abfragebedarf zu decken, ist oft eine Herausforderung. Komplexer wird es, wenn Unternehmen die analysierten Daten mit ihren Kunden teilen müssen.

Nicht zuletzt benötigen Unternehmen eine kostengünstige Lösung, um Herausforderungen in Bezug auf Datensilos, Leistung, Skalierbarkeit, Sicherheit und Compliance zu bewältigen. Die Fähigkeit, Kosten zu visualisieren und vorherzusagen, ist für ein Unternehmen notwendig, um die Kosteneffizienz seiner Lösung zu messen.

Um diese Herausforderungen zu meistern, benötigen Unternehmen eine zukunftssichere, moderne Datenarchitektur und ein robustes, effizientes Analysesystem.

Moderne Datenarchitektur

Eine moderne Datenarchitektur ermöglicht es Unternehmen, beliebige Datenmengen in offenen Formaten zu speichern, getrennte Datensilos aufzubrechen, Benutzern die Möglichkeit zu geben, Analysen oder ML mit ihrem bevorzugten Tool oder ihrer bevorzugten Technik auszuführen, und mit angemessener Sicherheit zu verwalten, wer Zugriff auf bestimmte Daten hat und Data-Governance-Kontrollen.

Die AWS Data Lake-Architektur ist eine moderne Datenarchitektur, die es Ihnen ermöglicht, Daten in einem Data Lake zu speichern und einen Ring speziell entwickelter Datendienste rund um den Lake zu nutzen, wie in der folgenden Abbildung dargestellt. Auf diese Weise können Sie Entscheidungen schnell und agil, in großem Umfang und kostengünstig treffen. Weitere Einzelheiten finden Sie unter Moderne Datenarchitektur auf AWS.

Modernes Datawarehouse

Amazon RedShift ist ein vollständig verwaltetes, skalierbares, modernes Data Warehouse, das mit schnellen, einfachen und sicheren Analysen in großem Maßstab die Zeit bis zu Erkenntnissen verkürzt. Mit Amazon Redshift können Sie alle Ihre Daten analysieren und Leistung in jeder Größenordnung zu niedrigen und vorhersehbaren Kosten erzielen.

Amazon Redshift bietet die folgenden Vorteile:

  • Analysieren Sie alle Ihre Daten – Mit Amazon Redshift können Sie alle Ihre Daten in Ihrem Data Warehouse und Data Lake mit konsistenten Sicherheits- und Governance-Richtlinien einfach analysieren. Wir nennen das die moderne Datenarchitektur. Mit Amazon Redshift-Spektrumkönnen Sie Daten in Ihrem Data Lake abfragen, ohne dass Daten geladen oder anderweitig vorbereitet werden müssen. Und mit Data Lake-Exportkönnen Sie die Ergebnisse einer Amazon Redshift-Abfrage wieder im Lake speichern. Das bedeutet, dass Sie Echtzeitanalysen und ML/KI-Anwendungsfälle ohne Neuarchitektur nutzen können, da Amazon Redshift vollständig in Ihren Data Lake integriert ist. Mit neuen Funktionen wie Datenübertragung, können Sie Daten problemlos über Amazon Redshift-Cluster hinweg sowohl intern als auch extern freigeben, sodass jeder eine Live- und konsistente Ansicht der Daten hat. Amazon Redshift ML macht es einfach, mehr aus Ihren Daten zu machen – Sie können ML-Modelle mit vertrauten SQL-Befehlen direkt in Amazon Redshift Data Warehouses erstellen, trainieren und bereitstellen.
  • Schnelle Leistung in jeder Größenordnung – Amazon Redshift ist ein selbstoptimierendes und selbstlernendes System, mit dem Sie die beste Leistung für Ihre Workloads erzielen können, ohne Ihr Data Warehouse mit Aufgaben wie der Definition von Sortierschlüsseln und Verteilungsschlüsseln und neuen Funktionen wie undifferenziert schwer tunen zu müssen materialisierte Ansichten, Auto-Refresh und Auto-Query Rewrite. Amazon Redshift lässt sich skalieren, um konsistent schnelle Ergebnisse von Gigabyte bis Petabyte an Daten und von wenigen Benutzern bis zu Tausenden zu liefern. Wenn Ihre Benutzerbasis auf Tausende von gleichzeitigen Benutzern skaliert wird, wird die Parallelitätsskalierung Die Funktion stellt automatisch die erforderlichen Rechenressourcen bereit, um die zusätzliche Last zu bewältigen. Amazon Redshift RA3-Instances mit Managed Storage getrennte Berechnung und Speicherung, sodass Sie beide unabhängig voneinander skalieren können und nur für den Speicher bezahlen, den Sie benötigen. AQUA (Advanced Query Accelerator) für Amazon Redshift ist ein neuer verteilter und hardwarebeschleunigter Cache, der bestimmte Arten von Abfragen automatisch verstärkt.
  • Einfache Analysen für alle – Amazon Redshift ist ein vollständig verwaltetes Data Warehouse, das die Last der detaillierten Infrastrukturverwaltung oder Leistungsoptimierung abstrahiert. Sie können sich darauf konzentrieren, Erkenntnisse zu gewinnen, anstatt Wartungsaufgaben wie die Bereitstellung der Infrastruktur, das Erstellen von Backups, das Einrichten des Datenlayouts und andere Aufgaben auszuführen. Sie können Daten in offenen Formaten verarbeiten, vertraute SQL-Befehle verwenden und die Vorteile von Abfragevisualisierungen nutzen, die durch das neue verfügbar sind Abfrage-Editor v2. Sie können auch von jeder Anwendung aus über eine sichere Daten-API auf Daten zugreifen, ohne Softwaretreiber konfigurieren oder Datenbankverbindungen verwalten zu müssen. Amazon Redshift ist mit Business-Intelligence-Tools (BI) kompatibel und eröffnet Geschäftsbenutzern, die innerhalb des BI-Tools arbeiten, die Leistungsfähigkeit und Integration von Amazon Redshift.

Eine moderne Datenarchitektur mit einer Data-Lake-Architektur und einem modernen Data Warehouse mit Amazon Redshift hilft Unternehmen aller Größen, Big-Data-Herausforderungen zu bewältigen, große Datenmengen sinnvoll zu nutzen und Geschäftsergebnisse zu verbessern. Sie können den Weg zum Aufbau einer modernen Datenarchitektur beginnen, indem Sie Ihr Data Warehouse zu Amazon Redshift migrieren.

Migrationsüberlegungen

Die Data-Warehouse-Migration stellt eine Herausforderung in Bezug auf die Projektkomplexität dar und birgt ein Risiko in Bezug auf Ressourcen, Zeit und Kosten. Um die Komplexität der Data-Warehouse-Migration zu reduzieren, ist es wichtig, die richtige Migrationsstrategie basierend auf Ihrer bestehenden Data-Warehouse-Landschaft und dem für die Migration zu Amazon Redshift erforderlichen Transformationsaufwand zu wählen. Die folgenden Schlüsselfaktoren können Ihre Entscheidung für eine Migrationsstrategie beeinflussen:

  • Größe – Die Gesamtgröße des zu migrierenden Quell-Data Warehouse wird durch die Objekte, Tabellen und Datenbanken bestimmt, die in die Migration einbezogen werden. Ein gutes Verständnis der Datenquellen und Datendomänen, die für die Umstellung auf Amazon Redshift erforderlich sind, führt zu einer optimalen Dimensionierung des Migrationsprojekts.
  • Die Datenübertragung – Die Data-Warehouse-Migration umfasst die Datenübertragung zwischen den Quell-Data-Warehouse-Servern und AWS. Sie können Daten entweder über eine Netzwerkverbindung zwischen dem Quellstandort und AWS übertragen, z AWS Direktverbindung oder übertragen Sie Daten offline über die Tools oder Dienste wie z AWS Snow-Familie.
  • Datenänderungsrate – Wie oft kommt es in Ihrem Data Warehouse zu Datenaktualisierungen oder -änderungen? Ihre bestehende Data Warehouse-Datenänderungsrate bestimmt die Aktualisierungsintervalle, die erforderlich sind, um das Quell-Data Warehouse und das Ziel-Amazon Redshift synchron zu halten. Ein Quell-Data-Warehouse mit einer hohen Datenänderungsrate erfordert, dass der Dienstwechsel von der Quelle zu Amazon Redshift innerhalb eines Aktualisierungsintervalls abgeschlossen wird, was zu einem kürzeren Übergangsfenster für die Migration führt.
  • Datentransformation – Die Migration Ihres bestehenden Data Warehouse zu Amazon Redshift ist eine heterogene Migration, die eine Datentransformation wie Datenzuordnung und Schemaänderung umfasst. Die Komplexität der Datentransformation bestimmt die für eine Iteration der Migration erforderliche Verarbeitungszeit.
  • Migrations- und ETL-Tools – Die Auswahl von Migrations- und Extraktions-, Transformations- und Ladewerkzeugen (ETL) kann sich auf das Migrationsprojekt auswirken. Beispielsweise kann der für die Bereitstellung und Einrichtung dieser Tools erforderliche Aufwand variieren. Wir sehen uns in Kürze die AWS-Tools und -Services genauer an.

Nachdem Sie all diese Überlegungen berücksichtigt haben, können Sie eine Migrationsstrategieoption für Ihr Amazon Redshift-Migrationsprojekt auswählen.

Migrationsstrategien

Sie können aus drei Migrationsstrategien wählen: Migration in einem Schritt, Migration in zwei Schritten oder wellenbasierte Migration.

Die Migration in einem Schritt ist eine gute Option für Datenbanken, die keinen kontinuierlichen Betrieb erfordern, wie z. B. kontinuierliche Replikation, um laufende Datenänderungen zwischen Quelle und Ziel synchron zu halten. Sie können vorhandene Datenbanken als CSV-Dateien (Comma Separated Value) oder im Spaltenformat wie Parquet extrahieren und dann AWS Snow Family-Services wie z AWS-Schneeball Datensätze zu liefern Amazon Simple Storage-Service (Amazon S3) zum Laden in Amazon Redshift. Anschließend testen Sie die Amazon Redshift-Zieldatenbank auf Datenkonsistenz mit der Quelle. Nachdem alle Validierungen bestanden sind, wird die Datenbank auf AWS umgestellt.

Die zweistufige Migration wird häufig für Datenbanken jeder Größe verwendet, die einen kontinuierlichen Betrieb erfordern, wie z. B. die kontinuierliche Replikation. Während der Migration weisen die Quelldatenbanken laufende Datenänderungen auf, und die kontinuierliche Replikation hält Datenänderungen zwischen der Quelle und Amazon Redshift synchron. Die Aufschlüsselung der zweistufigen Migrationsstrategie ist wie folgt:

  • Erste Datenmigration – Die Daten werden aus der Quelldatenbank extrahiert, vorzugsweise außerhalb der Spitzenzeiten, um die Auswirkungen zu minimieren. Die Daten werden dann zu Amazon Redshift migriert, indem der zuvor beschriebene einstufige Migrationsansatz befolgt wird.
  • Geänderte Datenmigration – Daten, die sich nach der anfänglichen Datenmigration in der Quelldatenbank geändert haben, werden vor dem Switchover an das Ziel weitergegeben. Dieser Schritt synchronisiert die Quell- und Zieldatenbanken. Nachdem alle geänderten Daten migriert wurden, können Sie die Daten in der Zieldatenbank validieren und die erforderlichen Tests durchführen. Sind alle Tests bestanden, wechseln Sie anschließend zum Amazon Redshift Data Warehouse.

Die wellenbasierte Migration eignet sich für umfangreiche Data-Warehouse-Migrationsprojekte. Das Prinzip der wellenbasierten Migration besteht darin, Vorkehrungen zu treffen, um ein komplexes Migrationsprojekt in mehrere logische und systematische Wellen zu unterteilen. Diese Strategie kann die Komplexität und das Risiko erheblich reduzieren. Sie beginnen mit einer Workload, die eine gute Anzahl von Datenquellen und Themenbereichen mit mittlerer Komplexität abdeckt, und fügen dann in jeder nachfolgenden Welle weitere Datenquellen und Themenbereiche hinzu. Bei dieser Strategie führen Sie sowohl das Quell-Data Warehouse als auch die Amazon Redshift-Produktionsumgebung für eine bestimmte Zeit parallel aus, bevor Sie das Quell-Data Warehouse vollständig zurückziehen können. Sehen Entwickeln Sie eine Methode zur Anwendungsmigration, um Ihr Data Warehouse mit Amazon Redshift zu modernisieren Einzelheiten zum Identifizieren und Gruppieren von Datenquellen und Analyseanwendungen für die Migration vom Quell-Data Warehouse zu Amazon Redshift mithilfe des wellenbasierten Migrationsansatzes.

Um Ihre Entscheidung für die Migrationsstrategie zu leiten, beziehen Sie sich auf die folgende Tabelle, um die Erwägungsfaktoren einer bevorzugten Migrationsstrategie zuzuordnen.

. Migration in einem Schritt Migration in zwei Schritten Wellenbasierte Migration
Die Anzahl der Fachgebiete im Migrationsbereich Klein Mittel bis groß Mittel bis groß
Datenübertragungsvolumen Klein bis groß Klein bis groß Klein bis groß
Datenänderungsrate während der Migration Andere Minimal bis häufig Minimal bis häufig
Komplexität der Datentransformation Jedes Jedes Jedes
Migrationsänderungsfenster für den Wechsel von der Quelle zum Ziel Stunden Sekunden Sekunden
Dauer des Migrationsprojekts Wochen Wochen bis Monate Monate

Migrationsprozess

In diesem Abschnitt sehen wir uns die drei allgemeinen Schritte des Migrationsprozesses an. Die zweistufige Migrationsstrategie und die wellenbasierte Migrationsstrategie umfassen alle drei Migrationsschritte. Die wellenbasierte Migrationsstrategie umfasst jedoch eine Reihe von Iterationen. Da nur Datenbanken, die keinen kontinuierlichen Betrieb erfordern, gut für die Migration in einem Schritt geeignet sind, sind nur die Schritte 1 und 2 im Migrationsprozess erforderlich.

Schritt 1: Schema und Sachgebiet umwandeln

In diesem Schritt machen Sie das Quell-Data-Warehouse-Schema mit dem Amazon Redshift-Schema kompatibel, indem Sie das Quell-Data-Warehouse-Schema mithilfe von Schemakonvertierungstools wie z AWS-Schemakonvertierungstool (AWS SCT) und die anderen Tools von AWS-Partnern. In einigen Situationen müssen Sie möglicherweise auch benutzerdefinierten Code verwenden, um komplexe Schemakonvertierungen durchzuführen. In einem späteren Abschnitt tauchen wir tiefer in AWS SCT und Best Practices für die Migration ein.

Schritt 2: Erste Datenextraktion und Laden

In diesem Schritt schließen Sie die anfängliche Datenextraktion ab und laden die Quelldaten zum ersten Mal in Amazon Redshift. Sie können verwenden AWS SCT-Datenextraktoren um Daten aus dem Quell-Data Warehouse zu extrahieren und Daten in Amazon S3 zu laden, wenn Ihre Datengröße und Datenübertragungsanforderungen es Ihnen erlauben, Daten über das verbundene Netzwerk zu übertragen. Alternativ können Sie bei Einschränkungen wie Netzwerkkapazitätsgrenzen Daten in Snowball laden und von dort Daten in Amazon S3 laden. Wenn die Daten im Quell-Data Warehouse auf Amazon S3 verfügbar sind, werden sie in Amazon Redshift geladen. In Situationen, in denen die nativen Tools des Quell-Data Warehouse einen besseren Job zum Entladen und Laden von Daten ausführen als AWS SCT-Datenextraktoren, können Sie die nativen Tools verwenden, um diesen Schritt abzuschließen.

Schritt 3: Delta- und inkrementelles Laden

In diesem Schritt verwenden Sie AWS SCT und manchmal native Tools des Source Data Warehouse, um Delta- oder inkrementelle Änderungen von Quellen zu Amazon Redshift zu erfassen und zu laden. Dies wird oft als Change Data Capture (CDC) bezeichnet. CDC ist ein Prozess, der in einer Datenbank vorgenommene Änderungen erfasst und sicherstellt, dass diese Änderungen an ein Ziel wie ein Data Warehouse repliziert werden.

Sie sollten jetzt über genügend Informationen verfügen, um mit der Entwicklung eines Migrationsplans für Ihr Data Warehouse zu beginnen. Im folgenden Abschnitt tauche ich tiefer in die AWS-Services ein, die Ihnen bei der Migration Ihres Data Warehouse zu Amazon Redshift helfen können, sowie in die Best Practices für die Verwendung dieser Services, um eine erfolgreiche Bereitstellung Ihres Data Warehouse-Migrationsprojekts zu beschleunigen.

Data-Warehouse-Migrationsdienste

Die Data Warehouse-Migration umfasst eine Reihe von Diensten und Tools zur Unterstützung des Migrationsprozesses. Sie beginnen mit der Erstellung eines Bewertungsberichts zur Datenbankmigration und konvertieren dann das Quelldatenschema mithilfe von AWS SCT so, dass es mit Amazon Redshift kompatibel ist. Um Daten zu verschieben, können Sie das AWS SCT-Datenextraktionstool verwenden, das mit integriert ist AWS-Datenmigrationsdienst (AWS DMS), um AWS DMS-Aufgaben zu erstellen und zu verwalten und die Datenmigration zu orchestrieren.

Um Quelldaten über das verbundene Netzwerk zwischen der Quelle und AWS zu übertragen, können Sie verwenden AWS-Speicher-Gateway, Amazon Kinesis Data Firehose, Direkte Verbindung, AWS Transfer Family-Dienste, Amazon S3-Übertragungsbeschleunigung und AWS DataSync. Für Data-Warehouse-Migrationen mit großen Datenmengen oder wenn es Einschränkungen bei der Kapazität des verbundenen Netzwerks gibt, können Sie Daten mit der AWS Snow-Servicefamilie übertragen. Bei diesem Ansatz können Sie die Daten auf das Gerät kopieren, an AWS zurücksenden und die Daten über Amazon S3 nach Amazon Redshift kopieren lassen.

AWS SCT ist ein wesentlicher Service zur Beschleunigung Ihrer Data-Warehouse-Migration zu Amazon Redshift. Lassen Sie uns tiefer eintauchen.

Migration mit AWS SCT

AWS SCT automatisiert einen Großteil des Prozesses der Konvertierung Ihres Data-Warehouse-Schemas in ein Amazon Redshift-Datenbankschema. Da die Quell- und Zieldatenbank-Engines viele verschiedene Funktionen und Fähigkeiten haben können, versucht AWS SCT, wo immer möglich, ein äquivalentes Schema in Ihrer Zieldatenbank zu erstellen. Wenn keine direkte Konvertierung möglich ist, erstellt AWS SCT einen Bewertungsbericht zur Datenbankmigration, um Sie bei der Konvertierung Ihres Schemas zu unterstützen. Der Bewertungsbericht zur Datenbankmigration enthält wichtige Informationen zur Konvertierung des Schemas von Ihrer Quelldatenbank in Ihre Zieldatenbank. Der Bericht fasst alle Schemakonvertierungsaufgaben zusammen und beschreibt die Aktionselemente für Schemaobjekte, die nicht in die DB-Engine Ihrer Zieldatenbank konvertiert werden können. Der Bericht enthält auch Schätzungen des Aufwands, der erforderlich ist, um den entsprechenden Code in Ihrer Zieldatenbank zu schreiben, der nicht automatisch konvertiert werden kann.

Die Speicheroptimierung ist das Herzstück einer Data-Warehouse-Konvertierung. Wenn Sie Ihre Amazon Redshift-Datenbank als Quelle und eine Test-Amazon Redshift-Datenbank als Ziel verwenden, empfiehlt AWS SCT Sortierschlüssel und Verteilungsschlüssel, um Ihre Datenbank zu optimieren.

Mit AWS SCT können Sie die folgenden Data-Warehouse-Schemata in Amazon Redshift konvertieren:

  • Amazon RedShift
  • Azure Synapse Analytics (Version 10)
  • Greenplum-Datenbank (Version 4.3 und höher)
  • Microsoft SQL Server (Version 2008 und höher)
  • Netezza (Version 7.0.3 und höher)
  • Oracle (Version 10.2 und höher)
  • Schneeflocke (Version 3)
  • Teradata (Version 13 und höher)
  • Vertica (Version 7.2 und höher)

At
AWS, wir veröffentlichen weiterhin neue Funktionen und Verbesserungen, um unser Produkt zu verbessern. Die neuesten unterstützten Konvertierungen finden Sie unter AWS SCT-Benutzerhandbuch.

Migrieren von Daten mit dem AWS SCT-Datenextraktionstool

Sie können ein AWS SCT-Datenextraktionstool verwenden, um Daten aus Ihrem lokalen Data Warehouse zu extrahieren und zu Amazon Redshift zu migrieren. Der Agent extrahiert Ihre Daten und lädt die Daten entweder zu Amazon S3 oder, für umfangreiche Migrationen, zu einem AWS Snowball Family-Service hoch. Sie können dann AWS SCT verwenden, um die Daten nach Amazon Redshift zu kopieren. Amazon S3 ist ein Speicher- und Abrufdienst. Um ein Objekt in Amazon S3 zu speichern, laden Sie die zu speichernde Datei in einen S3-Bucket hoch. Wenn Sie eine Datei hochladen, können Sie Berechtigungen für das Objekt und auch für alle Metadaten festlegen.

Bei umfangreichen Migrationen mit Datenupload zu einem AWS Snowball Family-Service können Sie assistentenbasierte Workflows in AWS SCT verwenden, um den Prozess zu automatisieren, in dem das Datenextraktionstool AWS DMS orchestriert, um die eigentliche Migration durchzuführen.

Überlegungen zu Amazon Redshift-Migrationstools

Beachten Sie die folgenden Tipps und Best Practices, um die Data Warehouse-Migration zu Amazon Redshift zu verbessern und zu beschleunigen. Diese Liste ist nicht vollständig. Stellen Sie sicher, dass Sie Ihr Data-Warehouse-Profil gut verstehen, und bestimmen Sie, welche Best Practices Sie für Ihr Migrationsprojekt verwenden können.

  • Verwenden Sie AWS SCT, um einen Migrationsbewertungsbericht zu erstellen und den Migrationsaufwand einzugrenzen.
  • Automatisieren Sie die Migration nach Möglichkeit mit AWS SCT. Die Erfahrung unserer Kunden zeigt, dass AWS SCT die meisten DDL- und SQL-Skripte automatisch erstellen kann.
  • Wenn eine automatische Schemakonvertierung nicht möglich ist, verwenden Sie benutzerdefiniertes Skripting für die Codekonvertierung.
  • Installieren Sie AWS SCT-Datenextraktor-Agenten so nah wie möglich an der Datenquelle, um die Leistung und Zuverlässigkeit der Datenmigration zu verbessern.
  • Um die Leistung der Datenmigration zu verbessern, sollten Sie Ihre Amazon Elastic Compute-Cloud (Amazon EC2)-Instanz und ihre äquivalenten virtuellen Maschinen, auf denen die Datenextraktionsagenten installiert sind.
  • Konfigurieren Sie mehrere Datenextraktionsagenten, um mehrere Aufgaben parallel auszuführen, um die Datenmigrationsleistung zu verbessern, indem Sie die Nutzung der zugewiesenen Netzwerkbandbreite maximieren.
  • Passen Sie die AWS SCT-Speicherkonfiguration an, um die Leistung der Schemakonvertierung zu verbessern.
  • Verwenden Sie Amazon S3, um große Objekte wie Bilder, PDFs und andere Binärdaten aus Ihrem vorhandenen Data Warehouse zu speichern.
  • Um große Tabellen zu migrieren, verwenden Sie die virtuelle Partitionierung und erstellen Sie Unteraufgaben, um die Leistung der Datenmigration zu verbessern.
  • Verstehen Sie die Anwendungsfälle von AWS-Services wie Direct Connect, der AWS Transfer Family und der AWS Snow Family. Wählen Sie den richtigen Service oder das richtige Tool, um Ihre Datenmigrationsanforderungen zu erfüllen.
  • Verstehen Sie AWS-Servicekontingente und treffen Sie fundierte Entscheidungen zum Migrationsdesign.

Zusammenfassung

Das Datenvolumen und die Komplexität wachsen schneller als je zuvor. Allerdings steht nur ein Bruchteil dieses unschätzbaren Vermögens zur Analyse zur Verfügung. Herkömmliche lokale Data Warehouses haben starre Architekturen, die nicht für moderne Big-Data-Analytics-Anwendungsfälle skalierbar sind. Diese traditionellen Data Warehouses sind teuer in der Einrichtung und im Betrieb und erfordern große Vorabinvestitionen in Software und Hardware.

In diesem Beitrag haben wir Amazon Redshift als vollständig verwaltetes, skalierbares, modernes Data Warehouse besprochen, das Ihnen helfen kann, alle Ihre Daten zu analysieren und Leistung in jeder Größenordnung zu niedrigen und vorhersehbaren Kosten zu erzielen. Um Ihr Data Warehouse zu Amazon Redshift zu migrieren, müssen Sie eine Reihe von Faktoren berücksichtigen, wie die Gesamtgröße des Data Warehouse, die Datenänderungsrate und die Komplexität der Datentransformation, bevor Sie eine geeignete Migrationsstrategie und einen geeigneten Prozess auswählen, um die Komplexität zu reduzieren und Kosten Ihres Data-Warehouse-Migrationsprojekts. Mit AWS-Services wie AWS SCT und AWS DMS und indem Sie die Tipps und Best Practices dieser Services übernehmen, können Sie Migrationsaufgaben automatisieren, die Migration skalieren, die Bereitstellung Ihres Data-Warehouse-Migrationsprojekts beschleunigen und Ihre Kunden begeistern.


Über den Autor

Lewis Tang ist Senior Solutions Architect bei Amazon Web Services mit Sitz in Sydney, Australien. Lewis bietet Partnern Anleitungen zu einer breiten Palette von AWS-Services und hilft Partnern, das Wachstum von AWS-Praktiken zu beschleunigen.

spot_img

Neueste Intelligenz

spot_img

Chat mit uns

Hallo! Wie kann ich dir helfen?