Logo Zephyrnet

Osiągaj analizy operacyjne w czasie zbliżonym do rzeczywistego, korzystając z integracji Amazon Aurora PostgreSQL z zerowym ETL z Amazon Redshift | Usługi internetowe Amazona

Data:

„Dane znajdują się w centrum każdej aplikacji, procesu i decyzji biznesowej. Kiedy dane są wykorzystywane do poprawy doświadczeń klientów i stymulowania innowacji, mogą prowadzić do rozwoju firmy”

- Swami Śiwasubramanian, wiceprezes ds. baz danych, analityki i uczenia maszynowego w AWS w Dzięki podejściu zerowego ETL AWS pomaga konstruktorom w realizacji analiz w czasie zbliżonym do rzeczywistego.

Klienci z różnych branż w coraz większym stopniu kierują się danymi i chcą zwiększyć przychody, obniżyć koszty i zoptymalizować swoje operacje biznesowe poprzez wdrożenie analiz danych transakcyjnych w czasie zbliżonym do rzeczywistego, zwiększając w ten sposób elastyczność. W oparciu o potrzeby klientów i ich opinie, AWS inwestuje i stale postępuje w kierunku urzeczywistnienia naszej wizji zerowego ETL, tak aby konstruktorzy mogli bardziej skupić się na tworzeniu wartości z danych, zamiast na przygotowywaniu danych do analizy.

Autonomiczne zerowy ETL integracja z Amazonka Przesunięcie ku czerwieni ułatwia przenoszenie danych z punktu do punktu, aby przygotować je do analityki, sztucznej inteligencji (AI) i uczenia maszynowego (ML) przy użyciu Amazon Redshift na petabajtach danych. W ciągu kilku sekund od zapisania danych transakcyjnych utrzymany Bazy danych AWS, zero-ETL bezproblemowo udostępnia dane w Amazon Redshift, eliminując potrzebę budowania i utrzymywania złożonych potoków danych, które wykonują operacje wyodrębniania, przekształcania i ładowania (ETL).

Aby pomóc Ci skoncentrować się na tworzeniu wartości z danych, zamiast inwestować niezróżnicowany czas i zasoby w budowanie i zarządzanie potokami ETL pomiędzy transakcyjnymi bazami danych a hurtowniami danych, oferujemy ogłosił cztery integracje bazy danych AWS o zerowym ETL z Amazon Redshift na AWS re:Invent 2023:

W tym poście przedstawiamy szczegółowe wskazówki, jak rozpocząć korzystanie z analiz operacyjnych w czasie zbliżonym do rzeczywistego przy użyciu narzędzia Integracja Amazon Aurora PostgreSQL z zerowym ETL z Amazon Redshift.

Omówienie rozwiązania

Aby utworzyć integrację o zerowym ETL, należy określić Wersja zgodna z Amazon Aurora PostgreSQL klaster (kompatybilny z PostgreSQL 15.4 i obsługą zerowego ETL) jako źródło i hurtownia danych Redshift jako cel. Integracja replikuje dane ze źródłowej bazy danych do docelowej hurtowni danych.

Należy utworzyć klastry udostępniane przez Aurora PostgreSQL DB w ramach Środowisko podglądu bazy danych Amazon RDS i przesunięcie ku czerwieni udostępniony klaster w wersji zapoznawczej or bezserwerowa grupa robocza podglądu, w regionie AWS East (Ohio) w USA. W przypadku Amazon Redshift upewnij się, że wybrałeś ścieżkę Preview_2023, aby móc korzystać z integracji z zerowym ETL.

Poniższy diagram ilustruje architekturę zaimplementowaną w tym poście.

Poniżej przedstawiono kroki potrzebne do skonfigurowania integracji z zerowym ETL dla tego rozwiązania. Aby zapoznać się z kompletnymi przewodnikami dla początkujących, zobacz Praca z integracją Aurora o zerowym ETL z Amazon Redshift i Praca z integracjami o zerowym ETL.

bdb-3883-image001

Po kroku 1 możesz także pominąć kroki 2–4 i bezpośrednio rozpocząć tworzenie integracji z zerowym ETL od kroku 5. W takim przypadku Amazon RDS wyświetli komunikat o brakujących konfiguracjach i będziesz mógł wybrać Napraw to dla mnie aby umożliwić Amazon RDS automatyczną konfigurację kroków.

  1. Skonfiguruj źródło Aurora PostgreSQL za pomocą dostosowanej grupy parametrów klastra DB.
  2. Skonfiguruj Bezserwerowe Amazon Redshift miejsce docelowe z wymaganą polityką zasobów dla swojej przestrzeni nazw.
  3. Zaktualizuj grupę roboczą Redshift Serverless, aby włączyć identyfikatory z rozróżnianiem wielkości liter.
  4. Skonfiguruj wymagane uprawnienia.
  5. Utwórz integrację zero-ETL.
  6. Utwórz bazę danych z integracji w Amazon Redshift.
  7. Rozpocznij analizę danych transakcyjnych w czasie zbliżonym do rzeczywistego.

Skonfiguruj źródło Aurora PostgreSQL za pomocą dostosowanej grupy parametrów klastra DB

W przypadku klastrów Aurora PostgreSQL DB należy utworzyć niestandardową grupę parametrów w pliku Środowisko podglądu bazy danych Amazon RDSw regionie wschodnich Stanów Zjednoczonych (Ohio). Możesz bezpośredni dostęp do środowiska podglądu Amazon RDS.

Aby utworzyć bazę danych Aurora PostgreSQL, wykonaj następujące kroki:

  1. Na konsoli Amazon RDS wybierz Grupy parametrów w okienku nawigacji.
  2. Dodaj Utwórz grupę parametrów.
  3. W razie zamówieenia projektu Rodzina grupy parametrówwybierz aurora-postgresql15.
  4. W razie zamówieenia projektu Rodzaj Nieruchomościwybierz DB Cluster Parameter Group.
  5. W razie zamówieenia projektu Nazwa grupywprowadź nazwę (na przykład zero-etl-custom-pg-postgres).
  6. Dodaj Stwórz.bdb-3883-image002

Integracje Aurora PostgreSQL o zerowym ETL z Amazon Redshift wymagają określonych wartości dla Parametry klastra Aurora DB, co wymaga ulepszonej replikacji logicznej (aurora.enhanced_ological_replication).

  1. Na Grupy parametrów wybierz nowo utworzoną grupę parametrów.
  2. Na Akcje menu, wybierz Edytuj.
  3. Ustaw następujący kod Aurora PostgreSQL (rodzina aurora-postgresql15) ustawienia parametrów klastra:
    • rds.logical_replication=1
    • aurora.enhanced_logical_replication=1
    • aurora.logical_replication_backup=0
    • aurora.logical_replication_globaldb=0

Włączenie rozszerzonej replikacji logicznej (aurora.enhanced_logiczna_replikacja) automatycznie ustawia parametr REPLICA IDENTITY na FULL, co oznacza, że ​​wszystkie wartości kolumn są zapisywane w dzienniku zapisu z wyprzedzeniem (WAL).

  1. Dodaj Zapisz zmiany.bdb-3883-image003
  2. Dodaj Bazy danych w okienku nawigacji, a następnie wybierz Utwórz bazę danych.
    bdb-3883-image004
  3. W razie zamówieenia projektu Typ silnika, Wybierz Amazonka Aurora.
  4. W razie zamówieenia projektu edycja, Wybierz Wersja zgodna z Amazon Aurora PostgreSQL.
  5. W razie zamówieenia projektu Dostępne wersjewybierz Aurora PostgreSQL (kompatybilna z PostgreSQL 15.4 i obsługą Zero-ETL).bdb-3883-image006
  6. W razie zamówieenia projektu Szablony, Wybierz Produkcja.
  7. W razie zamówieenia projektu Identyfikator klastra bazy danych, wchodzić zero-etl-source-pg.bdb-3883-image007
  8. Pod Ustawienia poświadczeń, wprowadź hasło dla Główne hasło lub skorzystaj z opcji automatycznego wygenerowania hasła.
  9. W Sekcja konfiguracji instancji, Wybierz Klasy zoptymalizowane pod kątem pamięci.
  10. Wybierz odpowiedni rozmiar instancji (domyślnie jest to db.r5.2xlarge).bdb-3883-image008
  11. Pod Dodatkowa konfiguracja, Dla Grupa parametrów klastra DBwybierz utworzoną wcześniej grupę parametrów (zero-etl-custom-pg-postgres).bdb-3883-image009
  12. Dla pozostałych konfiguracji pozostaw ustawienia domyślne.
  13. Dodaj Utwórz bazę danych.

W ciągu kilku minut powinno to uruchomić klaster Aurora PostgreSQL z jedną instancją piszącą i jedną instancją czytającą, a jego status zmieni się z Tworzenie do Dostępny. Źródłem integracji typu zero-ETL będzie nowo powstały klaster Aurora PostgreSQL.

bdb-3883-image010

Następnym krokiem jest utworzenie nazwanej bazy danych w Amazon Aurora PostgreSQL na potrzeby integracji zerowej ETL.

Model zasobów PostgreSQL umożliwia tworzenie wielu baz danych w ramach klastra. Dlatego na etapie tworzenia integracji z zerowym ETL musisz określić, której bazy danych chcesz użyć jako źródła integracji.

Konfigurując PostgreSQL, otrzymujesz od razu trzy standardowe bazy danych: szablon0, szablon1 i postgres. Za każdym razem, gdy tworzysz nową bazę danych w PostgreSQL, tak naprawdę opierasz ją na jednej z trzech baz danych w swoim klastrze. Baza danych utworzona podczas tworzenia klastra Aurora PostgreSQL oparta jest na szablonie0. The CREATE DATABASE polecenie działa poprzez kopiowanie istniejącej bazy danych i jeśli nie zostało to wyraźnie określone, domyślnie kopiuje standardowy systemowy szablon bazy danych1. W przypadku nazwanej bazy danych na potrzeby integracji z zerowym ETL baza danych musi zostać utworzona przy użyciu szablonu 1, a nie szablonu 0. Dlatego też, jeśli początkowa nazwa bazy danych zostanie dodana w ramach Dodatkowa konfiguracja, który zostałby utworzony przy użyciu szablonu0 i nie można go użyć do integracji z zerowym ETL.

  1. Aby utworzyć nową nazwaną bazę danych za pomocą CREATE DATABASE w nowym klastrze Aurora PostgreSQL zero-etl-source-pgnajpierw pobierz punkt końcowy instancji piszącej klastra PostgreSQL.bdb-3883-image011
  2. Z terminala lub za pomocą Chmura AWS, SSH do klastra PostgreSQL i uruchom następujące polecenia, aby zainstalować psql i utworzyć nową bazę danych zeroetl_db:
    sudo dnf install postgresql15
    psql –version
    psql -h <RDS Write Instance Endpoint> -p 5432 -U postgres
    create database zeroetl_db template template1;

Dodawanie template template1 jest opcjonalne, ponieważ domyślnie, jeśli nie jest wspomniane, CREATE DATABASE będzie użyty template1.

Można także połączyć się poprzez klienta i utworzyć bazę danych. Odnosić się do Połącz się z klastrem Aurora PostgreSQL DB aby zapoznać się z opcjami połączenia z klastrem PostgreSQL.

Skonfiguruj Redshift Serverless jako miejsce docelowe

Po utworzeniu klastra źródłowej bazy danych Aurora PostgreSQL należy skonfigurować docelową hurtownię danych Redshift. Hurtownia danych musi spełniać następujące wymagania:

  • Utworzono w wersji zapoznawczej (tylko dla źródeł Aurora PostgreSQL)
  • Używa typu węzła RA3 (ra3.16xlarge, ra3.4xlarge lub ra3.xlplus) z co najmniej dwoma węzłami lub Redshift Serverless
  • Szyfrowane (w przypadku korzystania z udostępnionego klastra)

Na potrzeby tego wpisu tworzymy i konfigurujemy grupę roboczą i przestrzeń nazw Redshift Serverless jako docelową hurtownię danych, wykonując następujące kroki:

  1. Na konsoli Amazon Redshift wybierz Pulpit nawigacyjny bez serwera w okienku nawigacji.

Ponieważ integracja z zerowym ETL dla Amazon Aurora PostgreSQL z Amazon Redshift została uruchomiona w wersji zapoznawczej (nie do celów produkcyjnych), należy utworzyć docelową hurtownię danych w środowisku podglądu.

  1. Dodaj Utwórz podgląd grupy roboczej.

Pierwszym krokiem jest skonfigurowanie grupy roboczej Redshift Serverless.

  1. W razie zamówieenia projektu Nazwa grupy roboczejwprowadź nazwę (na przykład zero-etl-target-rs-wg).bdb-3883-image014
  2. Dodatkowo możesz wybrać pojemność, aby ograniczyć zasoby obliczeniowe hurtowni danych. Pojemność można konfigurować w przyrostach co 8, od 8 do 512 jednostek RPU. W przypadku tego posta ustaw to na 8 RPU.
  3. Dodaj Następna.bdb-3883-image016

Następnie musisz skonfigurować przestrzeń nazw hurtowni danych.

  1. Wybierz Utwórz nową przestrzeń nazw.
  2. W razie zamówieenia projektu Przestrzeń nazwwprowadź nazwę (na przykład zero-etl-target-rs-ns).
  3. Dodaj Następna.bdb-3883-image017
  4. Dodaj Utwórz grupę roboczą.
  5. Po utworzeniu grupy roboczej i przestrzeni nazw wybierz Konfiguracje przestrzeni nazw w panelu nawigacji i otwórz konfigurację przestrzeni nazw.
  6. Na Polityka zasobów kartę, wybierz Dodaj autoryzowane podmioty zabezpieczeń.

Autoryzowany podmiot główny identyfikuje użytkownika lub rolę, która może utworzyć integracje o zerowym ETL z hurtownią danych.

bdb-3883-image018

  1. W razie zamówieenia projektu IAM główny identyfikator konta ARN lub AWS, możesz wprowadzić ARN użytkownika lub roli AWS albo identyfikator konta AWS, któremu chcesz przyznać dostęp w celu tworzenia integracji z zerowym ETL. (Identyfikator konta jest przechowywany jako ARN.)
  2. Dodaj Zapisz zmiany.bdb-3883-image019

Po skonfigurowaniu autoryzowanego podmiotu zabezpieczeń należy zezwolić źródłowej bazie danych na aktualizację magazynu danych Redshift. Dlatego należy dodać źródłową bazę danych jako autoryzowane źródło integracji do przestrzeni nazw.

  1. Dodaj Dodaj autoryzowane źródło integracji.bdb-3883-image020
  2. W razie zamówieenia projektu Autoryzowane źródło ARN, wprowadź ARN klastra Aurora PostgreSQL, ponieważ jest to źródło integracji z zerowym ETL.

Możesz uzyskać ARN klastra Aurora PostgreSQL na konsoli Amazon RDS, systemu Zakładka pod Nazwa zasobu Amazon.

  1. Dodaj Zapisz zmiany.bdb-3883-image021

Zaktualizuj grupę roboczą Redshift Serverless, aby włączyć identyfikatory z rozróżnianiem wielkości liter

W Amazon Aurora PostgreSQL domyślnie rozróżniana jest wielkość liter, a rozróżnianie wielkości liter jest wyłączone we wszystkich udostępnionych klastrach i grupach roboczych Redshift Serverless. Aby integracja przebiegła pomyślnie, parametr uwzględniania wielkości liter Enable_case_protection_identifier musi być włączona obsługa hurtowni danych.

Aby zmodyfikować enable_case_sensitive_identifier parametru w grupie roboczej Redshift Serverless, należy użyć parametru Interfejs wiersza poleceń AWS (AWS CLI), ponieważ konsola Amazon Redshift nie obsługuje obecnie modyfikowania wartości parametrów Redshift Serverless. Uruchom następujące polecenie, aby zaktualizować parametr:

aws redshift-serverless update-workgroup --workgroup-name zero-etl-target-rs-wg --config-parameters parameterKey=enable_case_sensitive_identifier,parameterValue=true --region us-east-2

Prostym sposobem na połączenie się z interfejsem CLI AWS jest użycie CloudShell, czyli powłoki opartej na przeglądarce, która zapewnia dostęp z wiersza poleceń do zasobów i narzędzi AWS bezpośrednio z przeglądarki. Poniższy zrzut ekranu ilustruje sposób uruchomienia polecenia w CloudShell.

bdb-3883-image022

Skonfiguruj wymagane uprawnienia

Aby utworzyć integrację typu zero-ETL, użytkownik lub rola muszą mieć dołączony plik polityka oparta na tożsamości z odpowiednim AWS Zarządzanie tożsamością i dostępem (Uprawnienia). Właściciel konta AWS może skonfiguruj wymagane uprawnienia dla użytkowników lub ról, którzy mogą tworzyć integracje o zerowym ETL. Przykładowa zasada umożliwia powiązanemu podmiotowi zabezpieczeń wykonanie następujących czynności:

  • Twórz integracje typu zero-ETL dla źródłowego klastra Aurora DB.
  • Wyświetl i usuń wszystkie integracje typu zero-ETL.
  • Twórz integracje przychodzące do docelowej hurtowni danych. Amazon Redshift ma inny format ARN dla obsługi administracyjnej i bezserwerowej:
  • Aprowizowany klaster - arn:aws:redshift:{region}:{account-id}:namespace:namespace-uuid
  • Bezserwerowe - arn:aws:redshift-serverless:{region}:{account-id}:namespace/namespace-uuid

To uprawnienie nie jest wymagane, jeśli to samo konto jest właścicielem hurtowni danych Redshift i to konto jest autoryzowanym podmiotem zabezpieczeń dla tej hurtowni danych.

Wykonaj następujące kroki, aby skonfigurować uprawnienia:

  1. W konsoli IAM wybierz Polityka w okienku nawigacji.
  2. Dodaj Utwórz politykę.
  3. Utwórz nową politykę o nazwie rds-integrations, używając następującego kodu JSON. W przypadku wersji zapoznawczej Amazon Aurora PostgreSQL wszystkie ARN i akcje w pliku Środowisko podglądu bazy danych Amazon RDS mieć -preview dołączone do przestrzeni nazw usługi. Dlatego w poniższej polityce zamiast rds należy użyć rds-preview, Na przykład, rds-preview:CreateIntegration.
{
    "Version": "2012-10-17",
    "Statement": [{
        "Effect": "Allow",
        "Action": [
            "rds:CreateIntegration"
        ],
        "Resource": [
            "arn:aws:rds:{region}:{account-id}:cluster:source-cluster",
            "arn:aws:rds:{region}:{account-id}:integration:*"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "rds:DescribeIntegration"
        ],
        "Resource": ["*"]
    },
    {
        "Effect": "Allow",
        "Action": [
            "rds:DeleteIntegration"
        ],
        "Resource": [
            "arn:aws:rds:{region}:{account-id}:integration:*"
        ]
    },
    {
        "Effect": "Allow",
        "Action": [
            "redshift:CreateInboundIntegration"
        ],
        "Resource": [
            "arn:aws:redshift:{region}:{account-id}:cluster:namespace-uuid"
        ]
    }]
}

  1. Dołącz utworzoną politykę do uprawnień użytkownika lub roli IAM.

Utwórz integrację zero-ETL

Aby utworzyć integrację typu zero-ETL, wykonaj następujące kroki:

  1. Na konsoli Amazon RDS wybierz Integracje typu zero-ETL w okienku nawigacji.
  2. Dodaj Utwórz integrację typu zero-ETL.bdb-3883-image023
  3. W razie zamówieenia projektu Identyfikator integracji, wprowadź nazwę, np zero-etl-demo.
  4. Dodaj Następna.bdb-3883-image025
  5. W razie zamówieenia projektu Źródłowa baza danychwybierz Przeglądaj bazy danych RDS.bdb-3883-image026
  6. Wybierz źródłową bazę danych zero-etl-source-pg i wybierz Dodaj.
  7. W razie zamówieenia projektu Nazwana baza danych, wpisz nazwę nowej bazy danych utworzonej w Amazon Aurora PostgreSQL (zeroetl-db).
  8. Dodaj Następna.bdb-3883-image028
  9. W Sekcja docelowa, Dla Konto AWS, Wybierz Skorzystaj z rachunku bieżącego.
  10. W razie zamówieenia projektu Magazyn danych Amazon Redshiftwybierz Przeglądaj hurtownie danych Redshift.bdb-3883-image029

Omawiamy Określ inne konto opcję w dalszej części tej sekcji.

  1. Wybierz docelową przestrzeń nazw Redshift Serverless (zero-etl-target-rs-ns) i wybierz Dodaj.bdb-3883-image031
  2. Dodaj tagi i szyfrowanie, jeśli ma to zastosowanie, i wybierz Dalej.bdb-3883-image032
  3. Sprawdź nazwę integracji, źródło, cel i inne ustawienia, a następnie wybierz Utwórz integrację typu zero-ETL.

Możesz wybrać integrację na konsoli Amazon RDS, aby zobaczyć szczegóły i monitorować jej postęp. Zmiana statusu z. trwa około 30 minut Tworzenie do Aktywna, w zależności od rozmiaru zbioru danych już dostępnego w źródle.

bdb-3883-image033

bdb-3883-image034

Aby określić docelową hurtownię danych Redshift znajdującą się na innym koncie AWS, musisz utworzyć rolę, która umożliwi użytkownikom bieżącego konta dostęp do zasobów konta docelowego. Aby uzyskać więcej informacji, zobacz Zapewnienie dostępu użytkownikowi IAM na innym koncie AWS, którego jesteś właścicielem.

Utwórz rolę na koncie docelowym z następującymi uprawnieniami:

{
   "Version":"2012-10-17",
   "Statement":[
      {
         "Effect":"Allow",
         "Action":[
            "redshift:DescribeClusters",
            "redshift-serverless:ListNamespaces"
         ],
         "Resource":[
            "*"
         ]
      }
   ]
}

Rola musi mieć następujące zasady zaufania, które określają identyfikator konta docelowego. Możesz to zrobić, tworząc rolę z zaufanym podmiotem jako identyfikator konta AWS na innym koncie.

{
   "Version":"2012-10-17",
   "Statement":[
      {
         "Effect":"Allow",
         "Principal":{
            "AWS": "arn:aws:iam::{external-account-id}:root"
         },
         "Action":"sts:AssumeRole"
      }
   ]
}

Poniższy zrzut ekranu ilustruje tworzenie tego w konsoli IAM.

bdb-3883-image035

Następnie, tworząc integrację zerową ETL, dla Określ inne konto, wybierz identyfikator konta docelowego i nazwę utworzonej roli.

Utwórz bazę danych z integracji w Amazon Redshift

Aby utworzyć bazę danych, wykonaj następujące kroki:

  1. Na pulpicie nawigacyjnym Redshift Serverless przejdź do pliku zero-etl-target-rs-ns przestrzeń nazw.
  2. Dodaj Zapytanie o dane aby otworzyć edytor zapytań v2.
    bdb-3883-image036
  3. Połącz się z hurtownią danych Redshift Serverless, wybierając Utwórz połączenie.
    bdb-3883-image037
  4. Uzyskaj integration_id z svv_integration tabela systemowa:
    SELECT integration_id FROM svv_integration; -- copy this result, use in the next sql

  5. Użyj integration_id z poprzedniego kroku, aby utworzyć nową bazę danych z integracji. Musisz także dołączyć odwołanie do nazwanej bazy danych w klastrze, którą określiłeś podczas tworzenia integracji.
    CREATE DATABASE aurora_pg_zetl FROM INTEGRATION '<result from above>' DATABASE zeroetl_db;

bdb-3883-image038

Integracja została zakończona, a cała migawka źródła będzie odzwierciedlać tę samą zawartość, która znajduje się w miejscu docelowym. Bieżące zmiany będą synchronizowane w czasie zbliżonym do rzeczywistego.

Analizuj dane transakcyjne w czasie zbliżonym do rzeczywistego

Teraz możesz rozpocząć analizę danych w czasie zbliżonym do rzeczywistego ze źródła Amazon Aurora PostgreSQL do celu Amazon Redshift:

  1. Połącz się ze źródłową bazą danych Aurora PostgreSQL. W tym demo używamy Psql aby połączyć się z Amazon Aurora PostgreSQL:
    psql -h <amazon_aurora_postgres_writer_endpoint> -p 5432 -d zeroetl_db -U postgres

bdb-3883-image039

  1. Utwórz przykładową tabelę z kluczem podstawowym. Upewnij się, że wszystkie tabele, które mają być replikowane ze źródła do celu, mają klucz podstawowy. Tabele bez klucza podstawowego nie mogą być replikowane do miejsca docelowego.
CREATE TABLE NATION  ( 
N_NATIONKEY  INTEGER NOT NULL PRIMARY KEY, 
N_NAME       CHAR(25) NOT NULL,
N_REGIONKEY  INTEGER NOT NULL,
N_COMMENT    VARCHAR(152));

  1. Wstaw fikcyjne dane do tabeli narodów i sprawdź, czy dane zostały poprawnie załadowane:
INSERT INTO nation VALUES (1, 'USA', 1 , 'united states of america');
SELECT * FROM nation;

bdb-3883-image040

Te przykładowe dane powinny teraz zostać zreplikowane w Amazon Redshift.

Przeanalizuj dane źródłowe w miejscu docelowym

Na pulpicie nawigacyjnym Redshift Serverless otwórz edytor zapytań v2 i połącz się z bazą danych aurora_pg_zetl stworzyłeś wcześniej.

Uruchom następujące zapytanie, aby sprawdzić poprawność replikacji danych źródłowych do Amazon Redshift:

SELECT * FROM aurora_pg_etl.public.nation;

bdb-3883-image041

Możesz także użyć następującego zapytania, aby sprawdzić poprawność początkowej migawki lub działania związanego z przechwytywaniem danych o ciągłej zmianie (CDC):

SELECT * FROM sys_integration_activity ORDER BY last_commit_timestamp desc;

bdb-3883-image042

Monitorowanie

Istnieje kilka opcji uzyskania wskaźników dotyczących wydajności i statusu integracji zerowego ETL Aurora PostgreSQL z Amazon Redshift.

Jeśli przejdziesz do konsoli Amazon Redshift, możesz wybrać Integracje typu zero-ETL w panelu nawigacji. Możesz wybrać żądaną integrację z zerowym ETL i wyświetlić ją Amazon Cloud Watch metryki związane z integracją. Te wskaźniki są również dostępne bezpośrednio w CloudWatch.

bdb-3883-image043

Dla każdej integracji dostępne są dwie zakładki z dostępnymi informacjami:

  • Metryki integracji – Pokazuje metryki, takie jak liczba pomyślnie zreplikowanych tabel i szczegóły opóźnień
    bdb-3883-image044
  • Statystyki tabeli – Pokazuje szczegółowe informacje na temat każdej tabeli zreplikowanej z Amazon Aurora PostgreSQL do Amazon Redshift
    bdb-3883-image045

Oprócz metryk CloudWatch możesz wysyłać zapytania dotyczące następujących kwestii widoki systemowe, które dostarczają informacji o integracjach:

Sprzątać

Kiedy usuniesz integrację z zerowym ETL, Twoje dane transakcyjne nie zostaną usunięte z Aurora lub Amazon Redshift, ale Aurora nie będzie wysyłać nowych danych do Amazon Redshift.

Aby usunąć integrację typu zero-ETL, wykonaj następujące czynności:

  1. Na konsoli Amazon RDS wybierz Integracje typu zero-ETL w okienku nawigacji.
  2. Wybierz integrację zero-ETL, którą chcesz usunąć, i wybierz Usuń.
    bdb-3883-image046
  3. Aby potwierdzić usunięcie, wpisz potwierdź i wybierz Usuń.
    bdb-3883-image048

Wnioski

W tym poście wyjaśniliśmy, jak skonfigurować integrację z zerowym ETL z Amazon Aurora PostgreSQL do Amazon Redshift, funkcję, która zmniejsza wysiłek związany z utrzymaniem potoków danych i umożliwia analizę danych transakcyjnych i operacyjnych w czasie zbliżonym do rzeczywistego.

Aby dowiedzieć się więcej na temat integracji zerowej ETL, zobacz Praca z integracją Aurora o zerowym ETL z Amazon Redshift i Ograniczenia.


O autorach

Raks KhareRaks Khare jest specjalistą ds. analityki w architekturze rozwiązań w AWS z siedzibą w Pensylwanii. Pomaga klientom w architekturze rozwiązań do analityki danych na dużą skalę na platformie AWS.

Juana Luisa Polo Garzona jest Associate Specialist Solutions Architect w AWS, specjalizującym się w obciążeniach analitycznych. Ma doświadczenie w pomaganiu klientom w projektowaniu, budowaniu i modernizowaniu ich rozwiązań analitycznych w chmurze. Poza pracą lubi podróżować, spędzać czas na świeżym powietrzu i wędrować, a także uczestniczyć w wydarzeniach muzycznych na żywo.

Sushmita Barthakur jest starszym architektem rozwiązań w Amazon Web Services i wspiera klientów korporacyjnych w projektowaniu obciążeń w AWS. Dzięki dużemu doświadczeniu w analizie danych i zarządzaniu danymi ma szerokie doświadczenie w pomaganiu klientom w projektowaniu i budowaniu rozwiązań Business Intelligence i Analytics, zarówno lokalnych, jak i w chmurze. Sushmita pochodzi z Tampy na Florydzie i lubi podróżować, czytać i grać w tenisa.

spot_img

Najnowsza inteligencja

spot_img