Logo Zephyrnet

Annuncio del filtraggio dei dati per l'integrazione zero-ETL di Amazon Aurora MySQL con Amazon Redshift | Servizi Web di Amazon

Data:

Man mano che la tua organizzazione diventa sempre più guidata dai dati e li utilizza come fonte di vantaggio competitivo, ti consigliamo di eseguire analisi sui tuoi dati per comprendere meglio i fattori chiave del tuo business per aumentare le vendite, ridurre i costi e ottimizzare il tuo business. Per eseguire analisi sui dati operativi, potresti creare una soluzione che sia una combinazione di un database, un data warehouse e una pipeline di estrazione, trasformazione e caricamento (ETL). ETL è il sistema utilizzato dagli ingegneri dei dati di processo per combinare dati provenienti da fonti diverse.

AWS ha annunciato di ridurre lo sforzo necessario per costruire e mantenere pipeline ETL tra database transazionali e data warehouse Integrazione zero-ETL di Amazon Aurora con Amazon Redshift at AWS re: Invent 2022 ed è ora generalmente disponibile (GA) per Edizione 3.05.0 compatibile con Amazon Aurora MySQL.

AWS annuncia ora il filtraggio dei dati sulle integrazioni zero ETL, consentendoti di importare dati selettivi dall'istanza del database sulle integrazioni zero ETL tra Amazon Aurora MySQL e Amazon RedShift. Questa funzionalità ti consente di selezionare singoli database e tabelle da replicare nel tuo data warehouse Redshift per casi d'uso di analisi.

In questo post, forniamo una panoramica dei casi d'uso in cui è possibile utilizzare questa funzionalità e forniamo indicazioni dettagliate su come iniziare con l'analisi operativa quasi in tempo reale utilizzando questa funzionalità.

Casi d'uso del filtraggio dei dati

Il filtraggio dei dati ti consente di scegliere i database e le tabelle da replicare da Amazon Aurora MySQL ad Amazon Redshift. Puoi applicare più filtri all'integrazione zero-ETL, consentendoti di personalizzare la replica in base alle tue esigenze specifiche. Il filtraggio dei dati si applica a exclude or include regola di filtro e può utilizzare espressioni regolari per abbinare più database e tabelle.

In questa sezione verranno discussi alcuni casi d'uso comuni per il filtraggio dei dati.

Migliora la sicurezza dei dati escludendo le tabelle contenenti dati PII dalla replica

I database operativi spesso contengono informazioni di identificazione personale (PII). Si tratta di informazioni di natura sensibile e possono includere informazioni quali indirizzi postali, documentazione di verifica del cliente o dati della carta di credito.

A causa delle rigide norme di conformità alla sicurezza, potresti non voler utilizzare le PII per i tuoi casi d'uso di analisi. Il filtraggio dei dati consente di filtrare database o tabelle contenenti dati PII, escludendoli dalla replica su Amazon Redshift. Ciò migliora la sicurezza dei dati e la conformità con i carichi di lavoro di analisi.

Risparmia sui costi di archiviazione e gestisci i carichi di lavoro di analisi replicando le tabelle richieste per casi d'uso specifici

I database operativi spesso contengono molti set di dati diversi che non sono utili per l'analisi. Ciò include dati supplementari, dati di applicazioni specifiche e più copie dello stesso set di dati per applicazioni diverse.

Inoltre, è comune creare diversi casi d'uso su diversi warehouse Redshift. Questa architettura richiede che diversi set di dati siano disponibili nei singoli endpoint.

Il filtraggio dei dati ti consente di replicare solo i set di dati necessari per i tuoi casi d'uso. Ciò può far risparmiare sui costi eliminando la necessità di archiviare i dati che non vengono utilizzati.

È inoltre possibile modificare le integrazioni zero-ETL esistenti per applicare una replica dei dati più restrittiva dove desiderato. Se aggiungi un filtro dati a un'integrazione esistente, Aurora rivaluterà completamente i dati replicati con il nuovo filtro. Ciò rimuoverà i dati appena filtrati dall'endpoint Redshift di destinazione.

Per ulteriori informazioni sulle quote per le integrazioni Aurora zero-ETL con Amazon Redshift, fare riferimento a quote.

Inizia con la replica di piccoli dati e aggiungi in modo incrementale le tabelle secondo necessità

Man mano che su Amazon Redshift vengono sviluppati più casi d'uso di analisi, potresti voler aggiungere più tabelle a una singola replica con ETL zero. Invece di replicare tutte le tabelle su Amazon Redshift per soddisfare la possibilità che possano essere utilizzate in futuro, il filtraggio dei dati ti consente di iniziare in piccolo con un sottoinsieme di tabelle dal database Aurora e aggiungere in modo incrementale altre tabelle al filtro quando necessario .

Dopo l'aggiornamento di un filtro dati su un'integrazione zero-ETL, Aurora rivaluterà completamente l'intero filtro come se il filtro precedente non esistesse, quindi i carichi di lavoro che utilizzano tabelle replicate in precedenza non vengono influenzati dall'aggiunta di nuove tabelle.

Migliora le prestazioni dei singoli carichi di lavoro bilanciando il carico dei processi di replica

Per i database transazionali di grandi dimensioni, potrebbe essere necessario bilanciare il carico della replica e di qualsiasi elaborazione downstream su più cluster Redshift per consentire la riduzione dei requisiti di elaborazione per un singolo endpoint Redshift e la possibilità di suddividere i carichi di lavoro su più endpoint. Bilanciando il carico dei carichi di lavoro su più endpoint Redshift, puoi creare in modo efficace un'architettura a mesh di dati, in cui gli endpoint sono adeguatamente dimensionati per i singoli carichi di lavoro. Ciò può migliorare le prestazioni e ridurre i costi complessivi.

Il filtraggio dei dati consente di replicare diversi database e tabelle per separare gli endpoint Redshift.

La figura seguente mostra come utilizzare i filtri di dati sulle integrazioni zero-ETL per suddividere diversi database in Aurora per separare gli endpoint Redshift.

Caso d'uso di esempio

Si consideri il TICCHETTO Banca dati. Il database di esempio TICKIT contiene dati di un'azienda fittizia in cui gli utenti possono acquistare e vendere biglietti per vari eventi. Gli analisti aziendali dell'azienda desiderano utilizzare i dati archiviati nel database Aurora MySQL per generare vari parametri e vorrebbero eseguire questa analisi quasi in tempo reale. Per questo motivo l’azienda ha individuato lo zero-ETL come potenziale soluzione.

Durante l'analisi dei set di dati richiesti, gli analisti dell'azienda hanno notato che la tabella utenti contiene informazioni personali sugli utenti dei clienti che non sono utili per i loro requisiti di analisi. Pertanto, desiderano replicare tutti i dati tranne la tabella degli utenti e utilizzeranno il filtraggio dei dati di zero-ETL per farlo.

Impostare

Inizia seguendo i passaggi in Guida introduttiva per l'analisi operativa in tempo quasi reale utilizzando l'integrazione zero-ETL di Amazon Aurora con Amazon Redshift per creare un nuovo database Aurora MySQL, Amazon Redshift senza server endpoint e integrazione zero-ETL. Quindi apri l'editor di query Redshift v2 ed esegui la seguente query per mostrare che i dati della tabella utenti sono stati replicati correttamente:

select * from aurora_zeroetl.demodb.users;

Filtri dati

I filtri dei dati vengono applicati direttamente all'integrazione zero-ETL su Servizio di database relazionale Amazon (AmazonRDS). Puoi definire più filtri per una singola integrazione e ogni filtro è definito come un Include or Exclude tipo di filtro. I filtri di dati applicano un modello alle tabelle del database esistenti e future per determinare quale filtro deve essere applicato.

Applicare un filtro dati

Per applicare un filtro per rimuovere il file users tabella dall'integrazione zero-ETL, completare i seguenti passaggi:

  1. Nella console Amazon RDS, scegli Integrazioni Zero-ETL nel pannello di navigazione.
  2. Scegli l'integrazione zero-ETL a cui aggiungere un filtro.

Il filtro predefinito consiste nell'includere tutti i database e le tabelle rappresentati da un file include:*.* filtro.

  1. Scegli modificare.
  2. Scegli Aggiungi filtro nel Fonte .
  3. Nel Scegli il tipo di filtroscegli Escludere.
  4. Nel Espressione del filtro, inserisci l'espressione demodb.users.

L'ordine delle espressioni di filtro è importante. I filtri vengono valutati da sinistra a destra, dall'alto in basso e i filtri successivi sovrascriveranno i filtri precedenti. In questo esempio, Aurora valuterà che ogni tabella debba essere inclusa (filtro 1) e quindi valuterà che il file demodb.users la tabella deve essere esclusa (filtro 2). Il filtro di esclusione quindi sovrascrive l'inclusione perché è dopo il filtro di inclusione.

  1. Scegli Continua.
  2. Rivedi le modifiche, assicurandoti che l'ordine dei filtri sia corretto e scegli Salvare le modifiche.

L'integrazione verrà aggiunta e sarà in a Modifica stato finché le modifiche non saranno state applicate. L'operazione può richiedere fino a 30 minuti. Per verificare se le modifiche sono state applicate, scegli l'integrazione zero-ETL e controllane lo stato. Quando viene visualizzato come Attivo, le modifiche sono state applicate.

Verificare la modifica

Per verificare che l'integrazione zero-ETL sia stata aggiornata, completare i seguenti passaggi:

  1. Nell'editor di query Redshift v2, connettiti al tuo cluster Redshift.
  2. Scegli (fai clic con il pulsante destro del mouse) il file aurora-zeroetl database che hai creato e scelto ricaricare.
  3. Espandere demodb ed Tables.

I users la tabella non è più disponibile perché è stata rimossa dalla replica. Tutti gli altri tavoli sono ancora disponibili.

  1. Se esegui la stessa istruzione SELECT di prima, riceverai un errore che indica che l'oggetto non esiste nel database:
    select * from aurora_zeroetl.demodb.users;

Applica un filtro dati utilizzando AWS CLI

Gli analisti aziendali dell'azienda ora comprendono che al database Aurora MySQL verranno aggiunti altri database e desiderano garantire che solo demodb il database viene replicato nel loro cluster Redshift. A tal fine vogliono aggiornare i filtri sull'integrazione zero-ETL con il Interfaccia della riga di comando di AWS (interfaccia a riga di comando dell'AWS).

Per aggiungere filtri di dati a un'integrazione zero-ETL utilizzando AWS CLI, puoi chiamare il file modifica-integrazione comando. Oltre all'identificatore di integrazione, specificare il file --data-filter parametro con un elenco separato da virgole di include ed exclude filtri.

Completare i seguenti passaggi per modificare il filtro sull'integrazione zero-ETL:

  1. Apri un terminale con l'AWS CLI installata.
  2. Inserisci il comando seguente per elencare tutte le integrazioni disponibili:
    aws rds describe-integrations

  3. Trova l'integrazione che desideri aggiornare e copia l'identificatore dell'integrazione.

L'identificatore di integrazione è una stringa alfanumerica alla fine dell'ARN di integrazione.

  1. Esegui il comando seguente, aggiornando con l'identificatore copiato dal passaggio precedente:
    aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude: demodb.users'

Quando Aurora valuta questo filtro, escluderà tutto per impostazione predefinita, quindi includerà solo il file demodb database, ma escludi il file demodb.users tabella.

I filtri di dati possono implementare espressioni regolari per i database e la tabella. Ad esempio, se desideri filtrare tutte le tabelle che iniziano con user, puoi eseguire quanto segue:

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'exclude: *.*, include: demodb.*, exclude *./^user/'

Come per la precedente modifica del filtro, l'integrazione verrà aggiunta e sarà in a Modifica stato finché le modifiche non saranno state applicate. L'operazione può richiedere fino a 30 minuti. Quando viene visualizzato come Attivo, le modifiche sono state applicate.

ripulire

Per rimuovere il filtro aggiunto all'integrazione zero-ETL, completare i seguenti passaggi:

  1. Nella console Amazon RDS, scegli Integrazioni Zero-ETL nel pannello di navigazione.
  2. Scegli la tua integrazione zero-ETL.
  3. Scegli modificare.
  4. Scegli Rimuovere accanto ai filtri che desideri rimuovere.
  5. Puoi anche cambiare il Escludere tipo di filtro a Includere.

In alternativa, puoi utilizzare AWS CLI per eseguire quanto segue:

aws rds modify-integration --integration-identifier "<integration identifier>" --data-filter 'include: *.*'

  1. Scegli Continua.
  2. Scegli Salvare le modifiche.

Il filtro dati impiegherà fino a 30 minuti per applicare le modifiche. Dopo aver rimosso i filtri dati, Aurora rivaluta i filtri rimanenti come se il filtro rimosso non fosse mai esistito. Tutti i dati che in precedenza non corrispondevano ai criteri di filtro ma che ora lo fanno vengono replicati nel data warehouse Redshift di destinazione.

Conclusione

In questo post, ti abbiamo mostrato come impostare il filtraggio dei dati sulla tua integrazione Aurora zero-ETL da Amazon Aurora MySQL ad Amazon Redshift. Ciò consente di abilitare analisi quasi in tempo reale sui dati transazionali e operativi replicando solo i dati richiesti.

Con il filtraggio dei dati, puoi suddividere i carichi di lavoro in endpoint Redshift separati, limitare la replica di set di dati privati ​​o riservati e aumentare le prestazioni dei carichi di lavoro replicando solo i set di dati richiesti.

Per ulteriori informazioni sull'integrazione di Aurora zero-ETL con Amazon Redshift, consulta Utilizzo delle integrazioni Aurora zero-ETL con Amazon Redshift ed Lavorare con integrazioni zero-ETL.


Circa gli autori

Jyoti Aggarwal è un responsabile della gestione del prodotto per AWS zero-ETL. Dirige la strategia aziendale e di prodotto, inclusa la guida di iniziative relative a prestazioni, esperienza del cliente e sicurezza. Porta con sé una competenza nel cloud computing, nelle pipeline di dati, nell'analisi, nell'intelligenza artificiale (AI) e nei servizi dati tra cui database, data warehouse e data lake.


Sean Beat
è un Analytics Solutions Architect presso Amazon Web Services. Ha esperienza nell'intero ciclo di vita della consegna della modernizzazione della piattaforma dati utilizzando i servizi AWS e collabora con i clienti per contribuire a promuovere il valore dell'analisi su AWS.

Gokul Soundararajan è un ingegnere principale presso AWS e ha conseguito un dottorato di ricerca presso l'Università di Toronto e ha lavorato nelle aree di storage, database e analisi.

spot_img

L'ultima intelligenza

spot_img