Logo Zephyrnet

Migliora la sicurezza e la governance dei dati per Amazon Redshift Spectrum con endpoint VPC | Servizi Web di Amazon

Data:

Molti clienti stanno estendendo le proprie funzionalità di data warehouse al proprio data Lake con Amazon RedShift. Stanno cercando di migliorare ulteriormente la loro posizione di sicurezza in cui possono applicare policy di accesso ai loro data Lake basati su Servizio di archiviazione semplice Amazon (Amazon S3). Inoltre stanno adottando modelli di sicurezza che richiedono l’accesso al data Lake attraverso le loro reti private.

Spettro Amazon Redshift consente di eseguire query SQL di Amazon Redshift sui dati archiviati in Amazon S3. Redshift Spectrum utilizza il Colla AWS Data Catalog come metastore Hive. Con un data warehouse Redshift fornito, la capacità di elaborazione di Redshift Spectrum viene eseguita da server Redshift dedicati separati di proprietà di Amazon Redshift che sono indipendenti dal cluster Redshift. Quando il routing VPC avanzato è abilitato per il tuo cluster Redshift, Redshift Spectrum si connette dal VPC Redshift a un'interfaccia di rete elastica (ENI) nel tuo VPC. Poiché utilizza cluster dedicati Redshift separati, per forzare tutto il traffico tra Redshift e Amazon S3 attraverso il VPC, è necessario attivare il routing VPC avanzato e creare un percorso di rete specifico tra il VPC del data warehouse Redshift e le origini dati S3.

Quando si utilizza un file Amazon Redshift senza server Ad esempio, Redshift Spectrum utilizza la stessa capacità di calcolo della capacità di calcolo del tuo gruppo di lavoro serverless. Per accedere alle tue origini dati S3 da Redshift Serverless senza che il traffico lasci il tuo VPC, puoi utilizzare l'opzione di routing VPC avanzato senza la necessità di alcuna configurazione di rete aggiuntiva.

Formazione AWS Lake offre un approccio semplice e centralizzato alla gestione degli accessi per le origini dati S3. Lake Formation consente alle organizzazioni di gestire il controllo degli accessi per i data Lake basati su Amazon S3 utilizzando concetti di database familiari come tabelle e colonne, insieme a opzioni più avanzate come la sicurezza a livello di riga e di cella. Lake Formation utilizza il catalogo dati di AWS Glue per fornire il controllo degli accessi per Amazon S3.

In questo post, mostriamo come configurare la tua rete per Redshift Spectrum per utilizzare il routing VPC avanzato di un cluster fornito da Redshift per accedere ai dati Amazon S3 tramite il controllo degli accessi di Lake Formation. Puoi configurare questa integrazione in una rete privata senza connettività a Internet.

Panoramica della soluzione

Con questa soluzione, il traffico di rete viene instradato attraverso il tuo VPC abilitandolo Amazon Redshift ha migliorato il routing VPC. Questa opzione di routing assegna la priorità all'endpoint VPC come prima priorità di instradamento rispetto a un Internet gateway, Istanza NAT, o Gateway NAT. Per impedire al tuo cluster Redshift di comunicare con risorse esterne al tuo VPC, è necessario rimuovere tutte le altre opzioni di routing. Ciò garantisce che tutte le comunicazioni vengano instradate attraverso gli endpoint VPC.

Il diagramma seguente illustra l'architettura della soluzione.

La soluzione consiste nei seguenti passaggi:

  1. Crea un cluster Redshift in una configurazione di rete di sottorete privata:
    1. Abilita il routing VPC avanzato per il tuo cluster Redshift.
    2. Modificare la tabella di routing per garantire l'assenza di connettività alla rete pubblica.
  2. Crea i seguenti endpoint VPC per la connettività Redshift Spectrum:
    1. Endpoint dell'interfaccia AWS Glue.
    2. Endpoint dell'interfaccia Lake Formation.
    3. Endpoint del gateway Amazon S3.
  3. Analizza la connettività e il routing di rete di Amazon Redshift:
    1. Verifica i percorsi di rete per Amazon Redshift in una rete privata.
    2. Verifica la connettività di rete dal cluster Redshift a vari endpoint VPC.
    3. Testa la connettività utilizzando l'editor di query di Amazon Redshift v2.

Questa integrazione utilizza endpoint VPC per stabilire una connessione privata dal tuo data warehouse Redshift a Lake Formation, Amazon S3 e AWS Glue.

Prerequisiti

Per impostare questa soluzione, è necessaria una familiarità di base con Console di gestione AWS, una Account AWSe l'accesso ai seguenti servizi AWS:

Inoltre, devi aver integrato Lake Formation con Amazon Redshift per accedere al tuo data Lake S3 in una rete non privata. Per istruzioni, fare riferimento a Centralizza la governance per il tuo data lake utilizzando AWS Lake Formation, consentendo al contempo un'architettura di dati moderna con Amazon Redshift Spectrum.

Crea un cluster Redshift in una configurazione di rete di sottorete privata.

Il primo passaggio è configurare il tuo cluster Redshift per consentire solo il traffico di rete attraverso il tuo VPC e impedire qualsiasi percorso pubblico. A tale scopo, devi abilitare il routing VPC avanzato per il tuo cluster Redshift. Completa i seguenti passaggi:

  1. Nella console Amazon Redshift, accedi al tuo cluster.
  2. Modifica le impostazioni di rete e di sicurezza.
  3. Nel Routing VPC migliorato, selezionare Accendi.
  4. Disabilitare il Accessibile al pubblico opzione.
  5. Scegli Salvare le modifiche e modificare il cluster per applicare gli aggiornamenti. Ora hai un cluster Redshift che può comunicare solo tramite il VPC. Ora puoi modificare la tabella di routing per garantire l'assenza di connettività alla rete pubblica.
  6. Nella console Amazon Redshift, prendi nota del gruppo di sottoreti e identifica la sottorete associata a questo gruppo di sottoreti.
  7. Nella console Amazon VPC, identificare la tabella di routing associata a questa sottorete e modificarla per rimuovere la route predefinita al gateway NAT.

Se il cluster si trova in una sottorete pubblica, potrebbe essere necessario rimuovere il percorso del gateway Internet. Se la sottorete è condivisa tra altre risorse, ciò potrebbe influire sulla loro connettività.

Il tuo cluster è ora in una rete privata e non può comunicare con alcuna risorsa esterna al tuo VPC.

Crea endpoint VPC per la connettività Redshift Spectrum

Dopo aver configurato il cluster Redshift per funzionare all'interno di una rete privata senza connettività esterna, devi stabilire la connettività ai seguenti servizi tramite endpoint VPC:

  • Colla AWS
  • Formazione del lago
  • Amazon S3

Crea un endpoint AWS Glue

Per cominciare, Redshift Spectrum si connette agli endpoint AWS Glue per recuperare informazioni dal catalogo AWS Data Glue. Per creare un endpoint VPC per AWS Glue, completa i seguenti passaggi:

  1. Nella console Amazon VPC, scegli endpoint nel pannello di navigazione.
  2. Scegli Crea endpoint.
  3. Nel Tag nome, inserisci un nome facoltativo.
  4. Nel Categoria di servizio, selezionare Servizi AWS.
  5. Nel Servizi sezione, cerca e seleziona l'endpoint dell'interfaccia AWS Glue.
  6. Scegli il VPC e le sottoreti appropriati per il tuo endpoint.
  7. Configura le impostazioni del gruppo di sicurezza e rivedi le impostazioni dell'endpoint.
  8. Scegli Crea endpoint per completare il processo.

Dopo aver creato l'endpoint VPC AWS Glue, Redshift Spectrum sarà in grado di recuperare informazioni dal catalogo dati di AWS Glue all'interno del tuo VPC.

Crea un endpoint di Lake Formation

Ripeti la stessa procedura per creare un endpoint Lake Formation:

  1. Nella console Amazon VPC, scegli endpoint nel pannello di navigazione.
  2. Scegli Crea endpoint.
  3. Nel Tag nome, inserisci un nome facoltativo.
  4. Nel Categoria di servizio, selezionare Servizi AWS.
  5. Nel Servizi sezione, cerca e seleziona l'endpoint dell'interfaccia Lake Formation.
  6. Scegli il VPC e le sottoreti appropriati per il tuo endpoint.
  7. Configura le impostazioni del gruppo di sicurezza e rivedi le impostazioni dell'endpoint.
  8. Scegli Crea endpoint.

Ora disponi di connettività per Amazon Redshift a Lake Formation e AWS Glue, che ti consente di recuperare il catalogo e convalidare le autorizzazioni sul data Lake.

Crea un endpoint Amazon S3

Il passaggio successivo consiste nel creare un endpoint VPC per Amazon S3 per consentire a Redshift Spectrum di accedere ai dati archiviati in Amazon S3 tramite endpoint VPC:

  1. Nella console Amazon VPC, scegli endpoint nel pannello di navigazione.
  2. Scegli Crea endpoint.
  3. Nel Tag nome, inserisci un nome facoltativo.
  4. Nel Categoria di servizio, selezionare Servizi AWS.
  5. Nel Servizi sezione, cerca e seleziona l'endpoint del gateway Amazon S3.
  6. Scegli il VPC e le sottoreti appropriati per il tuo endpoint.
  7. Configura le impostazioni del gruppo di sicurezza e rivedi le impostazioni dell'endpoint.
  8. Scegli Crea endpoint.

Con la creazione dell'endpoint VPC per Amazon S3, hai completato tutti i passaggi necessari per garantire che il tuo cluster Redshift possa comunicare privatamente con i servizi richiesti tramite endpoint VPC all'interno del tuo VPC.

È importante garantire che i gruppi di sicurezza collegati agli endpoint VPC siano configurati correttamente, poiché una regola in entrata errata può causare il timeout della connessione. Verifica che le regole in entrata del gruppo di sicurezza siano configurate correttamente per consentire il passaggio del traffico necessario attraverso l'endpoint VPC.

Analizzare il traffico e la topologia della rete

Puoi utilizzare i seguenti metodi per verificare i percorsi di rete da Amazon Redshift ad altri endpoint.

Verifica i percorsi di rete per Amazon Redshift in una rete privata

È possibile utilizzare un Mappa delle risorse Amazon VPC per visualizzare la connettività Amazon Redshift. La mappa delle risorse mostra le interconnessioni tra le risorse all'interno di un VPC e il flusso di traffico tra sottoreti, gateway NAT, gateway Internet ed endpoint gateway. Come mostrato nello screenshot seguente, la sottorete evidenziata in cui è in esecuzione il cluster Redshift non dispone di connettività a un gateway NAT o a un gateway Internet. La tabella di routing associata alla sottorete può raggiungere Amazon S3 solo tramite endpoint VPC.

Tieni presente che gli endpoint AWS Glue e Lake Formation sono endpoint di interfaccia e non visibili su una mappa delle risorse.

Verifica la connettività di rete dal cluster Redshift a vari endpoint VPC

Puoi verificare la connettività dalla sottorete del cluster Redshift a tutti gli endpoint VPC utilizzando il file Analizzatore di raggiungibilità. Reachability Analyser è uno strumento di analisi della configurazione che ti consente di eseguire test di connettività tra una risorsa di origine e una risorsa di destinazione nei tuoi VPC. Completa i seguenti passaggi:

  1. Nella console Amazon Redshift, vai alla pagina di configurazione del cluster Redshift e prendi nota dell'indirizzo IP interno.
  2. Nella console Amazon EC2, cerca il tuo ENI filtrando in base all'indirizzo IP.
  3. Scegli l'ENI associato al tuo cluster Redshift e scegli Esegui l'Analizzatore di raggiungibilità.
  4. Nel Tipo di originescegli Interfacce di rete.
  5. Nel Fonte, scegli il Redshift ENI.
  6. Nel Tipo di destinazionescegli Endpoint VPC.
  7. Nel Nei Dintorni, scegli il tuo endpoint VPC.
  8. Scegli Crea e analizza percorso.
  9. Una volta completata l'analisi, visualizza l'analisi per vedere la raggiungibilità.

Come mostrato nello screenshot seguente, il cluster Redshift ha connettività all'endpoint Lake Formation.

Puoi ripetere questi passaggi per verificare la raggiungibilità della rete per tutti gli altri endpoint VPC.

Testa la connettività eseguendo una query SQL dall'editor di query Amazon Redshift v2

Puoi verificare la connettività eseguendo una query SQL con la tabella Redshift Spectrum utilizzando l'editor di query Amazon Redshift, come mostrato nello screenshot seguente.

Congratulazioni! Puoi eseguire correttamente query dalle tabelle Redshift Spectrum da un cluster sottoposto a provisioning mentre il routing VPC avanzato è abilitato affinché il traffico rimanga all'interno della tua rete AWS.

ripulire

Dovresti ripulire le risorse create come parte di questo esercizio per evitare costi inutili per il tuo account AWS. Completa i seguenti passaggi:

  1. Nella console Amazon VPC, scegli endpoint nel pannello di navigazione.
  2. Seleziona gli endpoint che hai creato e sul file Azioni menù, scegliere Elimina gli endpoint VPC.
  3. Nella console Amazon Redshift, accedi al tuo cluster Redshift.
  4. Modificare la rete del cluster e le impostazioni di sicurezza e selezionare spegnere per Routing VPC migliorato.
  5. Puoi anche eliminare i dati Amazon S3 e il cluster Redshift se non prevedi di utilizzarli ulteriormente.

Conclusione

Spostando il tuo data warehouse Redshift su un'impostazione di rete privata e abilitando il routing VPC avanzato, puoi migliorare il livello di sicurezza del tuo cluster Redshift limitando l'accesso solo alle reti autorizzate.

Vogliamo ringraziare i nostri colleghi AWS Harshida Patel, Fabricio Pinto e Soumyajeet Patra per aver fornito le loro opinioni con questo post del blog.

Se hai domande o suggerimenti, lascia il tuo feedback nella sezione commenti. Se hai bisogno di ulteriore assistenza per proteggere i tuoi data Lake S3 e i data warehouse Redshift, contatta il team dell'account AWS.

Risorse addizionali


Informazioni sugli autori

Kanwar Bajwa è un responsabile del supporto aziendale presso AWS che collabora con i clienti per ottimizzare l'utilizzo dei servizi AWS e raggiungere i loro obiettivi aziendali.

Swapna Bandla è un Senior Solutions Architect nel team AWS Analytics Specialist SA. Swapna ha la passione di comprendere le esigenze di dati e analisi dei clienti e di consentire loro di sviluppare soluzioni ben architettate basate sul cloud. Al di fuori del lavoro, le piace trascorrere del tempo con la sua famiglia.

spot_img

L'ultima intelligenza

spot_img