Logo Zéphyrnet

Améliorez la sécurité et la gouvernance des données pour Amazon Redshift Spectrum avec les points de terminaison VPC | Services Web Amazon

Date :

De nombreux clients étendent leurs capacités d'entrepôt de données à leur lac de données avec Redshift d'Amazon. Ils cherchent à améliorer davantage leur posture de sécurité en pouvant appliquer des politiques d'accès à leurs lacs de données basées sur Service de stockage simple Amazon (Amazon S3). De plus, ils adoptent des modèles de sécurité qui nécessitent l’accès au lac de données via leurs réseaux privés.

Spectre Amazon Redshift vous permet d'exécuter des requêtes SQL Amazon Redshift sur des données stockées dans Amazon S3. Redshift Spectrum utilise le Colle AWS Data Catalog en tant que métastore Hive. Avec un entrepôt de données Redshift provisionné, la capacité de calcul Redshift Spectrum s'exécute à partir de serveurs Redshift dédiés distincts appartenant à Amazon Redshift et indépendants de votre cluster Redshift. Lorsque le routage VPC amélioré est activé pour votre cluster Redshift, Redshift Spectrum se connecte du VPC Redshift à une interface réseau élastique (ENI) dans votre VPC. Étant donné qu'il utilise des clusters dédiés Redshift distincts, pour forcer tout le trafic entre Redshift et Amazon S3 via votre VPC, vous devez activer le routage VPC amélioré et créer un chemin réseau spécifique entre votre VPC d'entrepôt de données Redshift et les sources de données S3.

Lors de l'utilisation d'un Amazon Redshift sans serveur Par exemple, Redshift Spectrum utilise la même capacité de calcul que la capacité de calcul de votre groupe de travail sans serveur. Pour accéder à vos sources de données S3 depuis Redshift Serverless sans que le trafic ne quitte votre VPC, vous pouvez utiliser l'option de routage VPC amélioré sans avoir besoin de configuration réseau supplémentaire.

Formation AWS Lake offre une approche simple et centralisée de la gestion des accès aux sources de données S3. Lake Formation permet aux organisations de gérer le contrôle d'accès aux lacs de données basés sur Amazon S3 à l'aide de concepts de base de données familiers tels que les tables et les colonnes, ainsi que d'options plus avancées telles que la sécurité au niveau des lignes et des cellules. Lake Formation utilise le catalogue de données AWS Glue pour fournir un contrôle d'accès pour Amazon S3.

Dans cet article, nous montrons comment configurer votre réseau pour que Redshift Spectrum utilise le routage VPC amélioré d'un cluster provisionné par Redshift pour accéder aux données Amazon S3 via le contrôle d'accès de Lake Formation. Vous pouvez configurer cette intégration dans un réseau privé sans connectivité à Internet.

Vue d'ensemble de la solution

Avec cette solution, le trafic réseau est acheminé via votre VPC en activant Routage VPC amélioré par Amazon Redshift. Cette option de routage donne la priorité au point de terminaison du VPC comme première priorité de route sur une passerelle Internet, Instance NATou passerelle NAT. Pour empêcher votre cluster Redshift de communiquer avec des ressources en dehors de votre VPC, il est nécessaire de supprimer toutes les autres options de routage. Cela garantit que toutes les communications sont acheminées via les points de terminaison du VPC.

Le diagramme suivant illustre l'architecture de la solution.

La solution comprend les étapes suivantes:

  1. Créez un cluster Redshift dans une configuration de réseau de sous-réseau privé :
    1. Activez le routage VPC amélioré pour votre cluster Redshift.
    2. Modifiez la table de routage pour garantir l’absence de connectivité au réseau public.
  2. Créez les points de terminaison d'un VPC suivants pour la connectivité Redshift Spectrum :
    1. Point de terminaison de l'interface AWS Glue.
    2. Point de terminaison de l’interface Lake Formation.
    3. Point de terminaison de la passerelle Amazon S3.
  3. Analysez la connectivité Amazon Redshift et le routage réseau :
    1. Vérifiez les routes réseau pour Amazon Redshift dans un réseau privé.
    2. Vérifiez la connectivité réseau du cluster Redshift vers divers points de terminaison d'un VPC.
    3. Testez la connectivité à l'aide de l'éditeur de requêtes Amazon Redshift v2.

Cette intégration utilise les points de terminaison d'un VPC pour établir une connexion privée de votre entrepôt de données Redshift à Lake Formation, Amazon S3 et AWS Glue.

Pré-requis

Pour mettre en place cette solution, vous devez avoir une connaissance de base du Console de gestion AWS, un Compte AWS, et l'accès aux services AWS suivants :

De plus, vous devez avoir intégré Lake Formation à Amazon Redshift pour accéder à votre lac de données S3 sur un réseau non privé. Pour obtenir des instructions, reportez-vous à Centralisez la gouvernance de votre lac de données à l'aide d'AWS Lake Formation tout en permettant une architecture de données moderne avec Amazon Redshift Spectrum.

Créez un cluster Redshift dans une configuration de réseau de sous-réseau privé.

La première étape consiste à configurer votre cluster Redshift pour autoriser uniquement le trafic réseau via votre VPC et empêcher toute route publique. Pour ce faire, vous devez activer le routage VPC amélioré pour votre cluster Redshift. Effectuez les étapes suivantes :

  1. Sur la console Amazon Redshift, accédez à votre cluster.
  2. Modifiez vos paramètres réseau et de sécurité.
  3. Pour Routage VPC amélioré, sélectionnez allumer.
  4. Désactiver le Accessible au public option.
  5. Selectionnez Enregistrer les modifications et modifiez le cluster pour appliquer les mises à jour. Vous disposez désormais d'un cluster Redshift qui ne peut communiquer que via le VPC. Vous pouvez désormais modifier la table de routage pour garantir l'absence de connectivité au réseau public.
  6. Sur la console Amazon Redshift, notez le groupe de sous-réseaux et identifiez le sous-réseau associé à ce groupe de sous-réseaux.
  7. Sur la console Amazon VPC, identifiez la table de routage associée à ce sous-réseau et modifiez-la pour supprimer la route par défaut vers la passerelle NAT.

Si votre cluster se trouve dans un sous-réseau public, vous devrez peut-être supprimer la route de la passerelle Internet. Si le sous-réseau est partagé entre d’autres ressources, cela peut avoir un impact sur leur connectivité.

Votre cluster est désormais dans un réseau privé et ne peut communiquer avec aucune ressource en dehors de votre VPC.

Créer des points de terminaison d'un VPC pour la connectivité Redshift Spectrum

Après avoir configuré votre cluster Redshift pour qu'il fonctionne au sein d'un réseau privé sans connectivité externe, vous devez établir la connectivité aux services suivants via les points de terminaison d'un VPC :

  • Colle AWS
  • Formation du lac
  • Amazon S3

Créer un point de terminaison AWS Glue

Pour commencer, Redshift Spectrum se connecte aux points de terminaison AWS Glue pour récupérer des informations du catalogue AWS Data Glue. Pour créer un point de terminaison d'un VPC pour AWS Glue, procédez comme suit :

  1. Sur la console Amazon VPC, choisissez Endpoints dans le volet de navigation.
  2. Selectionnez Créer un point de terminaison.
  3. Pour Etiquette de nom, entrez un nom facultatif.
  4. Pour Catégorie de service, sélectionnez Services AWS.
  5. Dans le Services , recherchez et sélectionnez votre point de terminaison d'interface AWS Glue.
  6. Choisissez le VPC et les sous-réseaux appropriés pour votre point de terminaison.
  7. Configurez les paramètres du groupe de sécurité et vérifiez les paramètres de votre point de terminaison.
  8. Selectionnez Créer un point de terminaison pour terminer le processus.

Après avoir créé le point de terminaison du VPC AWS Glue, Redshift Spectrum pourra récupérer les informations du catalogue de données AWS Glue dans votre VPC.

Créer un point de terminaison Lake Formation

Répétez le même processus pour créer un point de terminaison Lake Formation :

  1. Sur la console Amazon VPC, choisissez Endpoints dans le volet de navigation.
  2. Selectionnez Créer un point de terminaison.
  3. Pour Etiquette de nom, entrez un nom facultatif.
  4. Pour Catégorie de service, sélectionnez Services AWS.
  5. Dans le Services , recherchez et sélectionnez votre point de terminaison d’interface Lake Formation.
  6. Choisissez le VPC et les sous-réseaux appropriés pour votre point de terminaison.
  7. Configurez les paramètres du groupe de sécurité et vérifiez les paramètres de votre point de terminaison.
  8. Selectionnez Créer un point de terminaison.

Vous disposez désormais d'une connectivité pour Amazon Redshift vers Lake Formation et AWS Glue, qui vous permet de récupérer le catalogue et de valider les autorisations sur le lac de données.

Créer un point de terminaison Amazon S3

L'étape suivante consiste à créer un point de terminaison VPC pour Amazon S3 afin de permettre à Redshift Spectrum d'accéder aux données stockées dans Amazon S3 via les points de terminaison VPC :

  1. Sur la console Amazon VPC, choisissez Endpoints dans le volet de navigation.
  2. Selectionnez Créer un point de terminaison.
  3. Pour Etiquette de nom, entrez un nom facultatif.
  4. Pour Catégorie de service, sélectionnez Services AWS.
  5. Dans le Services , recherchez et sélectionnez votre point de terminaison de passerelle Amazon S3.
  6. Choisissez le VPC et les sous-réseaux appropriés pour votre point de terminaison.
  7. Configurez les paramètres du groupe de sécurité et vérifiez les paramètres de votre point de terminaison.
  8. Selectionnez Créer un point de terminaison.

Avec la création du point de terminaison d'un VPC pour Amazon S3, vous avez effectué toutes les étapes nécessaires pour garantir que votre cluster Redshift peut communiquer en privé avec les services requis via les points de terminaison d'un VPC au sein de votre VPC.

Il est important de s'assurer que les groupes de sécurité attachés aux points de terminaison du VPC sont correctement configurés, car une règle entrante incorrecte peut entraîner l'expiration du délai de connexion. Vérifiez que les règles entrantes du groupe de sécurité sont correctement configurées pour permettre au trafic nécessaire de passer par le point de terminaison du VPC.

Analyser le trafic et la topologie du réseau

Vous pouvez utiliser les méthodes suivantes pour vérifier les chemins réseau d'Amazon Redshift vers d'autres points de terminaison.

Vérifier les routes réseau pour Amazon Redshift dans un réseau privé

Vous pouvez utiliser un Carte des ressources Amazon VPC pour visualiser la connectivité Amazon Redshift. La carte des ressources montre les interconnexions entre les ressources au sein d'un VPC et le flux de trafic entre les sous-réseaux, les passerelles NAT, les passerelles Internet et les points de terminaison de la passerelle. Comme le montre la capture d'écran suivante, le sous-réseau en surbrillance sur lequel le cluster Redshift s'exécute n'a pas de connectivité à une passerelle NAT ou à une passerelle Internet. La table de routage associée au sous-réseau peut atteindre Amazon S3 uniquement via le point de terminaison d'un VPC.

Notez que les points de terminaison AWS Glue et Lake Formation sont des points de terminaison d'interface et ne sont pas visibles sur une carte de ressources.

Vérifier la connectivité réseau du cluster Redshift vers divers points de terminaison d'un VPC

Vous pouvez vérifier la connectivité de votre sous-réseau de cluster Redshift à tous les points de terminaison d'un VPC à l'aide du Analyseur d'accessibilité. L'analyseur d'accessibilité est un outil d'analyse de configuration qui vous permet d'effectuer des tests de connectivité entre une ressource source et une ressource de destination dans vos VPC. Effectuez les étapes suivantes :

  1. Sur la console Amazon Redshift, accédez à la page de configuration du cluster Redshift et notez l'adresse IP interne.
  2. Sur la console Amazon EC2, recherchez votre ENI en filtrant par adresse IP.
  3. Choisissez l'ENI associé à votre cluster Redshift et choisissez Exécuter l'analyseur d'accessibilité.
  4. Pour Type de Source, choisissez Interfaces réseau.
  5. Pour Identifier, choisissez le Redshift ENI.
  6. Pour Type de destinations, choisissez Points de terminaison VPC.
  7. Pour dentaire, choisissez le point de terminaison de votre VPC.
  8. Choisissez Créer et analyser le chemin.
  9. Une fois l’analyse terminée, affichez-la pour voir l’accessibilité.

Comme le montre la capture d'écran suivante, le cluster Redshift dispose d'une connectivité au point de terminaison Lake Formation.

Vous pouvez répéter ces étapes pour vérifier l'accessibilité du réseau pour tous les autres points de terminaison d'un VPC.

Testez la connectivité en exécutant une requête SQL à partir de l'éditeur de requêtes Amazon Redshift v2

Vous pouvez vérifier la connectivité en exécutant une requête SQL avec votre table Redshift Spectrum à l'aide de l'éditeur de requêtes Amazon Redshift, comme indiqué dans la capture d'écran suivante.

Toutes nos félicitations! Vous pouvez interroger avec succès les tables Redshift Spectrum à partir d'un cluster provisionné tandis que le routage VPC amélioré est activé pour que le trafic reste au sein de votre réseau AWS.

Nettoyer

Vous devez nettoyer les ressources que vous avez créées dans le cadre de cet exercice pour éviter des coûts inutiles pour votre compte AWS. Effectuez les étapes suivantes :

  1. Sur la console Amazon VPC, choisissez Endpoints dans le volet de navigation.
  2. Sélectionnez les points de terminaison que vous avez créés et sur le Actions menu, choisissez Supprimer les points de terminaison d'un VPC.
  3. Sur la console Amazon Redshift, accédez à votre cluster Redshift.
  4. Modifiez les paramètres de réseau et de sécurité du cluster et sélectionnez éteindre en Routage VPC amélioré.
  5. Vous pouvez également supprimer vos données Amazon S3 et votre cluster Redshift si vous ne prévoyez pas de les utiliser davantage.

Conclusion

En déplaçant votre entrepôt de données Redshift vers un paramètre de réseau privé et en activant le routage VPC amélioré, vous pouvez améliorer la sécurité de votre cluster Redshift en limitant l'accès aux seuls réseaux autorisés.

Nous souhaitons remercier nos collègues AWS, Harshida Patel, Fabricio Pinto et Soumyajeet Patra, pour avoir partagé leurs idées dans cet article de blog.

Si vous avez des questions ou des suggestions, laissez vos commentaires dans la section commentaires. Si vous avez besoin d'aide supplémentaire pour sécuriser vos lacs de données S3 et vos entrepôts de données Redshift, contactez l'équipe de votre compte AWS.

Ressources additionnelles


À propos des auteurs

Kanwar Bajwa est un responsable du support d'entreprise chez AWS qui travaille avec les clients pour optimiser leur utilisation des services AWS et atteindre leurs objectifs commerciaux.

Swapna Bandla est architecte de solutions senior au sein de l'équipe AWS Analytics Specialist SA. Swapna a une passion pour la compréhension des besoins des clients en matière de données et d'analyse et pour leur permettre de développer des solutions cloud bien architecturées. En dehors du travail, elle aime passer du temps avec sa famille.

spot_img

Dernières informations

spot_img