AWS Glue を使用して Amazon Redshift 内の個人を特定できる情報を自動的に検出する | アマゾンウェブサービス

データの急激な増加に伴い、企業は個人を特定できる情報 (PII) を含む、膨大な量の多種多様なデータを処理しています。 PII は、XNUMX 人の個人を特定、連絡、または居場所を特定できる情報に関連する法律用語です。機密データを大規模に特定して保護することは、ますます複雑になり、費用と時間がかかります。組織は、データプライバシー、コンプライアンス、および次のような規制要件を遵守する必要があります。 GDPR & CCPA、コンプライアンスを維持するには、PII を特定して保護することが重要です。名前、社会保障番号 (SSN)、住所、電子メール、運転免許証などの PII を含む機密データを特定する必要があります。識別した後でも、機密データの編集、マスキング、または暗号化を大規模に実装するのは面倒です。

多くの企業は、PII の特定とラベル付けを手作業で行っており、時間がかかり、間違いが発生しやすくなっています。レビューをみる。その結果、機密データが保護されず、規制上の罰則や侵害インシデントに対して脆弱になります。

この投稿では、PII データを検出するための自動ソリューションを提供します。 Amazonレッドシフト AWSグルー.

ソリューションの概要

このソリューションでは、Redshift データウェアハウス上のデータ内の PII を検出し、データを取得して保護します。当社では以下のサービスを利用しております。

Amazonレッドシフトは、SQL を使用してデータウェアハウス、運用データベース、データレイクにわたる構造化データおよび半構造化データを分析するクラウドデータウェアハウジングサービスです。また、AWS が設計したハードウェアと機械学習 (ML) を使用して、あらゆる規模で最高の価格/パフォーマンスを提供します。私たちのソリューションでは、Amazon Redshift を使用してデータを保存します。
AWSグルーは、分析、ML、アプリケーション開発のためのデータの検出、準備、結合を簡単に行うことができるサーバーレスデータ統合サービスです。 AWS Glue を使用して、Amazon Redshift に保存されている PII データを検出します。
Amazon シンプルストレージサービス (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するストレージサービスです。

次の図は、ソリューションアーキテクチャを示しています。

このソリューションには、次の高レベルの手順が含まれています。

を使用してインフラストラクチャをセットアップする AWS CloudFormation テンプレート。
Amazon S3 から Redshift データウェアハウスにデータをロードします。
AWS Glue クローラーを実行して、AWS Glue データカタログにテーブルを追加します。
AWS Glue ジョブを実行して PII データを検出します。
次を使用して出力を分析します。アマゾンクラウドウォッチ.

前提条件

この投稿で作成したリソースは、VPC がプライベートサブネットとその両方の識別子とともに配置されていることを前提としています。これにより、VPC とサブネットの構成を大幅に変更することがなくなります。したがって、公開することを選択した VPC とサブネットに基づいて VPC エンドポイントを設定したいと考えています。

始める前に、前提条件として次のリソースを作成します。

既存の VPC
その VPC 内のプライベートサブネット
VPC ゲートウェイ S3 エンドポイント
VPC STS ゲートウェイエンドポイント

AWS CloudFormation を使用してインフラストラクチャをセットアップする

CloudFormation テンプレートを使用してインフラストラクチャを作成するには、次の手順を実行します。

AWS アカウントで AWS CloudFormation コンソールを開きます。
選択する 発射スタック:
選択する Next.
次の情報を提供します。
1. スタック名
2. Amazon Redshift ユーザー名
3. Amazon Redshiftのパスワード
4. VPC ID
5. サブネットID
6. サブネット ID のアベイラビリティーゾーン
選択する Next.
次のページで、 Next.
詳細を確認して選択します AWS CloudFormationがIAMリソースを作成する可能性があることを認めます.
選択する スタックを作成.
の値に注意してください。 S3BucketName & RedshiftRoleArn スタックの上にある出力タブには何も表示されないことに注意してください。

Amazon S3 から Redshift データウェアハウスにデータをロードする

COPYコマンド、3 つ以上の S3 バケットにあるファイルからデータをロードできます。 FROM 句を使用して、COPY コマンドが Amazon S3 内のファイルを検索する方法を示します。 FROM 句の一部としてデータファイルへのオブジェクトパスを指定することも、S3 オブジェクトパスのリストを含むマニフェストファイルの場所を指定することもできます。 Amazon SXNUMX からの COPY は HTTPS 接続を使用します。

この投稿では、個人の健康状態のサンプルを使用しますデータセット。次の手順でデータをロードします。

Amazon S3 コンソールで、CloudFormation テンプレートから作成された S3 バケットに移動し、データセットを確認します。
を使用して Redshift データウェアハウスに接続します。クエリエディタv2 ユーザー名とパスワードとともに CloudFormation スタックを使用して作成したデータベースとの接続を確立します。

接続したら、次のコマンドを使用して Redshift データウェアハウスにテーブルを作成し、データをコピーできます。

次のクエリを使用してテーブルを作成します。

CREATE TABLE personal_health_identifiable_information (
    mpi char (10),
    firstName VARCHAR (30),
    lastName VARCHAR (30),
    email VARCHAR (75),
    gender CHAR (10),
    mobileNumber VARCHAR(20),
    clinicId VARCHAR(10),
    creditCardNumber VARCHAR(50),
    driverLicenseNumber VARCHAR(40),
    patientJobTitle VARCHAR(100),
    ssn VARCHAR(15),
    geo VARCHAR(250),
    mbi VARCHAR(50)    
);

S3 バケットからデータをロードします。

COPY personal_health_identifiable_information
FROM 's3://<S3BucketName>/personal_health_identifiable_information.csv'
IAM_ROLE '<RedshiftRoleArn>'
CSV
delimiter ','
region '<aws region>'
IGNOREHEADER 1;

次のプレースホルダーに値を指定します。

赤方偏移ロールアーン – CloudFormation スタックで ARN を見つけます。出力タブ
S3バケット名 – CloudFormation スタックのバケット名に置き換えます
AWS リージョン – CloudFormation テンプレートをデプロイしたリージョンに変更します

データがロードされたことを確認するには、次のコマンドを実行します。
```
SELECT * FROM personal_health_identifiable_information LIMIT 10;
```

AWS Glue クローラーを実行してデータカタログにテーブルを追加します

AWS Glue コンソールで、CloudFormation スタックの一部としてデプロイしたクローラを次の名前で選択します。 crawler_pii_db、を選択します クローラーを実行する.

クローラーが完了すると、データベース内に次の名前のテーブルが作成されます。 pii_db は AWS Glue データカタログに入力され、テーブルスキーマは次のスクリーンショットのようになります。

AWS Glue ジョブを実行して PII データを検出し、Amazon Redshift の対応する列をマスクします。

AWS Glue コンソールで、選択します ETL ジョブ ナビゲーションペインで detect-pii-data ジョブを見つけて、その構成を理解します。基本プロパティと詳細プロパティは、CloudFormation テンプレートを使用して構成されます。

基本的なプロパティは次のとおりです。

タイプ – スパーク
接着剤バージョン – グルー 4.0
言語設定 -Python

デモンストレーションの目的で、ジョブブックマークオプションと自動スケール機能は無効になっています。

また、接続とジョブパラメーターに関する詳細プロパティも構成します。
Amazon Redshift に存在するデータにアクセスするために、JDBC 接続を利用する AWS Glue 接続を作成しました。

カスタムパラメーターもキーと値のペアとして提供します。この投稿では、PII を XNUMX つの異なる検出カテゴリに分類します。

ユニバーサル – PERSON_NAME, EMAIL, CREDIT_CARD
ヒパー – PERSON_NAME, PHONE_NUMBER, USA_SSN, USA_ITIN, BANK_ACCOUNT, USA_DRIVING_LICENSE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_NATIONAL_PROVIDER_IDENTIFIER, USA_DEA_NUMBER, USA_HEALTH_INSURANCE_CLAIM_NUMBER, USA_MEDICARE_BENEFICIARY_IDENTIFIER
ネットワーキング – IP_ADDRESS, MAC_ADDRESS
アメリカ – PHONE_NUMBER, USA_PASSPORT_NUMBER, USA_SSN, USA_ITIN, BANK_ACCOUNT
カスタム – 座標

このソリューションは米国地域に基づいて作成されているため、他の国からこのソリューションを試している場合は、カスタムカテゴリを使用してカスタム PII フィールドを指定できます。

デモンストレーションの目的で、単一のテーブルを使用し、それを次のパラメータとして渡します。

--table_name: table_name

この投稿では、テーブルに名前を付けます personal_health_identifiable_information.

これらのパラメータは、個々のビジネスユースケースに基づいてカスタマイズできます。

ジョブを実行して、 Success 状態。

この仕事にはXNUMXつの目標があります。最初の目標は、Redshift テーブル内の PII データ関連の列を特定し、これらの列名のリストを作成することです。 XNUMX 番目の目標は、ターゲットテーブルの特定の列のデータを難読化することです。 XNUMX 番目の目標の一部として、テーブルデータを読み取り、ユーザー定義のマスキング関数をそれらの特定の列に適用し、Redshift ステージングテーブルを使用してターゲットテーブル内のデータを更新します (stage_personal_health_identifiable_information) アップサート用。

あるいは、動的データマスキング (DDM) Amazon Redshift でデータウェアハウス内の機密データを保護します。

CloudWatch を使用して出力を分析する

ジョブが完了したら、CloudWatch ログを確認して、AWS Glue ジョブがどのように実行されたかを理解しましょう。を選択すると、CloudWatch ログに移動できます。 出力ログ AWS Glue コンソールのジョブの詳細ページ。

このジョブは、AWS Glue ジョブの機密データ検出フィールドを使用して渡されたカスタムフィールドを含む、PII データを含むすべての列を識別しました。

クリーンアップ

インフラストラクチャをクリーンアップして追加料金を回避するには、次の手順を実行します。

S3 バケットを空にします。
作成したエンドポイントを削除します。
AWS CloudFormation コンソールから CloudFormation スタックを削除し、残りのリソースを削除します。

まとめ

このソリューションを使用すると、AWS Glue ジョブを使用して Redshift クラスターにあるデータを自動的にスキャンし、PII を特定し、必要なアクションを実行できます。これは、組織のセキュリティ、コンプライアンス、ガバナンス、データ保護機能に役立ち、データセキュリティとデータガバナンスに貢献します。

著者について

マニカンタゴナ は、AWS プロフェッショナルサービスのデータおよび ML エンジニアです。彼は IT 分野で 2021 年以上の経験を持ち、6 年に AWS に入社しました。 AWS では、Amazon OpenSearch Service を使用したデータレイクの実装と検索、分析ワークロードに重点を置いています。余暇には、ガーデニングをしたり、夫と一緒にハイキングやサイクリングに出かけたりするのが大好きです。

デニス・ノヴィコフ は、アマゾンウェブサービスのプロフェッショナルサービスチームのシニアデータレイクアーキテクトです。彼は、企業顧客向けの分析、データ管理、ビッグデータシステムの設計と実装を専門としています。

アンジャン・ムケルジー AWS のデータレイクアーキテクトであり、ビッグデータと分析ソリューションを専門としています。彼は、顧客が AWS プラットフォーム上でスケーラブルで信頼性が高く、安全で高性能なアプリケーションを構築できるよう支援しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/big-data/automatically-detect-personally-identifiable-information-in-amazon-redshift-using-aws-glue/

生成的データインテリジェンス

AWS Glue を使用して Amazon Redshift 内の個人を特定できる情報を自動的に検出する | アマゾンウェブサービス

ソリューションの概要

前提条件

AWS CloudFormation を使用してインフラストラクチャをセットアップする

Amazon S3 から Redshift データウェアハウスにデータをロードする

AWS Glue クローラーを実行してデータカタログにテーブルを追加します

AWS Glue ジョブを実行して PII データを検出し、Amazon Redshift の対応する列をマスクします。

CloudWatch を使用して出力を分析する

クリーンアップ

まとめ

著者について

2024 年の利益の最大化: ValueZone.AI の包括的な考察

ライブ中継：SpaceX、ケープカナベラルからのFalcon 23便で9基のStarlink衛星を打ち上げる

最新のインテリジェンス

アイランダーズが第5戦に勝つための3つの鍵

レイカーズがデンバーに対して悲願の勝利を収め、シリーズでは3勝1敗となった

Falcon 9がGalileoナビゲーション衛星を打ち上げる

元サーブエンジニアが設計したNEVSエミリーGTはイタリアで製造される可能性 – Autoblog

ドージコインとペペコインの愛好家が Wahoo 交換プラットフォームによって発売された新しい AI トークンを支持して結集 – CryptoInfoNet

FTX 裁判からの教訓: CEX を規制するだけでは悪意のある行為者を防ぐのに十分ではない可能性 |意見 – CryptoInfoNet

AWS Glue を使用して Amazon Redshift 内の個人を特定できる情報を自動的に検出する | アマゾン ウェブ サービス

ソリューションの概要

前提条件

AWS CloudFormation を使用してインフラストラクチャをセットアップする

Amazon S3 から Redshift データ ウェアハウスにデータをロードする

AWS Glue クローラーを実行してデータカタログにテーブルを追加します

AWS Glue ジョブを実行して PII データを検出し、Amazon Redshift の対応する列をマスクします。

CloudWatch を使用して出力を分析する

クリーンアップ

まとめ

著者について

最新のインテリジェンス

AWS Glue を使用して Amazon Redshift 内の個人を特定できる情報を自動的に検出する | アマゾンウェブサービス

Amazon S3 から Redshift データウェアハウスにデータをロードする