아마존 레드 시프트웨어하우징 서비스인 는 다양한 소스의 데이터를 고성능 확장 가능한 환경으로 수집하기 위한 다양한 옵션을 제공합니다. 데이터가 운영 데이터베이스, 데이터 레이크, 온프레미스 시스템에 있는지 여부에 관계없이 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 또는 다른 AWS 서비스인 Amazon Redshift는 귀하의 특정 요구 사항을 충족하기 위해 여러 가지 수집 방법을 제공합니다. 현재 사용 가능한 선택 사항은 다음과 같습니다.
- 아마존 레드시프트 복사 명령 데이터를 로드할 수 있습니다 아마존 단순 스토리지 서비스 (아마존 S3), 아마존 EMR, 아마존 DynamoDB, 또는 SSH를 통한 원격 호스트. Amazon Redshift의 이 기본 기능은 대규모 병렬 처리(MPP)를 사용하여 데이터 소스에서 Redshift 테이블로 직접 객체를 로드합니다. 또한, 자동 복사 이 기능은 Amazon S3에서 Amazon Redshift로 데이터를 로딩하는 과정을 간소화하고 자동화합니다.
- Amazon Redshift 연동 쿼리 소스 데이터베이스 컴퓨팅을 사용하여 쿼리를 실행하고 그 결과를 Amazon Redshift로 반환합니다.
- 아마존 레드 시프트 제로 ETL 통합 데이터를 로드할 수 있습니다 Amazon Aurora MySQL 호환 에디션, MySQL용 Amazon Relational Database Service(Amazon RDS), PostgreSQL 용 Amazon RDS및 DynamoDB를 사용하면 로딩 후 변환을 수행할 수 있는 기능이 추가되었습니다.
- 이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 Apache Spark용 Amazon Redshift 통합 과 결합 AWS 접착제 또는 Amazon EMR은 Amazon Redshift에 데이터를 로드하기 전에 변환을 수행합니다.
- Amazon Redshift 스트리밍은 다음을 포함한 스트리밍 소스 수집을 지원합니다. Amazon Kinesis 데이터 스트림, Apache Kafka 용 Amazon Managed Streaming (Amazon MSK) 및 아마존 데이터 파이어호스.
- 마지막으로, 데이터는 다음과 같은 인기 있는 ETL 도구를 사용하여 Amazon Redshift에 로드될 수 있습니다. 정보학, 마틸리온 및 DBT 랩스.
이 게시물에서는 각 옵션(아래 그림 참조)을 살펴보고, 어떤 옵션이 다양한 사용 사례에 적합한지 확인하고, 데이터 수집을 위해 특정 Amazon Redshift 도구나 기능을 선택하는 이유와 방법을 설명합니다.
Amazon Redshift COPY 명령
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 Redshift COPY 명령, 간단한 로우코드 데이터 수집 도구는 SSH를 통해 Amazon S3, DynamoDB, Amazon EMR 및 원격 호스트에서 Amazon Redshift로 데이터를 로드합니다. 대용량 데이터 세트를 Amazon Redshift로 로드하는 빠르고 효율적인 방법입니다. Amazon Redshift에서 MPP(대량 병렬 처리) 아키텍처를 사용하여 파일이나 지원되는 데이터 소스의 데이터에서 대량의 데이터를 병렬로 읽고 로드합니다. 이를 통해 데이터를 여러 파일로 분할하여 병렬 처리를 활용할 수 있으며, 특히 파일이 압축된 경우 더욱 그렇습니다.
COPY 명령에 대한 권장 사용 사례에는 지원되는 데이터 소스에서 대용량 데이터 세트 및 데이터를 로드하는 것이 포함됩니다. COPY는 Amazon Redshift 프로비저닝 클러스터 및 서버리스 작업 그룹의 병렬 처리를 활용하기 위해 대용량 비압축 구분 텍스트 파일을 더 작은 스캔 범위로 자동 분할합니다. 자동 복사를 사용하면 자동화가 데이터를 자동으로 수집하기 위한 작업을 추가하여 COPY 명령을 향상시킵니다.
COPY 명령의 장점:
- 퍼포먼스 – 최적화된 처리량으로 Amazon S3 또는 기타 소스에서 대용량 데이터 세트를 병렬로 효율적으로 로드합니다.
- 간단 – 간단하고 사용자 친화적이며 최소한의 설정만 필요함
- 비용 최적화 – 데이터 전송 시간을 줄여 더 낮은 비용으로 Amazon Redshift MPP 사용
- 유연성 – CSV, JSON, Parquet, ORC, AVRO 등의 파일 형식을 지원합니다.
Amazon Redshift 연동 쿼리
Amazon Redshift 연합 쿼리를 사용하면 Amazon RDS 또는 Aurora 운영 데이터베이스의 라이브 데이터를 BI(비즈니스 인텔리전스) 및 보고 애플리케이션의 일부로 통합할 수 있습니다.
연합 쿼리는 조직이 운영 시스템의 데이터를 Amazon Redshift에 저장된 데이터와 결합하려는 사용 사례에 유용합니다. 연합 쿼리를 사용하면 추출, 변환 및 로드(ETL) 파이프라인이 필요 없이 Amazon RDS for MySQL 및 PostgreSQL 데이터 소스에서 데이터를 쿼리할 수 있습니다. 데이터 웨어하우스에 운영 데이터를 저장하는 것이 필요한 경우 운영 데이터 저장소와 Amazon Redshift 테이블 간의 테이블 동기화가 지원됩니다. 데이터 변환이 필요한 시나리오에서는 Redshift 저장 프로시저를 사용하여 Redshift 테이블의 데이터를 수정할 수 있습니다.
연합 쿼리의 주요 기능:
- 실시간 접속 – Amazon RDS 및 Aurora와 같은 개별 소스에서 데이터를 이동할 필요 없이 라이브 데이터를 쿼리할 수 있습니다.
- 통합 데이터 보기 – 여러 데이터베이스의 데이터에 대한 단일 보기를 제공하여 데이터 분석 및 보고를 간소화합니다.
- 비용 절감 – Amazon Redshift로 데이터를 이동하기 위한 ETL 프로세스의 필요성을 없애 스토리지 및 컴퓨팅 비용을 절감합니다.
- 유연성 – Amazon RDS 및 Aurora 데이터 소스를 지원하여 분산 데이터에 대한 액세스 및 분석에 유연성을 제공합니다.
Amazon Redshift Zero-ETL 통합
Amazon Redshift와 Aurora zero-ETL 통합을 통해 Amazon Aurora MySQL 호환(및 Amazon Aurora PostgreSQL 호환 에디션, 미리보기의 MySQL용 Amazon RDS 및 DynamoDB Amazon Redshift에서 거의 실시간으로 ETL이 필요 없이. 제로 ETL을 사용하면 Aurora 데이터베이스에서 Amazon Redshift로 변경 데이터 캡처(CDC)를 수행하기 위한 수집 파이프라인을 간소화할 수 있습니다. Amazon Redshift와 Aurora 스토리지 계층의 통합을 기반으로 구축된 제로 ETL은 간단한 설정, 데이터 필터링, 자동화된 관찰성, 자동 복구 및 Amazon Redshift 프로비저닝 클러스터 또는 Amazon Redshift 서버리스 작업 그룹.
Zero-ETL 통합의 이점:
- 완벽한 통합 – 사용자 정의 ETL 프로세스가 필요 없이 운영 데이터베이스와 Amazon Redshift 간의 데이터를 자동으로 통합하고 동기화합니다.
- 거의 실시간 통찰력 – 거의 실시간 데이터 업데이트를 제공하므로 최신 데이터를 분석에 사용할 수 있습니다.
- 사용 용이성 – 별도의 ETL 도구 및 프로세스가 필요 없어 데이터 아키텍처가 간소화됩니다.
- 효율성 – 데이터 지연 시간을 최소화하고 시스템 전체에서 데이터 일관성을 제공하여 전반적인 데이터 정확도와 안정성을 향상시킵니다.
Apache Spark용 Amazon Redshift 통합
Amazon EMR 또는 AWS Glue를 통해 자동으로 포함된 Apache Spark용 Amazon Redshift 통합은 커뮤니티에서 제공하는 커넥터와 비교할 때 성능 및 보안 최적화를 제공합니다. 이 통합은 보안을 강화하고 간소화합니다. AWS 자격 증명 및 액세스 관리 (IAM) 인증 지원. AWS Glue 4.0은 Redshift Spark 커넥터를 연결에 사용하여 Amazon Redshift에서 읽고 쓸 작업을 작성하기 위한 시각적 ETL 도구를 제공합니다. 이를 통해 Amazon Redshift에 ETL 파이프라인을 구축하는 프로세스가 간소화됩니다. Spark 커넥터를 사용하면 Spark 애플리케이션을 사용하여 Amazon Redshift에 로드하기 전에 데이터를 처리하고 변환할 수 있습니다. 이 통합은 Spark 커넥터를 설정하는 수동 프로세스를 최소화하고 분석 및 머신 러닝(ML) 작업을 준비하는 데 필요한 시간을 단축합니다. 데이터웨어하우스에 대한 연결을 지정하고 몇 분 내에 Apache Spark 기반 애플리케이션에서 Amazon Redshift 데이터로 작업을 시작할 수 있습니다.
통합은 정렬, 집계, 제한, 조인 및 스칼라 함수 작업에 대한 푸시다운 기능을 제공하여 Amazon Redshift에서 소비하는 Apache Spark 애플리케이션으로 관련 데이터만 이동하여 성능을 최적화합니다. Spark 작업은 데이터 처리 파이프라인에 적합하며 Spark의 고급 데이터 변환 기능을 사용해야 할 때 적합합니다.
Apache Spark용 Amazon Redshift 통합을 사용하면 데이터 변환 요구 사항을 통해 ETL 파이프라인 구축을 간소화할 수 있습니다. 다음과 같은 이점을 제공합니다.
- 고성능 – Apache Spark의 분산 컴퓨팅 파워를 사용하여 대규모 데이터 처리 및 분석을 수행합니다.
- 확장성 – 여러 노드에 걸쳐 계산을 분산하여 방대한 데이터 세트를 손쉽게 처리할 수 있습니다.
- 유연성 – 다양한 데이터 소스와 형식을 지원하여 데이터 처리 작업의 다양성을 제공합니다.
- 상호 운용성 – 효율적인 데이터 전송 및 쿼리를 위해 Amazon Redshift와 완벽하게 통합
Amazon Redshift 스트리밍 수집
Amazon Redshift 스트리밍 수집의 주요 이점은 초당 수백 메가바이트의 데이터를 스트리밍 소스에서 Amazon Redshift로 매우 낮은 지연 시간으로 직접 수집하여 실시간 분석 및 통찰력을 지원하는 기능입니다. Kinesis Data Streams, Amazon MSK 및 Data Firehose의 스트림을 지원하는 스트리밍 수집에는 데이터 스테이징이 필요 없고 유연한 스키마를 지원하며 SQL로 구성됩니다. 스트리밍 수집은 데이터를 Amazon Redshift 실체화된 뷰로 직접 수집하여 실시간 대시보드 및 운영 분석을 지원합니다.
Amazon Redshift 스트리밍 수집은 다음을 통해 거의 실시간 스트리밍 분석을 제공합니다.
- 낮은 대기 시간 – 거의 실시간으로 스트리밍 데이터를 수집하여 사물 인터넷(IoT), 금융 거래, 클릭스트림 분석과 같은 시간에 민감한 애플리케이션에 스트리밍 수집을 이상적으로 만듭니다.
- 확장성 – Kinesis Data Streams, Amazon MSK, Data Firehose 등의 소스에서 높은 처리량과 대량의 스트리밍 데이터를 관리합니다.
- 통합 – 다른 AWS 서비스와 통합하여 엔드투엔드 스트리밍 데이터 파이프라인을 구축합니다.
- 지속적인 업데이트 – Amazon Redshift의 데이터를 데이터 스트림의 최신 정보로 지속적으로 업데이트합니다.
Amazon Redshift 수집 사용 사례 및 예
이 섹션에서는 다양한 Amazon Redshift 수집 사용 사례의 세부 사항을 논의하고 예를 제공합니다.
Redshift COPY 사용 사례: 애플리케이션 로그 데이터 수집 및 분석
Amazon S3에 저장된 애플리케이션 로그 데이터를 수집하는 것은 Redshift COPY 명령의 일반적인 사용 사례입니다. 조직의 데이터 엔지니어는 애플리케이션 로그 데이터를 분석하여 사용자 동작에 대한 통찰력을 얻고, 잠재적인 문제를 식별하고, 플랫폼의 성능을 최적화해야 합니다. 이를 달성하기 위해 데이터 엔지니어는 S3 버킷에 저장된 여러 파일에서 병렬로 로그 데이터를 Redshift 테이블로 수집합니다. 이 병렬화는 Amazon Redshift MPP 아키텍처를 사용하여 다른 수집 방법에 비해 더 빠른 데이터 수집을 허용합니다.
다음 코드는 S3 버킷의 CSV 파일 세트에서 Redshift 테이블로 데이터를 로드하는 COPY 명령의 예입니다.
이 코드는 다음 매개변수를 사용합니다.
mytable
데이터 로드를 위한 대상 Redshift 테이블입니다.- '
s3://my-bucket/data/files/
'는 CSV 파일이 있는 S3 경로입니다. IAM_ROLE
S3 버킷에 액세스하는 데 필요한 IAM 역할을 지정합니다.FORMAT AS CSV
데이터 파일이 CSV 형식임을 지정합니다.
Amazon S3 외에도 COPY 명령은 DynamoDB, Amazon EMR, SSH를 통한 원격 호스트 또는 다른 Redshift 데이터베이스와 같은 다른 소스에서 데이터를 로드합니다. COPY 명령은 다양한 데이터 소스와 형식을 처리하기 위한 데이터 형식, 구분 기호, 압축 및 기타 매개변수를 지정하는 옵션을 제공합니다.
COPY 명령을 시작하려면 다음을 참조하세요. COPY 명령을 사용하여 Amazon S3에서 로드.
연합 쿼리 사용 사례: 소매 회사를 위한 통합 보고 및 분석
이 사용 사례의 경우, 소매업체는 PostgreSQL용 Amazon RDS에서 실행되는 운영 데이터베이스를 보유하고 있으며, 여기에는 실시간 판매 거래, 재고 수준 및 고객 정보 데이터가 저장됩니다. 또한 데이터 웨어하우스는 Amazon Redshift에서 실행되어 보고 및 분석 목적으로 과거 데이터를 저장합니다. 여러 단계의 ETL 프로세스 없이도 실시간 운영 데이터와 데이터 웨어하우스의 과거 데이터를 결합하는 통합 보고 솔루션을 만들려면 다음 단계를 완료하세요.
- 네트워크 연결을 설정합니다. Redshift 클러스터와 RDS for PostgreSQL 인스턴스가 동일한 가상 사설 클라우드(VPC)에 있는지 또는 다음을 통해 네트워크 연결이 설정되어 있는지 확인합니다. VPC 피어링, AWS 프라이빗링크및 AWS 전송 게이트웨이.
- 연합 쿼리에 대한 비밀 및 IAM 역할을 만듭니다.
- In AWS 비밀 관리자Amazon RDS for PostgreSQL 인스턴스의 자격 증명(사용자 이름과 비밀번호)을 저장할 새 비밀번호를 생성합니다.
- Secrets Manager 비밀과 Amazon RDS for PostgreSQL 인스턴스에 액세스할 수 있는 권한이 있는 IAM 역할을 생성합니다.
- IAM 역할을 Amazon Redshift 클러스터와 연결합니다.
- Amazon Redshift에서 외부 스키마를 만듭니다.
- SQL 클라이언트나 Amazon Redshift 콘솔의 쿼리 편집기 v2를 사용하여 Redshift 클러스터에 연결합니다.
- Amazon RDS for PostgreSQL 인스턴스를 참조하는 외부 스키마를 만듭니다.
- 연합 쿼리를 사용하여 Amazon Redshift에서 직접 Amazon RDS for PostgreSQL 인스턴스의 테이블을 쿼리합니다.
- 보고 목적으로 연합 쿼리의 운영 데이터와 Amazon Redshift의 과거 데이터를 결합하는 뷰 또는 구체화된 뷰를 Amazon Redshift에서 생성합니다.
이 구현을 통해 Amazon Redshift의 페더레이션 쿼리는 Amazon RDS for PostgreSQL 인스턴스의 실시간 운영 데이터를 Redshift 데이터 웨어하우스의 과거 데이터와 통합합니다. 이 접근 방식은 여러 단계의 ETL 프로세스가 필요 없게 하고 여러 소스의 데이터를 결합하는 포괄적인 보고서와 분석을 만들 수 있게 합니다.
Amazon Redshift 연합 쿼리 수집을 시작하려면 다음을 참조하세요. Amazon Redshift에서 통합 쿼리를 사용하여 데이터 쿼리.
제로 ETL 통합 사용 사례: 전자상거래 애플리케이션을 위한 실시간에 가까운 분석
Aurora MySQL-Compatible에 구축된 전자상거래 애플리케이션이 온라인 주문, 고객 데이터 및 제품 카탈로그를 관리한다고 가정해 보겠습니다. 여러 단계의 ETL 파이프라인을 구축하고 유지 관리하는 오버헤드 없이 거래 데이터에 대한 데이터 필터링을 통해 거의 실시간 분석을 수행하여 고객 행동, 판매 추세 및 재고 관리에 대한 통찰력을 얻으려면 Amazon Redshift에 대한 제로 ETL 통합을 사용할 수 있습니다. 다음 단계를 완료하세요.
- Aurora MySQL 클러스터를 설정합니다(MySQL 3.05 이상과 호환되는 Aurora MySQL 버전 8.0.32를 실행해야 함):
- 원하는 AWS 리전에 Aurora MySQL 클러스터를 생성합니다.
- 인스턴스 유형, 스토리지, 백업 옵션 등의 클러스터 설정을 구성합니다.
- Amazon Redshift로 제로 ETL 통합을 만듭니다.
- Amazon RDS 콘솔에서 다음으로 이동합니다. 제로 ETL 통합
- 왼쪽 메뉴에서 통합 생성 Aurora MySQL 클러스터를 소스로 선택하세요.
- 기존 Redshift 클러스터를 선택하거나 대상으로 새 클러스터를 만듭니다.
- 통합에 대한 이름을 입력하고 설정을 검토합니다.
- 왼쪽 메뉴에서 통합 생성 제로 ETL 통합 프로세스를 시작합니다.
- 통합 상태를 확인하세요:
- 통합이 생성된 후 Amazon RDS 콘솔에서 상태를 모니터링하거나 다음을 쿼리합니다.
SVV_INTEGRATION
및SYS_INTEGRATION_ACTIVITY
Amazon Redshift의 시스템 뷰. - 통합이 완료될 때까지 기다리십시오. 최근활동 데이터가 Aurora에서 Amazon Redshift로 복제되고 있음을 나타내는 상태입니다.
- 통합이 생성된 후 Amazon RDS 콘솔에서 상태를 모니터링하거나 다음을 쿼리합니다.
- 분석 보기 만들기:
- SQL 클라이언트나 Amazon Redshift 콘솔의 쿼리 편집기 v2를 사용하여 Redshift 클러스터에 연결합니다.
- 분석 사용 사례에 맞게 Aurora의 복제된 데이터를 결합하고 변환하는 뷰 또는 구체화된 뷰를 만듭니다.
- Amazon Redshift에서 뷰 또는 구체화된 뷰를 쿼리하여 Aurora MySQL 클러스터의 트랜잭션 데이터에 대한 거의 실시간 분석을 수행합니다.
이 구현은 Aurora MySQL-Compatible과 Amazon Redshift 간의 제로 ETL 통합을 사용하여 전자상거래 애플리케이션의 거래 데이터에 대한 거의 실시간 분석을 달성합니다. 데이터는 Aurora에서 Amazon Redshift로 자동으로 복제되어 여러 단계의 ETL 파이프라인이 필요 없고 최신 데이터에서 빠르게 통찰력을 지원합니다.
Amazon Redshift 제로 ETL 통합을 시작하려면 다음을 참조하세요. 제로 ETL 통합 작업Amazon Redshift와 Aurora 제로 ETL 통합에 대해 자세히 알아보려면 다음을 참조하세요. Amazon Redshift와 Amazon Aurora 제로 ETL 통합.
Apache Spark 사용 사례 통합: Amazon S3에 기록된 게임 플레이어 이벤트
Amazon S3에 저장된 많은 양의 게임 플레이어 이벤트를 생각해 보세요. 이벤트는 통찰력을 추출하고, 보고서를 생성하거나, ML 모델을 구축하기 위해 데이터 변환, 정리 및 사전 처리가 필요합니다. 이 경우 Amazon EMR의 확장성과 처리 능력을 사용하여 Apache Spark를 사용하여 필요한 데이터 변경을 수행할 수 있습니다. 처리가 끝나면 변환된 데이터를 Amazon Redshift에 로드하여 추가 분석, 보고 및 BI 도구와의 통합을 수행해야 합니다.
이 시나리오에서는 Apache Spark용 Amazon Redshift 통합을 사용하여 필요한 데이터 변환을 수행하고 처리된 데이터를 Amazon Redshift에 로드할 수 있습니다. 다음 구현 예에서는 Parquet 형식의 게임 플레이어 이벤트가 Amazon S3에 저장된다고 가정합니다(s3://<bucket_name>/player_events/
).
- Apache Spark를 지원하는 Amazon Redshift 통합을 통해 Apache Spark(Spark 6.9.0)로 Amazon EMR(emr-3.3.0) 클러스터를 시작합니다.
- Amazon S3 및 Amazon Redshift에 액세스하는 데 필요한 IAM 역할을 구성합니다.
- Amazon Redshift에 보안 그룹 규칙을 추가하여 프로비저닝된 클러스터 또는 서버리스 작업 그룹에 대한 액세스를 허용합니다.
- Amazon Redshift에 대한 연결을 설정하고, Amazon S3에서 데이터를 읽고, 변환을 수행하고, 결과 데이터를 Amazon Redshift에 쓰는 Spark 작업을 만듭니다. 다음 코드를 참조하세요.
이 예에서는 먼저 필요한 모듈을 가져오고 SparkSession을 만듭니다. 엔드포인트, 포트, 데이터베이스, 스키마, 테이블 이름, 임시 S3 버킷 경로 및 인증을 위한 IAM 역할 ARN을 포함하여 Amazon Redshift에 대한 연결 속성을 설정합니다. 다음을 사용하여 Parquet 형식으로 Amazon S3에서 데이터를 읽습니다. spark.read.format("parquet").load()
방법. 새 열을 추가하여 Amazon S3 데이터에 대한 변환을 수행합니다. transformed_column
withColumn 메서드와 lit 함수를 사용하여 상수 값으로 변환합니다. write 메서드와 io.github.spark_redshift_community.spark.redshift
형식. Redshift 연결 URL, 테이블 이름, 임시 S3 버킷 경로 및 IAM 역할 ARN에 필요한 옵션을 설정합니다. mode("overwrite")
Amazon Redshift 테이블에 있는 기존 데이터를 변환된 데이터로 덮어쓰는 옵션입니다.
Apache Spark에 대한 Amazon Redshift 통합을 시작하려면 다음을 참조하세요. Apache Spark용 Amazon Redshift 통합. Apache Spark 커넥터용 Amazon Redshift 사용에 대한 더 많은 예는 다음을 참조하세요. 새로운 소식 – Amazon Redshift와 Apache Spark 통합.
스트리밍 수집 사용 사례: IoT 원격 측정 실시간 분석
온도 판독, 압력 측정 또는 운영 지표와 같은 원격 측정 데이터의 지속적인 스트림을 생성하는 IoT 장치(센서 및 산업 장비)의 함대를 상상해 보세요. 이 데이터를 실시간으로 수집하여 장치를 모니터링하고, 이상을 감지하고, 데이터 기반 의사 결정을 내리기 위한 분석을 수행하려면 Redshift 데이터 웨어하우스와 통합된 스트리밍 솔루션이 필요합니다.
이 예에서는 IoT 원격 측정 데이터의 스트리밍 소스로 Amazon MSK를 사용합니다.
- Amazon Redshift에서 외부 스키마를 만듭니다.
- SQL 클라이언트 또는 다음을 사용하여 Amazon Redshift 클러스터에 연결합니다. 쿼리 편집기 v2 Amazon Redshift 콘솔에서.
- MSK 클러스터를 참조하는 외부 스키마를 만듭니다.
- Amazon Redshift에서 구체화된 뷰를 만듭니다.
- Kafka 토픽 데이터를 Amazon Redshift 테이블 열에 매핑하는 구체화된 뷰를 정의합니다.
- 스트리밍 메시지 페이로드 데이터 유형을 Amazon Redshift SUPER 유형으로 CAST합니다.
- 구체화된 뷰를 자동 새로 고침으로 설정합니다.
- 쿼리
iot_telemetry_view
Kafka 토픽에서 수집된 실시간 IoT 원격 측정 데이터에 액세스하기 위한 실체화된 뷰. 실체화된 뷰는 Kafka 토픽에 새 데이터가 도착하면 자동으로 새로 고침됩니다.
이 구현을 통해 Amazon Redshift 스트리밍 수집을 사용하여 IoT 장치 원격 측정 데이터에 대한 거의 실시간 분석을 달성할 수 있습니다. 원격 측정 데이터가 MSK 토픽에서 수신되면 Amazon Redshift는 자동으로 데이터를 수집하여 구체화된 뷰에 반영하여 거의 실시간으로 데이터의 쿼리와 분석을 지원합니다.
Amazon Redshift 스트리밍 수집을 시작하려면 다음을 참조하세요. 실체화된 뷰로 스트리밍 수집스트리밍 및 고객 사용 사례에 대해 자세히 알아보려면 다음을 참조하세요. Amazon Redshift 스트리밍 수집.
결론
이 게시물에서는 Amazon Redshift 데이터 수집에 사용할 수 있는 옵션을 자세히 설명했습니다. 데이터 수집 방법의 선택은 데이터의 크기와 구조, 실시간 액세스 또는 변환의 필요성, 데이터 소스, 기존 인프라, 사용 편의성, 사용자 기술 세트와 같은 요인에 따라 달라집니다. Zero-ETL 통합 및 페더레이션 쿼리는 간단한 데이터 수집 작업이나 운영 데이터베이스와 Amazon Redshift 분석 데이터 간의 데이터 결합에 적합합니다. 변환 및 오케스트레이션을 통한 대규모 데이터 수집은 Amazon Redshift와 Apache Spark, Amazon EMR 및 AWS Glue를 통합하여 이점을 얻을 수 있습니다. 데이터 세트 크기에 관계없이 Amazon Redshift에 데이터를 대량으로 로드하는 것은 Redshift COPY 명령의 기능과 완벽하게 맞습니다. Kinesis Data Streams, Amazon MSK 또는 Data Firehose와 같은 스트리밍 소스를 활용하는 것은 데이터 수집을 위해 AWS 스트리밍 서비스 통합을 활용하기에 이상적인 시나리오입니다.
귀사의 데이터 수집 워크로드에 대해 제공된 기능과 지침을 평가해 보시고, 의견을 댓글로 알려주시기 바랍니다.
저자에 관하여
스티브 필립스 북미 지역의 AWS에서 수석 기술 계정 관리자로 일하고 있습니다. Steve는 8년 동안 게임 고객과 협력했으며 현재 데이터웨어하우스 아키텍처 설계, 데이터 레이크, 데이터 수집 파이프라인 및 클라우드 분산 아키텍처에 집중하고 있습니다.
수딥타 바그치 Amazon Web Services의 Sr. Specialist Solutions Architect입니다. 그는 데이터 및 분석 분야에서 14년 이상의 경험을 가지고 있으며, 고객이 확장 가능하고 고성능 분석 솔루션을 설계하고 구축하도록 돕습니다. 직장 외에서는 달리기, 여행, 크리켓을 좋아합니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/big-data/amazon-redshift-data-ingestion-options/