제퍼넷 로고

Amazon EMR, Amazon EC2 C7g(Graviton3) 인스턴스에 대한 지원을 시작하여 Spark 워크로드의 비용 성능을 7~13% 향상

시간

아마존 EMR Apache Spark, Hive, Presto, Trino, HBase 및 Flink와 같은 오픈 소스 프레임워크를 사용하여 분석 애플리케이션을 쉽게 실행할 수 있는 관리형 서비스를 제공합니다. 다음에 대한 Amazon EMR 런타임 불꽃 프레스토 악장 오픈 소스 Apache Spark 및 Presto에 비해 두 배 이상의 성능 향상을 제공하는 최적화가 포함되어 있습니다.

Amazon EMR 릴리스 6.7에서는 이제 다음을 사용할 수 있습니다. 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) C7g 인스턴스는 AWS 그래비톤3 프로세서. 이러한 인스턴스는 Amazon EMR에서 실행되는 Spark 워크로드의 가격 대비 성능을 인스턴스 크기에 따라 이전 세대 인스턴스보다 7.93–13.35% 향상시킵니다. 이 게시물에서는 가격 대비 성능 이점을 어떻게 추정했는지 설명합니다.

EC2 C7g 인스턴스를 사용한 Amazon EMR 런타임 성능

C3g 인스턴스와 함께 Apache Spark(Apache Spark 6.9과 호환 가능)용 Amazon EMR 런타임을 사용하여 Amazon EMR 3.3에서 TPC-DS 7TB 벤치마크 쿼리를 실행했습니다. 데이터가 저장된 위치 아마존 단순 스토리지 서비스 (Amazon S3), 이전 세대 인스턴스 제품군의 동등한 C6g 클러스터와 결과를 비교했습니다. TPC-DS 3TB 벤치마크 쿼리에서 총 쿼리 런타임과 쿼리 런타임의 기하 평균을 사용하여 성능 향상을 측정했습니다.

결과는 인스턴스 크기에 따라 C13.65g 인스턴스가 있는 동등한 EMR 클러스터와 비교하여 C18.73g가 있는 EMR 클러스터에서 총 쿼리 런타임 성능이 16.98–20.28% 향상되고 기하 평균이 7–6% 향상되었음을 보여줍니다. 비용을 비교할 때 인스턴스 크기에 따라 C7.93g를 사용하는 EMR 클러스터는 C13.35g와 비교했을 때 비용이 7–6% 감소하는 것을 관찰했습니다. 쿼리를 실행하기에 충분한 메모리가 없기 때문에 C6g xlarge 인스턴스를 벤치마킹하지 않았습니다.

다음 표는 동등한 C3g 및 C6.9g 인스턴스 EMR 클러스터와 비교하여 Amazon EMR 7를 사용하여 TPC-DS 6TB 벤치마크 쿼리를 실행한 결과를 보여줍니다.

인스턴스 크기 16 XL 12 XL 8 XL 4 XL 2 XL
클러스터의 총 크기(리더 1개 + 코어 노드 5개) 6 6 6 6 6
C6g의 총 쿼리 실행 시간(초) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
C7g의 총 쿼리 실행 시간(초) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
C7g로 전체 쿼리 런타임 개선 13.65% 15.13% 14.95% 18.73% 16.64%
기하 평균 쿼리 실행 시간 C6g(초) 22.2113 21.75459 23.38081 31.97192 45.41656
기하 평균 쿼리 실행 시간 C7g(초) 18.43905 17.65898 19.01684 25.48695 37.43737
C7g로 기하 평균 쿼리 런타임 개선 16.98% 18.83% 18.66% 20.28% 17.57%
EC2 C6g 인스턴스 가격(시간당 $) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g 인스턴스 가격(시간당 $) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) 인스턴스 가격(시간당 $) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
C6g에서 실행하는 비용(인스턴스당 $) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g 인스턴스 가격(시간당 $) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g 가격(인스턴스당 시간당 $) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g 인스턴스 가격(시간당 $) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
C7g에서 실행하는 비용(인스턴스당 $) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
성능 향상을 포함한 C7g의 총 비용 절감 -7.93 % -9.52 % -9.32 % -13.35 % -11.13 %

다음 그래프는 동등한 C7g 세대와 비교하여 C2g 6xlarge 인스턴스에서 관찰된 쿼리당 개선 사항을 보여줍니다.

벤치마킹 방법론

이 게시물에 사용된 벤치마크는 업계 표준 TPC-DS 벤치마크에서 파생되었으며 Spark SQL 성능 테스트 GitHub 리포지토리 GMT와 고정 된 적용된.

시간당 비용에 클러스터의 인스턴스 수와 클러스터에서 쿼리를 실행하는 데 걸리는 시간을 곱하여 TCO를 계산했습니다. 모든 인스턴스에 대해 미국 동부(버지니아 북부) 리전에서 온디맨드 요금을 사용했습니다.

결론

이 게시물에서는 동일한 이전 세대 인스턴스를 사용할 때와 비교하여 C7g 인스턴스와 함께 Amazon EMR을 사용할 때의 비용 대비 이점을 어떻게 추정했는지 설명했습니다. 이러한 새 인스턴스를 Amazon EMR과 함께 사용하면 비용 대비 성능이 추가로 7~13% 향상됩니다.


저자 소개

인공지능 MS알 MS Amazon Web Services의 Amazon EMR 제품 관리자입니다.

류경현 Amazon Web Services의 EMR 소프트웨어 개발 엔지니어입니다. 그는 주로 내부 팀과 고객이 생산성을 극대화할 수 있도록 자동화 도구를 설계하고 구축하는 일을 합니다. 직장 밖에서는 여전히 비디오 게임을 즐기는 은퇴한 프로 게임 세계 챔피언입니다.

유저우 선 Amazon Web Services의 EMR 소프트웨어 개발 엔지니어입니다.

스티브 쿤스 Amazon Web Services의 EMR 엔지니어링 관리자입니다.

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?