제퍼넷 로고

SCM 및 고대역폭을 갖춘 GPU용 DRAM 캐시

시간

POSTECH과 송실대학교 연구진이 'Bandwidth-Effective DRAM Cache for GPUs with Storage-Class Memory'라는 제목의 새로운 기술 논문을 발표했습니다.

추상

“우리는 대용량 SCM(Storage-Class Memory)과 DRAM 캐시로 GPU의 메모리 용량 한계를 극복할 것을 제안합니다. SCM으로 메모리 용량을 크게 늘리면 GPU는 메모리를 초과 할당하는 워크로드에 대해 HBM보다 더 많은 메모리 공간을 캡처하여 높은 속도 향상을 달성할 수 있습니다. 그러나 DRAM 캐시는 비용 오버헤드를 최소화하고 GPU의 특성을 고려하면서 SCM의 대기 시간 및 BW 제한을 해결하도록 신중하게 설계되어야 합니다. 엄청난 수의 GPU 스레드가 DRAM 캐시를 스트래싱할 수 있기 때문에 먼저 SCM을 사용하는 GPU의 메모리 액세스의 다차원 특성을 고려하여 성능 유틸리티가 낮은 데이터에 대해 DRAM을 우회하는 GPU용 SCM 인식 DRAM 캐시 우회 정책을 제안합니다. 또한, DRAM 캐시 프로브를 줄이고 최소한의 비용으로 효과적인 DRAM BW를 높이기 위해 L2 캐시의 일부를 DRAM 캐시라인 태그 캐시에 재사용하는 CTC(Configurable Tag Cache)를 제안합니다. CTC에 사용되는 L2 용량은 적응성을 위해 사용자가 조정할 수 있습니다. 또한 CTC 누락으로 인한 DRAM 캐시 프로브 트래픽을 최소화하기 위해 AMIL(Aggregated Metadata-In-Last-column) DRAM 캐시 조직은 모든 ​​DRAM 캐시라인 태그를 행 내의 단일 열에 함께 배치합니다. 또한 AMIL은 이전 DRAM 캐시의 TAD(Tag-And-Data) 구성과 달리 완전한 ECC 보호를 유지합니다. 또한 우리는 SCM 조절을 통해 전력을 줄이고 SCM의 SLC/MLC 모드를 활용하여 워크로드의 메모리 공간에 적응할 것을 제안합니다. 우리의 기술은 다양한 DRAM 및 SCM 장치에 사용될 수 있지만, 우리는 고성능을 위해 DRAM 다이 위에 SCM 다이를 쌓는 이종 메모리 스택(HMS) 조직에 중점을 둡니다. HBM에 비해 HMS는 성능을 최대 12.5배(전체 2.9배) 향상시키고 에너지를 최대 89.3%(전체 48.1%) 절감합니다. 이전 작업에 비해 DRAM 캐시 프로브와 SCM 쓰기 트래픽을 각각 91~93%, 57~75% 줄였습니다.”

기술 찾기 여기에 종이. 2024년 XNUMX월 출판.

홍정민, 조성준, 박건우, 양원혁, 공영호, 김광선. “스토리지 클래스 메모리를 갖춘 GPU용 대역폭 효과적인 DRAM 캐시.” arXiv 프리 프린트 arXiv : 2403.09358 (2024).

spot_img

최신 인텔리전스

spot_img