Zephyrnet-logotyp

DRAM-cache för grafikprocessorer med SCM och hög bandbredd

Datum:

En ny teknisk artikel med titeln "Bandwidth-Effective DRAM Cache for GPUs with Storage-Class Memory" publicerades av forskare vid POSTECH och Songsil University.

Abstrakt

"Vi föreslår att man övervinner minneskapacitetsbegränsningen hos GPU:er med högkapacitetslagringsklassminne (SCM) och DRAM-cache. Genom att avsevärt öka minneskapaciteten med SCM kan GPU:n fånga en större del av minnesfotavtrycket än HBM för arbetsbelastningar som övertecknar minne, vilket uppnår höga hastigheter. DRAM-cachen måste dock vara noggrant utformad för att ta itu med latens- och BW-begränsningarna hos SCM samtidigt som kostnadsöverkostnaderna minimeras och GPU:s egenskaper beaktas. Eftersom det enorma antalet GPU-trådar kan krossa DRAM-cachen, föreslår vi först en SCM-medveten DRAM-cache-bypass-policy för GPU:er som tar hänsyn till de flerdimensionella egenskaperna hos minnesåtkomster av GPU:er med SCM för att kringgå DRAM för data med låg prestanda. Dessutom, för att minska DRAM-cache-prober och öka effektiv DRAM BW med minimal kostnad, föreslår vi en Configurable Tag Cache (CTC) som återanvänder en del av L2-cachen för att cache-cache DRAM-cacheline-taggar. L2-kapaciteten som används för CTC kan justeras av användare för anpassningsförmåga. Dessutom, för att minimera DRAM-cache-sondstrafik från CTC-missar, samlokaliserar vår Aggregated Metadata-In-Last-column (AMIL) DRAM-cache-organisation alla DRAM-cachelinetaggar i en enda kolumn inom en rad. AMIL behåller också det fullständiga ECC-skyddet, till skillnad från tidigare DRAM-cache:s Tag-And-Data (TAD)-organisation. Dessutom föreslår vi SCM-strypning för att minska strömmen och utnyttja SCM:s SLC/MLC-lägen för att anpassa sig till arbetsbelastningens minnesfotavtryck. Medan våra tekniker kan användas för olika DRAM- och SCM-enheter fokuserar vi på en Heterogeneous Memory Stack (HMS)-organisation som staplar SCM-dies ovanpå DRAM-dies för hög prestanda. Jämfört med HBM förbättrar HMS prestanda med upp till 12.5x (2.9x totalt) och minskar energin med upp till 89.3% (48.1% totalt). Jämfört med tidigare arbeten minskar vi DRAM-cache-sond och SCM-skrivtrafik med 91-93% respektive 57-75%.

Hitta det tekniska papper här. Publicerad mars 2024.

Hong, Jeongmin, Sungjun Cho, Geonwoo Park, Wonhyuk Yang, Young-Ho Gong och Gwangsun Kim. "Bandbreddseffektiv DRAM-cache för grafikprocessorer med minne i lagringsklass." arXiv förtryck arXiv: 2403.09358 (2024).

plats_img

Senaste intelligens

plats_img