Logotipo de Zephyrnet

Caché DRAM para GPU con SCM y gran ancho de banda

Fecha:

Investigadores de POSTECH y la Universidad Songsil publicaron un nuevo artículo técnico titulado “Caché DRAM con ancho de banda efectivo para GPU con memoria de clase de almacenamiento”.

Compendio

“Proponemos superar la limitación de la capacidad de memoria de las GPU con memoria de clase de almacenamiento (SCM) de alta capacidad y caché DRAM. Al aumentar significativamente la capacidad de memoria con SCM, la GPU puede capturar una fracción mayor de la huella de memoria que HBM para cargas de trabajo que sobrescriben la memoria, logrando altas velocidades. Sin embargo, la caché DRAM debe diseñarse cuidadosamente para abordar las limitaciones de latencia y BW del SCM y al mismo tiempo minimizar los costos generales y considerar las características de la GPU. Debido a que la enorme cantidad de subprocesos de GPU puede alterar la caché de DRAM, primero proponemos una política de omisión de caché de DRAM compatible con SCM para GPU que considere las características multidimensionales de los accesos a la memoria por parte de GPU con SCM para omitir DRAM para datos con utilidad de bajo rendimiento. Además, para reducir los sondeos de caché DRAM y aumentar el BW de DRAM efectivo con un costo mínimo, proponemos un caché de etiquetas configurable (CTC) que reutiliza parte del caché L2 para almacenar en caché etiquetas de línea de caché DRAM. Los usuarios pueden ajustar la capacidad L2 utilizada para el CTC para mayor adaptabilidad. Además, para minimizar el tráfico de sondeo de caché DRAM debido a errores de CTC, nuestra organización de caché DRAM de metadatos agregados en la última columna (AMIL) ubica todas las etiquetas de línea de caché DRAM en una sola columna dentro de una fila. AMIL también conserva la protección ECC completa, a diferencia de la organización de etiquetas y datos (TAD) de la caché DRAM anterior. Además, proponemos acelerar SCM para reducir la energía y explotar los modos SLC/MLC de SCM para adaptarse al uso de memoria de la carga de trabajo. Si bien nuestras técnicas se pueden utilizar para diferentes dispositivos DRAM y SCM, nos centramos en una organización de pila de memoria heterogénea (HMS) que apila matrices SCM encima de matrices DRAM para lograr un alto rendimiento. En comparación con HBM, HMS mejora el rendimiento hasta 12.5 veces (2.9 veces en general) y reduce la energía hasta en un 89.3% (48.1% en general). En comparación con trabajos anteriores, reducimos la sonda de caché DRAM y el tráfico de escritura SCM en un 91-93% y un 57-75%, respectivamente”.

Encuentra la técnica papel aqui. Publicado en marzo de 2024.

Hong, Jeongmin, Sungjun Cho, Geonwoo Park, Wonhyuk Yang, Young-Ho Gong y Gwangsun Kim. "Caché DRAM con ancho de banda efectivo para GPU con memoria de clase de almacenamiento". preimpresión arXiv arXiv: 2403.09358 (2024).

punto_img

Información más reciente

punto_img