Logo Zéphyrnet

Cache DRAM pour GPU avec SCM et bande passante élevée

Date :

Un nouveau document technique intitulé « Cache DRAM à bande passante efficace pour les GPU avec mémoire de classe de stockage » a été publié par des chercheurs de POSTECH et de l'Université Songsil.

Abstract

«Nous proposons de surmonter la limitation de capacité de mémoire des GPU avec une mémoire de classe de stockage (SCM) et un cache DRAM haute capacité. En augmentant considérablement la capacité de mémoire avec SCM, le GPU peut capturer une plus grande fraction de l'empreinte mémoire que HBM pour les charges de travail qui consomment trop de mémoire, obtenant ainsi des accélérations élevées. Cependant, le cache DRAM doit être soigneusement conçu pour répondre aux limitations de latence et de bande passante du SCM tout en minimisant les coûts et en tenant compte des caractéristiques du GPU. Étant donné que le nombre massif de threads GPU peut détruire le cache DRAM, nous proposons d'abord une politique de contournement du cache DRAM compatible SCM pour les GPU qui prend en compte les caractéristiques multidimensionnelles des accès à la mémoire par les GPU avec SCM afin de contourner la DRAM pour les données avec un utilitaire à faible performance. De plus, pour réduire les sondes de cache DRAM et augmenter le BW DRAM efficace à un coût minimal, nous proposons un cache de balises configurable (CTC) qui réutilise une partie du cache L2 pour mettre en cache les balises de cacheline DRAM. La capacité L2 utilisée pour le CTC peut être ajustée par les utilisateurs pour plus d'adaptabilité. De plus, pour minimiser le trafic de sonde de cache DRAM dû aux échecs CTC, notre organisation de cache DRAM de métadonnées agrégées dans la dernière colonne (AMIL) colocalise toutes les balises de ligne de cache DRAM dans une seule colonne au sein d'une rangée. L'AMIL conserve également la protection ECC complète, contrairement à l'organisation Tag-And-Data (TAD) du cache DRAM précédent. De plus, nous proposons une limitation SCM pour réduire la puissance et exploiter les modes SLC/MLC de SCM pour s'adapter à l'empreinte mémoire de la charge de travail. Bien que nos techniques puissent être utilisées pour différents dispositifs DRAM et SCM, nous nous concentrons sur une organisation HMS (Heterogeneous Memory Stack) qui empile les matrices SCM au-dessus des matrices DRAM pour des performances élevées. Par rapport au HBM, le HMS améliore les performances jusqu'à 12.5 fois (2.9 fois au total) et réduit l'énergie jusqu'à 89.3 % (48.1 % au total). Par rapport aux travaux antérieurs, nous réduisons le trafic de sonde de cache DRAM et d’écriture SCM de 91 à 93 % et de 57 à 75 %, respectivement.

Trouver la technique papier ici. Publié en mars 2024.

Hong, Jeongmin, Sungjun Cho, Geonwoo Park, Wonhyuk Yang, Young-Ho Gong et Gwangsun Kim. « Cache DRAM efficace en termes de bande passante pour les GPU avec mémoire de classe stockage. » arXiv preprint arXiv: 2403.09358  (2024).

spot_img

Dernières informations

spot_img