Zephyrnet Logo

Cache DRAM para GPUs com SCM e alta largura de banda

Data:

Um novo artigo técnico intitulado “Cache DRAM eficaz em largura de banda para GPUs com memória de classe de armazenamento” foi publicado por pesquisadores da POSTECH e da Songsil University.

Sumário

“Propomos superar a limitação de capacidade de memória das GPUs com memória de classe de armazenamento (SCM) de alta capacidade e cache DRAM. Ao aumentar significativamente a capacidade de memória com SCM, a GPU pode capturar uma fração maior do consumo de memória do que o HBM para cargas de trabalho que exigem memória em excesso, alcançando altas velocidades. No entanto, o cache DRAM precisa ser cuidadosamente projetado para lidar com as limitações de latência e BW do SCM, minimizando a sobrecarga de custos e considerando as características da GPU. Como o grande número de threads de GPU pode sobrecarregar o cache DRAM, primeiro propomos uma política de bypass de cache DRAM compatível com SCM para GPUs que considera as características multidimensionais dos acessos à memória por GPUs com SCM para ignorar DRAM para dados com utilidade de baixo desempenho. Além disso, para reduzir as sondagens de cache DRAM e aumentar o BW DRAM efetivo com custo mínimo, propomos um cache de tags configurável (CTC) que reaproveita parte do cache L2 para armazenar tags de cacheline DRAM. A capacidade L2 usada para o CTC pode ser ajustada pelos usuários para adaptabilidade. Além disso, para minimizar o tráfego de sondagem de cache DRAM de falhas de CTC, nossa organização de cache DRAM Aggregated Metadata-In-Last-column (AMIL) coloca todas as tags de cacheline DRAM em uma única coluna dentro de uma linha. O AMIL também mantém a proteção ECC completa, ao contrário da organização Tag-And-Data (TAD) do cache DRAM anterior. Além disso, propomos a otimização do SCM para reduzir a energia e a exploração dos modos SLC/MLC do SCM para se adaptar ao consumo de memória da carga de trabalho. Embora nossas técnicas possam ser usadas para diferentes dispositivos DRAM e SCM, nos concentramos em uma organização Heterogeneous Memory Stack (HMS) que empilha matrizes SCM sobre matrizes DRAM para alto desempenho. Comparado ao HBM, o HMS melhora o desempenho em até 12.5x (2.9x no geral) e reduz a energia em até 89.3% (48.1% no geral). Em comparação com trabalhos anteriores, reduzimos a investigação de cache DRAM e o tráfego de gravação SCM em 91-93% e 57-75%, respectivamente.”

Encontre o técnico papel aqui. Publicado em março de 2024.

Hong, Jeongmin, Sungjun Cho, Geonwoo Park, Wonhyuk Yang, Young-Ho Gong e Gwangsun Kim. “Cache DRAM com largura de banda eficaz para GPUs com memória de classe de armazenamento.” pré-impressão do arXiv arXiv: 2403.09358 (2024).

local_img

INÍCIO

Inteligência mais recente

local_img