Zephyrnet-Logo

DRAM-Cache für GPUs mit SCM und hoher Bandbreite

Datum:

Ein neues technisches Papier mit dem Titel „Bandwidth-Effective DRAM Cache for GPUs with Storage-Class Memory“ wurde von Forschern von POSTECH und der Songsil University veröffentlicht.

Abstrakt

„Wir schlagen vor, die Speicherkapazitätsbeschränkung von GPUs mit Storage-Class Memory (SCM) und DRAM-Cache mit hoher Kapazität zu überwinden. Durch die deutliche Erhöhung der Speicherkapazität mit SCM kann die GPU einen größeren Teil des Speicherbedarfs als HBM für Workloads nutzen, die den Speicher überbelegen, wodurch hohe Geschwindigkeiten erzielt werden. Der DRAM-Cache muss jedoch sorgfältig entworfen werden, um die Latenz- und BW-Einschränkungen des SCM zu berücksichtigen und gleichzeitig den Kostenaufwand zu minimieren und die GPU-Eigenschaften zu berücksichtigen. Da die enorme Anzahl an GPU-Threads den DRAM-Cache überfordern kann, schlagen wir zunächst eine SCM-fähige DRAM-Cache-Umgehungsrichtlinie für GPUs vor, die die mehrdimensionalen Eigenschaften von Speicherzugriffen durch GPUs mit SCM berücksichtigt, um DRAM für Daten mit geringem Leistungsnutzen zu umgehen. Um DRAM-Cache-Prüfungen zu reduzieren und die effektive DRAM-BW bei minimalen Kosten zu erhöhen, schlagen wir außerdem einen konfigurierbaren Tag-Cache (CTC) vor, der einen Teil des L2-Cache zum Zwischenspeichern von DRAM-Cacheline-Tags umfunktioniert. Die für den CTC verwendete L2-Kapazität kann aus Gründen der Anpassungsfähigkeit vom Benutzer angepasst werden. Um den DRAM-Cache-Testverkehr aufgrund von CTC-Fehlern zu minimieren, ordnet unsere DRAM-Cache-Organisation Aggregated Metadata-In-Last-Column (AMIL) außerdem alle DRAM-Cacheline-Tags in einer einzigen Spalte innerhalb einer Zeile zusammen. Im Gegensatz zur Tag-And-Data-Organisation (TAD) des früheren DRAM-Cache behält AMIL auch den vollständigen ECC-Schutz bei. Darüber hinaus schlagen wir SCM-Drosselung vor, um die Leistung zu reduzieren und die SLC/MLC-Modi von SCM zu nutzen, um sich an den Speicherbedarf der Arbeitslast anzupassen. Während unsere Techniken für verschiedene DRAM- und SCM-Geräte verwendet werden können, konzentrieren wir uns auf eine Organisation mit heterogenem Speicherstapel (HMS), die SCM-Chips auf DRAM-Chips stapelt, um eine hohe Leistung zu erzielen. Im Vergleich zu HBM verbessert HMS die Leistung um das bis zu 12.5-fache (insgesamt 2.9-fache) und reduziert den Energieverbrauch um bis zu 89.3 % (insgesamt 48.1 %). Im Vergleich zu früheren Arbeiten reduzieren wir den DRAM-Cache-Probe- und SCM-Schreibverkehr um 91–93 % bzw. 57–75 %.“

Finden Sie das Technische Papier hier. Veröffentlicht im März 2024.

Hong, Jeongmin, Sungjun Cho, Geonwoo Park, Wonhyuk Yang, Young-Ho Gong und Gwangsun Kim. „Bandbreiteneffektiver DRAM-Cache für GPUs mit Speicher der Speicherklasse.“ arXiv-Vorabdruck arXiv: 2403.09358 (2024).

spot_img

Neueste Intelligenz

spot_img