Zephyrnet Logosu

Belleği Yeniden Düşünmek

Tarih:

Uzmanlar Masada: Yarı İletken Mühendisliği, ürün yönetimi grup direktörü Frank Ferro ile giderek daha heterojen olan sistemlerde hafızaya yönelik ileriye dönük yol hakkında konuşmak için oturdu. Ritim; Steven Woo, dost ve seçkin mucit Rambus; Jongsin Yun, bellek teknolojisi uzmanı Siemens EDA; Randy White, bellek çözümleri program yöneticisi Keysight; ve çözümlerden ve iş geliştirmeden sorumlu başkan yardımcısı Frank Schirrmeister arterler. Aşağıda o konuşmadan alıntılar yer alıyor.

[LR]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; ve Frank Schirrmeister, Arteris.

[LR]: Frank Ferro, Cadence; Steven Woo, Rambus; Jongsin Yun, Siemens EDA; Randy White, Keysight; ve Frank Schirrmeister, Arteris

SE: AI/ML ve güç talepleri ile mücadele ederken hangi yapılandırmaların yeniden düşünülmesi gerekiyor? Von Neumann mimarisinden bir uzaklaşma görecek miyiz?

uu: Sistem mimarileri açısından sektörde bir çatallanma yaşanıyor. Bulutta x86 tabanlı sunucularda çalıştırdığımız, baskın iş gücü olan geleneksel uygulamalar ortadan kalkmıyor. Onlarca yıldır geliştirilen ve geliştirilen ve iyi performans göstermesi için bu mimariye güvenen yazılımlar var. Buna karşılık AI/ML yeni bir sınıftır. İnsanlar mimarileri yeniden düşündüler ve alana özel işlemciler geliştirdiler. Enerjinin yaklaşık üçte ikisinin yalnızca verileri bir işlemci ile HBM aygıtı arasında taşımak için harcandığını, yalnızca yaklaşık üçte birinin ise DRAM çekirdeklerindeki bitlere gerçekten erişmek için harcandığını görüyoruz. Veri taşıma artık çok daha zorlu ve pahalı. Hafızadan kurtulmayacağız. Buna ihtiyacımız var çünkü veri kümeleri büyüyor. Dolayısıyla soru şu: 'İleriye gitmenin doğru yolu nedir?' İstifleme konusunda çok fazla tartışma oldu. Eğer o belleği alıp doğrudan işlemcinin üstüne koyarsak, bu sizin için iki şey yapar. Birincisi, günümüzde bant genişliği kıyı tarafı veya çipin çevresi ile sınırlıdır. G/Ç'lerin gittiği yer burasıdır. Ancak onu doğrudan işlemcinin üzerine yerleştirirseniz, artık çipin tüm alanını dağıtılmış ara bağlantılar için kullanabilirsiniz ve bant genişliğinden daha fazlasını belleğin kendisinde alabilirsiniz ve bu, doğrudan aşağıya doğru beslenebilir. işlemci. Bağlantılar çok daha kısalıyor ve güç verimliliği muhtemelen 5X'ten 6X'e kadar artıyor. İkincisi, belleğe daha fazla alan dizisi bağlantısı nedeniyle elde edebileceğiniz bant genişliği miktarı da birkaç tamsayı faktörü kadar artar. Bu iki şeyi bir arada yapmak daha fazla bant genişliği sağlayabilir ve gücü daha verimli hale getirebilir. Sektör, ihtiyaçlar ne olursa olsun gelişiyor ve bu kesinlikle bellek sistemlerinin gelecekte daha fazla güç tasarrufu sağlayacak ve daha fazla bant genişliği sağlayacak şekilde gelişmeye başladığını görmemizin bir yoludur.

Demir: 2016 civarında HBM üzerinde ilk çalışmaya başladığımda, daha ileri düzey müşterilerden bazıları bunun istiflenip istiflenemeyeceğini sordu. Açık avantajlar olduğu için DRAM'i en üste nasıl yerleştireceklerini uzun süredir araştırıyorlar. Fiziksel katmandan bakıldığında, PHY temelde ihmal edilebilir hale gelir ve bu da büyük miktarda güç ve verimlilik tasarrufu sağlar. Ancak artık üzerinde bir hafıza bulunan birkaç 100W'lık bir işlemciniz var. Bellek ısıyı kaldıramaz. Muhtemelen ısı zincirindeki en zayıf halkadır ve bu da başka bir zorluk yaratır. Faydaları var ama yine de termiklerle nasıl başa çıkacaklarını bulmaları gerekiyor. Artık bu tür bir mimariyi ileriye taşımak için daha fazla teşvik var çünkü bu, genel olarak performans ve güç açısından tasarruf etmenizi sağlar ve bilgi işlem verimliliğinizi artırır. Ancak ele alınması gereken bazı fiziksel tasarım zorlukları var. Steve'in söylediği gibi, her türden mimarinin ortaya çıktığını görüyoruz. GPU/CPU mimarilerinin hiçbir yere gitmeyeceğine tamamen katılıyorum, hâlâ baskın olacaklar. Aynı zamanda gezegendeki her şirket yapay zekasını gerçekleştirmek için daha iyi bir fare kapanı bulmaya çalışıyor. Çip üzerinde SRAM ve yüksek bant genişliğine sahip bellek kombinasyonlarını görüyoruz. LPDDR, güç nedeniyle veri merkezinde LPDDR'den nasıl yararlanılacağı konusunda bugünlerde başını biraz kaldırıyor. GDDR'nin bazı AI çıkarım uygulamalarında ve tüm eski bellek sistemlerinde kullanıldığını bile gördük. Artık mümkün olduğunca çok sayıda DDR5'i ayak izine sıkıştırmaya çalışıyorlar. DDR, HBM, GDDR veya diğerleri olsun, aklınıza gelebilecek her mimariyi gördüm. Genel katma değerinizin ne olduğu ve ardından kendi mimarinizi nasıl aşabileceğiniz açısından bu, işlemci çekirdeğinize bağlıdır. Onunla birlikte gelen bellek sistemi sayesinde, mevcut olana bağlı olarak CPU'nuzu ve bellek mimarinizi şekillendirebilirsiniz.

Ve bir: Diğer bir konu ise oynaklığın olmamasıdır. Örneğin, yapay zekanın IoT tabanlı bir yapay zekayı çalıştırma arasındaki güç aralığıyla uğraşması gerekiyorsa, o zaman çok fazla gücü kapatıp açmamız gerekir ve yapay zeka eğitimi için tüm bu bilgilerin tekrar tekrar dönmesi gerekir. Eğer bu ağırlıkları çipte saklayabileceğimiz ve aynı ağırlık için her zaman ileri geri hareket etmek zorunda kalmayacağımız bir tür çözümümüz varsa, o zaman bu, özellikle IoT tabanlı yapay zeka için çok fazla güç tasarrufu sağlayacaktır. Bu güç taleplerine yardımcı olacak başka bir çözüm olacak.

- Schirmeister: NoC perspektifinden büyüleyici bulduğum şey, bir NoC'den geçen bir işlemciden bu yolları optimize etmeniz, potansiyel olarak UCIe'den geçen bir denetleyiciyle bir yongayı başka bir yongaya aktarmak için bir bellek arayüzüne erişmeniz gerektiği ve daha sonra belleğe sahip olduğu yerdir. BT. Von Neumann mimarileri ölmüş değil. Ancak hesaplamak istediğiniz iş yüküne bağlı olarak artık pek çok varyasyon var. Bunların hafıza bağlamında değerlendirilmesi gerekir ve hafıza bu konunun yalnızca bir yönüdür. Veriyi veri konumundan nereden alıyorsunuz, bu DRAM'de nasıl düzenleniyor? Belleklerin performans analizi ve ardından sistem mimarisinin optimize edilmesi gibi tüm bunların üzerinde çalışıyoruz. Üniversitede Von Neumann'ı öğrenirken hiç düşünmediğim, yeni mimariler için pek çok yeniliği teşvik ediyor. Diğer uçta ağlar gibi şeyler var. Artık dikkate alınması gereken çok daha fazla mimari var ve bu, bellek bant genişliği, bilgi işlem yetenekleri vb. tarafından yönlendiriliyor ve aynı oranda büyümüyor.

Beyaz: Ayrıştırılmış hesaplama veya dağıtılmış hesaplamayı içeren bir trend var; bu da mimarın elinde daha fazla araca sahip olması gerektiği anlamına geliyor. Bellek hiyerarşisi genişledi. Flaş ve DRAM'de kullanılabilen CXL ve farklı hibrit belleklerin yanı sıra anlambilim de mevcuttur. Veri merkezine paralel bir uygulama otomotivdir. Otomotivde her zaman bu sensör ECU'larla (elektronik kontrol üniteleri) hesaplanır. Veri merkezine nasıl evrildiğine hayran kaldım. Hızlı ileri saralım ve bugün etki alanı denetleyicileri adı verilen dağıtılmış bilgi işlem düğümlerine sahibiz. Aynı şey. Bilgisayarların ölçeği o kadar büyük olmadığı için gücün o kadar da önemli olmadığını, ancak otomotivde gecikmenin kesinlikle büyük bir sorun olduğunu ele almaya çalışıyor. ADAS'ın süper yüksek bant genişliğine ihtiyacı vardır ve farklı ödünleşimleriniz vardır. Ve sonra daha fazla mekanik sensörünüz var, ancak bir veri merkezinde benzer kısıtlamalar var. Düşük gecikme süresine sahip olması gerekmeyen soğuk depolamanız ve ardından başka yüksek bant genişliğine sahip uygulamalarınız var. Mimar için araçların ve seçeneklerin ne kadar geliştiğini görmek büyüleyici. Sektör yanıt verme konusunda gerçekten iyi bir iş çıkardı ve hepimiz pazarı besleyen çeşitli çözümler sunuyoruz.

SE: Bellek tasarımı araçları nasıl gelişti?

- Schirmeister: 90'lı yıllarda ilk birkaç çipimi kullanmaya başladığımda en çok kullandığım sistem aracı Excel'di. O zamandan beri, sistem düzeyinde, bellekte, bant genişliği analizinde vb. yaptığımız şeylerin bir noktada bozulabileceğini umuyordum. Bu durum takımlarımı oldukça etkiledi. O zamanlar çok gelişmiş bir şeydi. Ancak Randy'nin görüşüne göre, artık belirli karmaşık şeylerin, daha önce hesaplama olmadan mümkün olmayan bir aslına uygunluk düzeyinde simüle edilmesi gerekiyor. Örnek vermek gerekirse, bir DRAM erişimi için belirli bir gecikme süresi varsaymak, hatalı mimari kararlarına ve çip üzerinde veri taşıma mimarilerinin yanlış tasarlanmasına neden olabilir. Diğer tarafı da doğrudur. Her zaman en kötü durumu varsayarsanız mimariyi gereğinden fazla tasarlamış olursunuz. DRAM ve performans analizini gerçekleştiren araçlara sahip olmak ve denetleyiciler için uygun modellerin mevcut olması, bir mimarın tüm bunları simüle etmesine olanak tanır; bu, içinde bulunulması gereken büyüleyici bir ortamdır. 90'lı yıllardan beri Excel'in bir noktada kırılabileceğine dair umudum sistem düzeyindeki araç gerçekten gerçekleşebilir, çünkü bazı dinamik etkileri artık Excel'de yapamazsınız çünkü bunları simüle etmeniz gerekir - özellikle de PHY özelliklerine sahip bir ölümden ölmeye arayüz oluşturduğunuzda ve ardından bağlantı katmanını kullandığınızda Her şeyin doğru olup olmadığının kontrol edilmesi ve potansiyel olarak verilerin yeniden gönderilmesi gibi özellikler. Bu simülasyonların yapılmaması, optimumun altında mimariyle sonuçlanacaktır.

Demir: Yaptığımız değerlendirmelerin çoğunda ilk adım, onlara DRAM verimliliğine bakmaya başlamaları için bellek test ortamını vermektir. Bu, DRAM simülasyonu yapmak için yerel araçları çalıştırmak ve ardından tam gelişmiş simülasyonlara geçmek gibi basit şeyleri yapmak bile çok büyük bir adımdır. Daha fazla müşterinin bu tür bir simülasyon istediğini görüyoruz. DRAM verimliliğinizin 90'ların zirvesinde olduğundan emin olmak, herhangi bir değerlendirmede çok önemli bir ilk adımdır.

uu: Tam sistem simülasyon araçlarının yükselişini görmenizin nedenlerinden biri de DRAM'lerin çok daha karmaşık hale gelmesidir. Excel gibi basit araçları kullanarak bu karmaşık iş yüklerinden bazılarının üstesinden gelmek artık çok zor. 90'lı yıllarda DRAM'in veri sayfasına bakarsanız, bu veri sayfalarının 40 sayfa kadar olduğunu görürsünüz. Şimdi yüzlerce sayfa oldular. Bu sadece yüksek bant genişliklerini elde etmek için cihazın karmaşıklığından bahsediyor. Bunu, belleğin sistem maliyetinin yanı sıra işlemci performansıyla ilgili bant genişliği ve gecikme süresi açısından da önemli bir etken olduğu gerçeğiyle birleştiriyorsunuz. Bu aynı zamanda büyük bir güçtür, dolayısıyla artık çok daha ayrıntılı bir düzeyde simülasyon yapmanız gerekiyor. Araç akışı açısından sistem mimarları belleğin büyük bir etken olduğunun farkındadır. Bu nedenle, araçların daha karmaşık olması ve diğer araçlarla çok iyi bir arayüz oluşturması gerekiyor, böylece sistem mimarı, özellikle belleğin sistemi nasıl etkilediği konusunda, olup bitenler hakkında en iyi küresel görüşü elde edebilir.

Ve bir: Yapay zeka çağına geçtikçe çok sayıda çok çekirdekli sistem kullanılıyor ancak hangi verinin nereye gittiğini bilmiyoruz. Ayrıca çipe daha paralel gidiyor. Belleğin boyutu çok daha büyük. ChatGPT tipi yapay zekayı kullanırsak, modeller için veri işleme yaklaşık 350 MB veri gerektirir; bu, yalnızca bir ağırlık için çok büyük bir veri miktarıdır ve gerçek giriş/çıkış çok daha büyüktür. Gerekli veri miktarındaki bu artış, daha önce görmediğimiz birçok olasılığa dayalı etkinin olduğu anlamına geliyor. Bu kadar büyük miktardaki bellekle ilgili tüm hataları görmek son derece zorlu bir test. Ve ECC her yerde kullanılıyor, geleneksel olarak ECC kullanmayan SRAM'de bile, ancak artık en büyük sistemler için çok yaygın. Tüm bunları test etmek oldukça zordur ve tüm bu farklı koşulları test etmek için EDA çözümleriyle desteklenmesi gerekir.

SE: Mühendislik ekipleri her gün ne gibi zorluklarla karşılaşıyor?

Beyaz: Herhangi bir günde beni laboratuvarda bulacaksınız. Kollarımı sıvadım ve ellerimi kirlettim, telleri karıştırdım, lehimleme falan yaptım. Silikon sonrası doğrulama hakkında çok düşünüyorum. Erken simülasyon ve kalıp üzeri araçlar (BIST) ve bunun gibi şeylerden bahsettik. Günün sonunda, göndermeden önce bir tür sistem doğrulaması veya cihaz düzeyinde testler yapmak istiyoruz. Hafıza duvarını nasıl aşacağımızı konuştuk. Belleği, HBM'yi ve buna benzer şeyleri aynı yerde konumlandırıyoruz. Ambalaj teknolojisinin gelişimine baktığımızda kurşunlu ambalajlarla başladık. Sinyal bütünlüğü açısından pek iyi değillerdi. Onlarca yıl sonra, bilyeli ızgara dizileri (BGA'lar) gibi optimize edilmiş sinyal bütünlüğüne geçtik. Buna erişemedik, bu da onu test edemeyeceğiniz anlamına geliyordu. Böylece, cihaz aracısı (BGA aracısı) adı verilen bu konsepti geliştirdik ve bu, sinyalleri yönlendiren özel bir donanımı sandviçlememize olanak sağladı. Daha sonra onu test ekipmanına bağlayabiliriz. Günümüze hızlı bir şekilde ilerleyin ve artık HBM ve chiplet'lerimiz var. Fikstürümü silikon ara elemanın arasına nasıl sıkıştırabilirim? Yapamayız ve mücadele budur. Bu beni geceleri ayakta tutan bir zorluk. Bir OEM veya sistem müşterisinin %90 verim elde edemediği sahada arıza analizini nasıl yaparız? Bağlantıda daha fazla hata var, bunlar düzgün şekilde başlatılamıyor ve eğitim çalışmıyor. Sistem bütünlüğü sorunu mu var?

- Schirmeister: Bunu laboratuvara yürüyerek gitmektense evden sanal bir arayüzle yapmayı tercih etmez miydiniz? Cevap, çipe yerleştirdiğiniz daha fazla analitik değil mi? Chiplet'lerle her şeyi daha da entegre ediyoruz. Havyanızı oraya sokmak gerçekten bir seçenek değil, bu nedenle çip üzerinde analiz için bir yol olması gerekiyor. NoC için de aynı sorunu yaşıyoruz. İnsanlar NoC'ye bakıyor, siz veriyi gönderiyorsunuz ve sonra kayboluyor. İnsanların hata ayıklama yapabilmesi için analitiklerin oraya yerleştirilmesine ihtiyacımız var ve bu üretim düzeyine kadar uzanıyor, böylece sonunda evden çalışabilir ve tüm bunları çip analitiğine dayalı olarak yapabilirsiniz.

Demir: Özellikle yüksek bant genişliğine sahip bellekle fiziksel olarak oraya giremezsiniz. PHY'yi lisansladığımızda, buna uygun bir ürünümüz de olur, böylece bu 1,024 bitin her birini görebilirsiniz. Araçtan DRAM okumaya ve yazmaya başlayabilirsiniz, böylece fiziksel olarak oraya girmenize gerek kalmaz. Aracı fikrini beğendim. Test sırasında sistemde yapamayacağınız bazı pinleri aracıdan çıkarıyoruz. Bu 3 boyutlu sistemlere girmek gerçekten çok zor. Tasarım aracı akışı açısından bile çoğu şirketin bu 2.5D araçlarının çoğunda kendi bireysel akışını yaptığı görülüyor. Sinyal bütünlüğünden güç ve tüm akışa kadar 2.5D sistemi oluşturmak için daha standartlaştırılmış bir yol oluşturmaya başlıyoruz.

Beyaz: İşler ilerledikçe, umarım hala aynı doğruluk seviyesini koruyabiliriz. UCIe form faktörü uyumluluk grubundayım. Bilinen iyi bir zarın, altın zarın nasıl karakterize edileceğine bakıyorum. Sonunda bu çok daha fazla zaman alacak, ancak ihtiyacımız olan testin performansı ve doğruluğu ile yerleşik esneklik arasında mutlu bir orta yol bulacağız.

- Schirmeister: Chiplet'lere ve bunların daha açık bir üretim ortamında benimsenmesine bakarsam, testlerin doğru çalışmasını sağlamanın önündeki en büyük zorluklardan biri olduğunu görüyorum. Eğer büyük bir şirketsem ve her yönünü kontrol ediyorsam, o zaman testleri ve benzeri şeyleri mümkün kılacak şekilde işleri uygun şekilde kısıtlayabilirim. UCI'nin PCI'dan yalnızca bir harf uzakta olduğu yönündeki UCIe sloganına gitmek istersem ve üretim açısından bakıldığında, UCIe montajının günümüz PC'sindeki PCI yuvaları gibi olacağı bir gelecek hayal edersem, o zaman bunun test yönleri gerçekten önemlidir. zorlu. Bir çözüm bulmamız gerekiyor. Yapılacak çok iş var.

spot_img

En Son İstihbarat

spot_img