شعار زيفيرنت

إعادة التفكير في الذاكرة

التاريخ:

الخبراء على الطاولة: جلس قسم هندسة أشباه الموصلات للحديث عن الطريق إلى الأمام بالنسبة للذاكرة في الأنظمة غير المتجانسة بشكل متزايد، مع فرانك فيرو، مدير المجموعة، إدارة المنتجات في إيقاع; ستيفن وو، زميل ومخترع متميز في رامبوس; جونغسين يون، تقني الذاكرة في سيمنز EDA; راندي وايت، مدير برنامج حلول الذاكرة في كيسيت; وفرانك شيرميستر، نائب رئيس الحلول وتطوير الأعمال في الشرايين. وفيما يلي مقتطفات من تلك المحادثة.

[LR]: فرانك فيرو، الإيقاع؛ ستيفن وو، رامبوس؛ جونغسين يون، شركة سيمنز EDA؛ راندي وايت، Keysight؛ وفرانك شيرميستر، أرتيريس.

[LR]: فرانك فيرو، الإيقاع؛ ستيفن وو، رامبوس؛ جونغسين يون، شركة سيمنز EDA؛ راندي وايت، Keysight؛ وفرانك شيرميستر، أرتيريس

SE: بينما نكافح مع الذكاء الاصطناعي/التعلم الآلي ومتطلبات الطاقة، ما هي التكوينات التي تحتاج إلى إعادة التفكير؟ هل سنشهد تحولًا بعيدًا عن عمارة فون نيومان؟

وو: فيما يتعلق ببنيات النظام، هناك تشعب يحدث في الصناعة. إن التطبيقات التقليدية التي تمثل أعمدة العمل المهيمنة، والتي نقوم بتشغيلها في السحابة على خوادم تعتمد على x86، لن تختفي. هناك عقود من البرامج التي تم إنشاؤها وتطويرها، والتي ستعتمد على تلك البنية لأداء جيد. على النقيض من ذلك، يعد الذكاء الاصطناعي/التعلم الآلي فئة جديدة. لقد أعاد الناس التفكير في البنيات وقاموا ببناء معالجات خاصة بالمجال. نحن نرى أنه يتم إنفاق حوالي ثلثي الطاقة فقط في نقل البيانات بين المعالج وجهاز HBM، في حين يتم إنفاق حوالي الثلث فقط في الوصول فعليًا إلى البتات الموجودة في نوى DRAM. أصبحت حركة البيانات الآن أكثر صعوبة وتكلفة. لن نتخلص من الذاكرة. نحن في حاجة إليها لأن مجموعات البيانات أصبحت أكبر. لذا فإن السؤال هو: ما هو الطريق الصحيح للمضي قدمًا؟ كان هناك الكثير من النقاش حول التراص. إذا أخذنا تلك الذاكرة ووضعناها مباشرة فوق المعالج، فإنها ستفعل شيئين لك. أولاً، يقتصر عرض النطاق الترددي اليوم على واجهة الشاطئ أو محيط الشريحة. هذا هو المكان الذي تذهب إليه عمليات الإدخال/الإخراج. ولكن إذا كنت تريد تكديسها مباشرة فوق المعالج، فيمكنك الآن الاستفادة من كامل مساحة الشريحة للتوصيلات البينية الموزعة، ويمكنك الحصول على المزيد من النطاق الترددي في الذاكرة نفسها، ويمكن تغذيتها مباشرة إلى الأسفل المعالج. تصبح الروابط أقصر كثيرًا، ومن المحتمل أن ترتفع كفاءة الطاقة بمعدل 5X إلى 6X. ثانيًا، يزداد أيضًا مقدار النطاق الترددي الذي يمكنك الحصول عليه بسبب اتصال مصفوفة المنطقة الأكبر بالذاكرة بعوامل عددية متعددة. إن القيام بهذين الأمرين معًا يمكن أن يوفر المزيد من النطاق الترددي ويجعله أكثر كفاءة في استخدام الطاقة. تتطور الصناعة لتناسب أي احتياجات، وهذه بالتأكيد إحدى الطرق التي سنرى بها أنظمة الذاكرة تبدأ في التطور في المستقبل لتصبح أكثر كفاءة في استخدام الطاقة وتوفر المزيد من النطاق الترددي.

حديد: عندما بدأت العمل على HBM لأول مرة في عام 2016 تقريبًا، سأل بعض العملاء الأكثر تقدمًا عما إذا كان من الممكن تجميعها معًا. لقد كانوا يبحثون في كيفية تكديس DRAM في الأعلى لبعض الوقت نظرًا لوجود مزايا واضحة. من الطبقة المادية، تصبح PHY ضئيلة بشكل أساسي، مما يوفر الكثير من الطاقة والكفاءة. ولكن الآن لديك معالج بقدرة 100 واط ومزود بذاكرة فوقه. الذاكرة لا تستطيع تحمل الحرارة. ربما تكون الحلقة الأضعف في السلسلة الحرارية، مما يخلق تحديًا آخر. هناك فوائد، لكن لا يزال يتعين عليهم معرفة كيفية التعامل مع درجات الحرارة. هناك المزيد من الحوافز الآن لدفع هذا النوع من البنية إلى الأمام، لأنه يوفر عليك بشكل عام من حيث الأداء والقوة، وسيعمل على تحسين كفاءة الكمبيوتر لديك. ولكن هناك بعض تحديات التصميم المادي التي يجب التعامل معها. كما كان يقول ستيف، نرى جميع أنواع الهندسة المعمارية التي تظهر. أوافق تمامًا على أن معماريات GPU/CPU لن تذهب إلى أي مكان، وستظل هي المهيمنة. وفي الوقت نفسه، تحاول كل شركة على هذا الكوكب التوصل إلى مصيدة فئران أفضل للقيام بالذكاء الاصطناعي الخاص بها. نرى SRAM على الشريحة ومجموعات من الذاكرة ذات النطاق الترددي العالي. لقد رفع LPDDR رأسه قليلاً هذه الأيام فيما يتعلق بكيفية الاستفادة من LPDDR في مركز البيانات بسبب القوة. لقد رأينا أيضًا استخدام GDDR في بعض تطبيقات الاستدلال بالذكاء الاصطناعي، بالإضافة إلى جميع أنظمة الذاكرة القديمة. إنهم يحاولون الآن الضغط على أكبر عدد ممكن من وحدات DDR5 على البصمة قدر الإمكان. لقد رأيت كل بنية يمكنك التفكير فيها، سواء كانت DDR أو HBM أو GDDR أو غيرها. يعتمد ذلك على نواة المعالج الخاص بك من حيث القيمة الإجمالية المضافة، ومن ثم كيف يمكنك اختراق البنية الخاصة بك. نظام الذاكرة المصاحب له، حتى تتمكن من نحت وحدة المعالجة المركزية الخاصة بك وبنية الذاكرة الخاصة بك، اعتمادًا على ما هو متاح.

يون: قضية أخرى هي عدم التقلب. إذا كان على الذكاء الاصطناعي التعامل مع فاصل الطاقة بين تشغيل الذكاء الاصطناعي القائم على إنترنت الأشياء، على سبيل المثال، فسنحتاج إلى الكثير من إيقاف التشغيل وتشغيله، ويجب تدوير كل هذه المعلومات الخاصة بتدريب الذكاء الاصطناعي مرارًا وتكرارًا. إذا كان لدينا نوع من الحلول حيث يمكننا تخزين تلك الأوزان في الشريحة حتى لا نضطر دائمًا إلى التحرك ذهابًا وإيابًا لنفس الوزن، فسيكون ذلك بمثابة توفير كبير في الطاقة، خاصة بالنسبة للذكاء الاصطناعي القائم على إنترنت الأشياء. سيكون هناك حل آخر لمساعدة تلك المتطلبات من الطاقة.

شيرميستر: ما أجده رائعًا، من منظور NoC، هو حيث يتعين عليك تحسين هذه المسارات من المعالج الذي يمر عبر NoC، والوصول إلى واجهة الذاكرة مع وحدة التحكم التي من المحتمل أن تمر عبر UCIe لتمرير شريحة صغيرة إلى شريحة صغيرة أخرى، والتي تحتوي بعد ذلك على ذاكرة هو - هي. لا يعني ذلك أن معماريات فون نيومان قد ماتت. ولكن هناك العديد من الاختلافات الآن، اعتمادًا على عبء العمل الذي تريد حسابه. ويجب أن تؤخذ في الاعتبار في سياق الذاكرة، والذاكرة ليست سوى جانب واحد. من أين تحصل على البيانات من منطقة البيانات، كيف يتم ترتيبها في DRAM؟ نحن نعمل على كل هذه الأمور، مثل تحليل أداء الذكريات ومن ثم تحسين بنية النظام عليها. إنه يحفز الكثير من الابتكار للهندسة المعمارية الجديدة، وهو ما لم أفكر فيه مطلقًا عندما كنت في الجامعة أتعلم عن فون نيومان. وفي أقصى الطرف الآخر، لديك أشياء مثل الشبكات. يوجد الآن الكثير من البنى التي يجب أخذها في الاعتبار، وهي مدفوعة بعرض النطاق الترددي للذاكرة، وقدرات الحوسبة، وما إلى ذلك، ولا تنمو بنفس المعدل.

تبييض: هناك اتجاه يتضمن الحوسبة المصنفة أو الحوسبة الموزعة، مما يعني أن المهندس المعماري يحتاج إلى المزيد من الأدوات تحت تصرفه. تم توسيع التسلسل الهرمي للذاكرة. هناك دلالات مضمنة، بالإضافة إلى CXL والذكريات الهجينة المختلفة، المتوفرة للفلاش وفي DRAM. التطبيق الموازي لمركز البيانات هو السيارات. كان لدى السيارات دائمًا جهاز استشعار هذا يحسب مع وحدات التحكم الإلكترونية (وحدات التحكم الإلكترونية). أنا منبهر بكيفية تطوره إلى مركز البيانات. تقدم سريعًا، واليوم قمنا بتوزيع عقد حسابية، تسمى وحدات التحكم بالمجال. انه نفس الشيء. إنها تحاول معالجة أنه ربما لا تكون الطاقة ذات أهمية كبيرة لأن حجم أجهزة الكمبيوتر ليس كبيرًا، لكن زمن الوصول يمثل بالتأكيد مشكلة كبيرة في السيارات. يحتاج ADAS إلى نطاق ترددي عالي جدًا، ولديك مقايضات مختلفة. ثم لديك المزيد من أجهزة الاستشعار الميكانيكية، ولكن مع قيود مماثلة في مركز البيانات. لديك وحدة تخزين باردة لا تحتاج إلى زمن استجابة منخفض، ثم لديك تطبيقات أخرى ذات نطاق ترددي عالي. إنه لأمر رائع أن نرى مدى تطور الأدوات والخيارات المتاحة للمهندس المعماري. لقد قامت الصناعة بعمل جيد حقًا في الاستجابة، ونحن جميعًا نقدم حلولاً متنوعة تغذي السوق.

SE: كيف تطورت أدوات تصميم الذاكرة؟

شيرميستر: عندما بدأت مع أول رقاقتين لي في التسعينيات، كانت أداة النظام الأكثر استخدامًا هي Excel. منذ ذلك الحين، كنت أتمنى دائمًا أن يتعطل عند نقطة ما بالنسبة للأشياء التي نقوم بها على مستوى النظام، والذاكرة، وتحليل النطاق الترددي، وما إلى ذلك. لقد أثر هذا على فريقي قليلاً. في ذلك الوقت، كانت الأشياء متقدمة جدًا. لكن بالنسبة إلى راندي، هناك حاجة الآن إلى محاكاة بعض الأشياء المعقدة بمستوى من الدقة لم يكن ممكنًا في السابق بدون الحساب. على سبيل المثال، يمكن أن يؤدي افتراض زمن وصول معين للوصول إلى DRAM إلى اتخاذ قرارات سيئة بشأن البنية وربما تصميم بنيات نقل البيانات بشكل غير صحيح على الشريحة. الجانب الآخر صحيح أيضًا. إذا كنت تفترض دائمًا أسوأ الحالات، فسوف تبالغ في تصميم البنية. إن وجود أدوات تؤدي إلى DRAM وتحليل الأداء، ووجود النماذج المناسبة المتاحة لوحدات التحكم يسمح للمهندس المعماري بمحاكاة كل ذلك، وهذه بيئة رائعة للتواجد فيها. آمل منذ التسعينيات أن برنامج Excel قد ينكسر في مرحلة ما كبرنامج قد تتحقق بالفعل أداة على مستوى النظام، نظرًا لأن بعض التأثيرات الديناميكية لا يمكنك القيام بها في Excel بعد الآن لأنك تحتاج إلى محاكاتها - خاصة عند إنشاء واجهة قالبية بخصائص PHY، ثم طبقة الارتباط خصائص مثل التحقق مما إذا كان كل شيء صحيحًا وربما إعادة إرسال البيانات. سيؤدي عدم إجراء عمليات المحاكاة هذه إلى إنشاء بنية دون المستوى الأمثل.

حديد: الخطوة الأولى في معظم التقييمات التي نقوم بها هي منحهم منصة اختبار الذاكرة لبدء النظر في كفاءة DRAM. هذه خطوة كبيرة، حتى القيام بأشياء بسيطة مثل تشغيل الأدوات المحلية للقيام بمحاكاة DRAM، ولكن بعد ذلك انتقل إلى عمليات محاكاة كاملة. نرى المزيد من العملاء يطلبون هذا النوع من المحاكاة. يعد التأكد من ارتفاع كفاءة ذاكرة الوصول العشوائي (DRAM) لديك إلى أعلى مستوى في التسعينات خطوة أولى مهمة جدًا في أي تقييم.

وو: جزء من سبب ظهور أدوات محاكاة النظام الكامل هو أن DRAMs أصبحت أكثر تعقيدًا. من الصعب جدًا الآن أن تكون متساويًا في بعض أعباء العمل المعقدة هذه باستخدام أدوات بسيطة مثل Excel. إذا نظرت إلى ورقة بيانات DRAM في التسعينيات، كانت أوراق البيانات تلك عبارة عن 90 صفحة. الآن هم مئات الصفحات. يشير هذا فقط إلى مدى تعقيد الجهاز من أجل الحصول على نطاق ترددي عالي. يمكنك ربط ذلك بحقيقة أن الذاكرة تمثل محركًا لتكلفة النظام، بالإضافة إلى النطاق الترددي وزمن الوصول المرتبط بأداء المعالج. إنه أيضًا محرك كبير للقوة، لذا فأنت بحاجة إلى المحاكاة على مستوى أكثر تفصيلاً الآن. فيما يتعلق بتدفق الأدوات، يفهم مهندسو النظام أن الذاكرة هي محرك ضخم. لذلك يجب أن تكون الأدوات أكثر تعقيدًا، ويجب أن تتفاعل مع الأدوات الأخرى بشكل جيد للغاية حتى يتمكن مهندس النظام من الحصول على أفضل رؤية شاملة لما يحدث - خاصة فيما يتعلق بكيفية تأثير الذاكرة على النظام.

يون: مع انتقالنا إلى عصر الذكاء الاصطناعي، يتم استخدام الكثير من الأنظمة متعددة النواة، لكننا لا نعرف أي البيانات تذهب إلى أين. كما أنها تسير بشكل أكثر توازيًا مع الشريحة. حجم الذاكرة أكبر بكثير. إذا استخدمنا نوع ChatGPT للذكاء الاصطناعي، فإن معالجة البيانات للنماذج تتطلب حوالي 350 ميجابايت من البيانات، وهي كمية هائلة من البيانات بالنسبة للوزن فقط، والمدخلات/المخرجات الفعلية أكبر بكثير. هذه الزيادة في كمية البيانات المطلوبة تعني أن هناك الكثير من التأثيرات الاحتمالية التي لم نشهدها من قبل. إنه اختبار صعب للغاية لمعرفة جميع الأخطاء المتعلقة بهذا المقدار الكبير من الذاكرة. ويتم استخدام ECC في كل مكان، حتى في SRAM، والتي لم تكن تستخدم ECC تقليديًا، ولكنها الآن شائعة جدًا في الأنظمة الأكبر. يعد اختبار كل ذلك أمرًا صعبًا للغاية ويحتاج إلى الدعم بحلول EDA لاختبار كل تلك الظروف المختلفة.

SE: ما هي التحديات التي تواجهها الفرق الهندسية على أساس يومي؟

تبييض: في أي يوم، ستجدني في المختبر. أشمر عن سواعدي وقد لوثت يدي، ودس الأسلاك، واللحام، وما إلى ذلك. أفكر كثيرًا في التحقق من صحة ما بعد السيليكون. تحدثنا عن أدوات المحاكاة المبكرة والأدوات الجاهزة — BiST، وأشياء من هذا القبيل. في نهاية المطاف، قبل الشحن، نريد إجراء شكل من أشكال التحقق من صحة النظام أو الاختبارات على مستوى الجهاز. تحدثنا عن كيفية التغلب على جدار الذاكرة. نحن نشارك في تحديد موقع الذاكرة، HBM، وأشياء من هذا القبيل. إذا نظرنا إلى تطور تكنولوجيا التعبئة والتغليف، فقد بدأنا بالعبوات التي تحتوي على الرصاص. لم تكن جيدة جدًا لسلامة الإشارة. وبعد عقود من الزمن، انتقلنا إلى تحسين سلامة الإشارة، مثل مصفوفات الشبكة الكروية (BGAs). لم نتمكن من الوصول إلى ذلك، مما يعني أنه لا يمكنك اختباره. لذلك توصلنا إلى هذا المفهوم الذي يسمى جهاز التدخل - جهاز التدخل BGA - والذي سمح لنا بوضع أداة خاصة لتوجيه الإشارات. ثم يمكننا توصيله بمعدات الاختبار. سريعًا إلى اليوم، والآن لدينا HBM والشرائح الصغيرة. كيف أقوم بوضع تركيباتي في المنتصف على وسيط السيليكون؟ لا نستطيع، وهذا هو النضال. إنه التحدي الذي يبقيني مستيقظًا في الليل. كيف يمكننا إجراء تحليل الفشل في الميدان مع أحد عملاء OEM أو النظام، حيث لا يحصلون على الكفاءة بنسبة 90%. هناك المزيد من الأخطاء في الرابط، ولا يمكن تهيئتها بشكل صحيح، والتدريب لا يعمل. هل هي مشكلة سلامة النظام؟

شيرميستر: ألا تفضل القيام بذلك من المنزل باستخدام واجهة افتراضية بدلاً من المشي إلى المختبر؟ أليس الجواب هو المزيد من التحليلات التي تقوم بإنشائها في الشريحة؟ مع الشرائح الصغيرة، نقوم بدمج كل شيء بشكل أكبر. إن الحصول على مكواة اللحام الخاصة بك ليس خيارًا حقًا، لذلك يجب أن تكون هناك طريقة للتحليلات على الرقاقة. لدينا نفس المشكلة بالنسبة لـ NoC. ينظر الناس إلى NoC، وترسل البيانات ثم تختفي. نحن بحاجة إلى وضع التحليلات هناك حتى يتمكن الأشخاص من تصحيح الأخطاء، ويمتد ذلك إلى مستوى التصنيع، بحيث يمكنك أخيرًا العمل من المنزل والقيام بكل ذلك بناءً على تحليلات الرقائق.

حديد: خاصة مع الذاكرة ذات النطاق الترددي العالي، لا يمكنك الدخول فعليًا إلى هناك. عندما نقوم بترخيص PHY، لدينا أيضًا منتج يتوافق مع ذلك حتى تتمكن من مراقبة كل واحدة من تلك البتات البالغ عددها 1,024 بت. يمكنك البدء في قراءة وكتابة DRAM من الأداة حتى لا تضطر إلى الدخول إليها فعليًا. تعجبني فكرة المتدخل. نحن نقوم بإخراج بعض الدبابيس من المتدخل أثناء الاختبار، وهو ما لا يمكنك القيام به في النظام. إنه حقًا تحدي للدخول في هذه الأنظمة ثلاثية الأبعاد. حتى من وجهة نظر تدفق أدوات التصميم، يبدو أن معظم الشركات تقوم بتدفقها الفردي الخاص على الكثير من هذه الأدوات 3D. لقد بدأنا في وضع طريقة أكثر توحيدًا لبناء نظام 2.5D، بدءًا من سلامة الإشارة والطاقة والتدفق بأكمله.

تبييض: وبينما تتحرك الأمور باستمرار، آمل أن نتمكن من الحفاظ على نفس المستوى من الدقة. أنا عضو في مجموعة الامتثال لعامل الشكل UCIe. أنا أبحث في كيفية وصف النرد الجيد المعروف، النرد الذهبي. في نهاية المطاف، سيستغرق هذا وقتًا أطول بكثير، لكننا سنجد وسيطًا سعيدًا بين أداء ودقة الاختبار الذي نحتاجه، والمرونة المضمنة.

شيرميستر: إذا نظرت إلى الشرائح الصغيرة واعتمادها في بيئة إنتاج أكثر انفتاحًا، فإن الاختبار يعد أحد أكبر التحديات في طريق جعلها تعمل بشكل صحيح. إذا كنت شركة كبيرة وأتحكم في جميع جوانبها، فيمكنني تقييد الأمور بشكل مناسب بحيث يصبح الاختبار وما إلى ذلك ممكنًا. إذا كنت أرغب في الانتقال إلى شعار UCIe بأن UCI على بعد حرف واحد فقط من PCI، وأتخيل مستقبلًا يصبح فيه تجميع UCIe، من منظور التصنيع، مثل فتحات PCI في جهاز الكمبيوتر اليوم، فإن جوانب الاختبار لذلك هي حقًا التحدي. نحن بحاجة إلى إيجاد حل. هناك الكثير من العمل للقيام به.

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة