شعار زيفيرنت

الكمبيوتر الفائق Dojo من Tesla يكسر جميع معايير الصناعة المعمول بها - CleanTechnica Deep Dive ، الجزء 3

التاريخ:

إذا فاتتك الأجزاء الأولية من هذه السلسلة ، فاقرأ أولاً: الكمبيوتر الفائق Dojo من Tesla يكسر جميع معايير الصناعة المعمول بها - CleanTechnica Deep Dive ، الجزء 1 و الكمبيوتر الفائق Dojo من Tesla يكسر جميع معايير الصناعة المعمول بها - CleanTechnica Deep Dive ، الجزء 2.


شبكة SoCs معًا

الآن ، عادةً ما ترسل كل شركة نفط الجنوب إشارات عبر دبابيس في اللوحة الأم التي يتم إعادة توزيعها بعد ذلك. لا تقطع Tesla شرائح SoCs من الرقاقة وبدلاً من ذلك تقوم بتوصيل جميع SoCs على الرقاقة مع 72 عقدة شبكة بإجمالي 16 تيرا بايت / ثانية أو 4 تيرا بايت / ثانية لكل حافة يمكنها توصيلها بـ SoC المجاورة. هذا يعني أن كل عقدة شبكة على الشريحة قادرة على 222 جيجابايت / ثانية. خلال العرض التقديمي ، قال Tesla أن هذا أسرع بمرتين من رقائق تبديل الشبكات الحالية. في البداية كنت متشككًا في هذا الادعاء ، ولكن بعد إجراء بعض الأبحاث ، من الناحية النظرية ، فهم صحيحون ولم تتمكن شركات شرائح الشبكات الكبيرة مثل Broadcom و Cisco إلا من تحقيق سرعات تبلغ 25.6 تيرابت في الثانية لكل شريحة ، والتي عند التحويل تساوي 3.2 تيرابايت .

أنا أفهم سبب اندهاش Tesla لأن المعيار الذهبي لا يبدو رائعًا تمامًا مقارنة بما كانوا قادرين على صنعه ، خاصة وأن الشبكات ليست الغرض الأساسي من هذه الشريحة ، بينما هي كذلك لرقائق الشبكات. تحافظ شريحة Tesla's D1 وبلاط التدريب على الإعجاب في كل منعطف.

شبكات تدريب البلاط معا

الآن ، بالنسبة لوحدة القياس التالية ، إليك بعض المعلومات الأساسية الجيدة. محرك الأقراص الصلبة التقليدي الذي يحتوي على أقراص دوارة بداخله يمتلكه الجميع ويمكنه الوصول بسهولة إلى عدة تيرابايت بداخله هو للأسف بطيئًا إلى حد ما ، ولديه سرعة قراءة / كتابة تتراوح بين 50-150 ميجابايت / ثانية. أيضًا ، من المهم أن تضع في اعتبارك أننا نتحدث الآن عن سرعات متسلسلة مثل نقل الملفات وليس السرعات العشوائية المتعلقة بذاكرة الوصول العشوائي. بعد ذلك ، سيكون لقرص الحالة الصلبة العادي أو SSD الذي يستخدم ذاكرة فلاش NAND ومتصل عبر منفذ SATA قياسي سرعة تتراوح بين 200-500 ميجابايت / ثانية. يمكن أن تصل محركات أقراص الحالة الصلبة NVMe SSD الأحدث المتصلة عبر فتحة M.2 إلى سرعة 8 جيجابايت / ثانية ، كما أن أحدث محركات أقراص الحالة الصلبة التي تستخدم اتصال PCI-e Gen 4 الجديد لها حد نظري يبلغ 64 جيجابايت / ثانية - على الرغم من ذلك ، أسرع منتج متوفر في السوق فقط بسرعة 15 جيجا بايت / ثانية. بعد ذلك ، عند الحديث عن PCI-e Gen 4 ، تستخدم Tesla ذلك أيضًا لتوصيل بلاط التدريب (أو الرقائق). ولكن مع 40 موصلًا وعرض نطاق ترددي 32 تيرابايت / ثانية ، فهذا يعني أن كل موصل يتمتع بسرعة 900 جيجابايت / ثانية ، ولكن كيف يكون ذلك ممكنًا عندما قلت للتو أن 64 جيجابايت / ثانية هو الحد الأقصى لـ PCI-e Gen 4؟ 

حسنًا ، هذا ينطبق فقط على أكبر اتصال متاح للمستهلكين ، وهو فتحة PCI-e Gen 4 x16. هنا في الصورة أعلاه يمكنك أن ترى الفرق بين الموصلات. الآن ، كما أعلنت Tesla ، قاموا بصنع موصلاتهم المخصصة ، وهكذا يحصل كل موصل على سرعة 900 جيجابايت / ثانية. هذا في جوهره يجعل الموصل الخاص بهم ، وهو مضغوط نسبيًا جميع الأشياء التي تم أخذها في الاعتبار ، أسرع 14 مرة من أفضل موصل تقدمه اللوحة الأم العادية.


مواصفات رقاقة Tesla D1

تفتخر شريحة D1 بمواصفاتها بحقيقة أنها تحتوي على 50 مليار ترانزستور. عندما يتعلق الأمر بالمعالجات ، فإن هذا يتفوق تمامًا على الرقم القياسي الحالي الذي تحتفظ به شريحة Epyc Rome من AMD والتي تحتوي على 39.54 مليار ترانزستور. على الرغم من أنه من بين بطاقات الرسوميات ، لا يزال GA100 Ampere SoC من NVIDIA في المقدمة مع 54 مليار ترانزستور. الآن ، حقيقة استخدام عملية 7 نانومتر لتصنيع الشريحة تخبرنا أن Tesla استخدمت Samsung أو TSMC لتحقيق ذلك. أنا شخصياً أعتقد أن Samsung أكثر احتمالاً لأن سامسونج هي التي صنعت شريحة HW3 من Tesla.

قانون مور الخرف

هذه الفقرة هي جزء من الظل ، ولكن ردًا على شخص ما أضاف شريحة D1 إلى مخطط قانون مور ، رد إيلون على تويتر قائلاً إنه "متوحش جدًا". أريد فقط أن أضع شيئًا ما في نصابه - هذا الرسم البياني مضلل للغاية.

بادئ ذي بدء ، تم اختيار البيانات الموجودة عليها تمامًا لتناسب هذا الخط. توجد جميع أنواع الرقائق التي تحتوي على عدد ترانزستور مختلف في نقاط مختلفة. كما ذكرنا سابقًا ، تمتلك NVIDIA شركة SoC مع 4 مليارات ترانزستور أكثر من Tesla's D1 Chip. بعد ذلك ، فإن محاولة مقارنة أجهزة الكمبيوتر العملاقة من الدرجة الأولى بأجهزة كمبيوتر سطح المكتب العادية أو أي شيء به أنابيب مفرغة هو مجرد تفاح بالبرتقال. السبب الوحيد الذي يجعل الرسم البياني يشكل هذا الخط هو أنه استخدم مقياسًا لوغاريتميًا ، وبيانات منتقاة بالكرز ، وحتى ذلك الحين لم يتم تسمية معظمها ، وكلها حجب الحقيقة.

حاول وضع جميع رقائق Intel من نفس فئة السعر على مخطط (أو على الأقل طبقاتها العليا) وشاهد كيف ينهار قانون مور عند اللحامات. كان قانون مور صحيحًا في البداية ، ولكن مع استمرارنا في الموت يتقلص إلى عدد أقل من نانومتر وبدأنا في الاقتراب من النقطة التي يجعل فيها مبدأ عدم اليقين لهايزنبرغ من الصعب ضمان بقاء الإلكترون في الترانزستور ، تباطأ التقدم بشكل كبير ولم يحدث ذلك. اتبع خط الاتجاه هذا.

التبريد والقوة

لذلك ، لم يكن هذا واضحًا تمامًا حتى وقت لاحق في الأسئلة والأجوبة. رغم ذلك ، كنت أظن بالفعل في هذا طوال الوقت. يتم تبريد بلاط التدريب بالكامل بالسوائل. ومن المثير للاهتمام أنهم لم يقولوا الماء باردًا ، لذلك أتساءل ما هو السائل الذي يستفيدون منه. ومع ذلك ، فإن الوحي الحقيقي هنا هو مدى قدرتها على تبريد رقاقة السيليكون هذه. تتمتع Tesla بخبرة كبيرة في مجال إلكترونيات الطاقة والتبريد ، وقد استخدموا هذه الخبرة بشكل كبير هنا.

عادة ، يحتوي المعالج الموجود على جانب واحد على قطعة من السيليكون بجودة اللوحة الأم مع دبابيس تقود الإشارات إلى اللوحة الأم والتي من الواضح أنه من المستحيل تبريدها. على الجانب الآخر يوجد SoC المغطى ببعض الشحوم الحرارية (عادةً ما تكون دهون حرارية غير جيدة جدًا أيضًا) ، ثم موزع حراري معدني يجعل المعالج يبدو وكأنه معالج معدني ربما رأيته من قبل. ثم يقوم المصنع أو شخص إصلاح الكمبيوتر أو متحمس للكمبيوتر الشخصي بوضع المزيد من الشحوم الحرارية على الموزع الحراري ثم يقوم بتوصيل المعدن الأملس الخاص بلوك التبريد الموجود أعلى الموزع الحراري والذي يقوم بعد ذلك بإعادة توجيه الحرارة الممتصة إما مباشرة إلى المبرد باستخدام مروحة أو في سائل (عادة ماء) يأخذ الحرارة بعد ذلك إلى مشعاع أكبر بعيدًا عن المعالج حيث يمكنك توصيل مراوح متعددة به.

في حالة بلاط التدريب Tesla ، يكون جانب واحد من الرقاقة مع جميع SoCs مكشوفًا كما هو الحال في المعالج العادي (أكثر تعرضًا نظرًا لعدم وجود موزع حراري) ويمكن تبريده مباشرة. الجانب الآخر لديه منظمات جهد تغطي كل SoC. إذاً ، هناك ابتكاران هنا. بادئ ذي بدء ، يوجد منظم الجهد عادةً على اللوحة الأم بجوار المعالج مباشرةً ، مما يعني أن التيار يحتاج إلى الانتقال عبر اللوحة الأم ، والمقبس ، والمسامير ، وسيليكون بجودة اللوحة الأم التي توجد عليها شركة نفط الجنوب. ومع ذلك ، هذا ليس كل شيء. الابتكار الأكبر هو أيضًا الخطوة الأخيرة التي تجعل هذا الأمر كله في المقدمة ممكنًا. عادة ، يصل التيار إلى شركة نفط الجنوب من جميع الجوانب عبر المسامير. إذا سبق لك أن رأيت شريحة قديمة أساسية بها الكثير من المسامير من جميع الجوانب ، فهي في الأساس هكذا ولكن من الواضح أنها أكثر تقدمًا مع الكثير من الدبابيس. في هذه الحالة ، تنتقل الطاقة مباشرة إلى SoC. كيف تمكنوا من القيام بذلك غير واضح ، لكنه مثير للإعجاب نوعًا ما ، واعتمادًا على كيفية القيام بذلك ، قد يتسبب هذا أيضًا في انخفاض الحرارة إذا كان من الممكن إدخال الجهد في نقاط متعددة من الشريحة بحيث لا يتعين على التيار أن ينتقل بقدر ما. بالنسبة للحرارة التي تنبعث منها جميع منظمات الجهد هذه ، توجد كتلة تبريد بها بعض الثقوب للموصلات في جميع أنحاء منظمات الجهد لإبعاد الحرارة من هذا الجانب أيضًا. كما قلت ، تحتوي كتلة التبريد على ثقوب ووحدة إمداد طاقة واحدة تعمل على تشغيل جميع منظمات الجهد في وقت واحد ، ويتم توصيلها مباشرة في الأعلى وفوق ذلك يوجد مرة أخرى كتلة تبريد أخرى لتبريد وحدة إمداد الطاقة ، على الرغم من أنها تبدو مشبوهة مثل المبرد.

تسلا يتخبط في اختبار فلوبس

الآن وقد مررنا بجميع التفاصيل الدقيقة ، أصبحنا الآن قادرين أخيرًا على مقارنة Dojo حقًا بالمنافسة.

يحتوي مربع التدريب الفردي على 9 PetaFLOPS من القدرة الحسابية. الآن ، لقد تخطيت نوعًا ما ما هو PetaFLOP حتى لأنك ، أيها القارئ العزيز ، لم تكن بعد في حفرة الأرانب ، ولكن الآن بعد أن أصبحت كذلك ، يتكون PetaFLOP من جزأين - بيتا، وهو الرقم الذي يأتي بعد Terra و Giga و Mega و Kilo ؛ من ثم فلوبس لتقف على عمليات النقطة العائمة في الثانية. هذا يختلف عن TOP ، المعروف أيضًا باسم عملية Terra في الثانية - تلك مخصصة لحساب INT8 و INT16 و INT32 ويمكننا نسيانها الآن (على الرغم من أنني يجب أن أذكر أن NVIDIA للأسف تصدر أحيانًا الأداء فقط في TOPS بدلاً من FLOPS). لن أحاول الحصول على معلومات تقنية وشرح ما تمثله قيم الأداء هذه ، سأحرص فقط على ألا ينتهي بك الأمر بطريق الخطأ إلى مقارنة التفاح بالبرتقال كما فعلت تسلا نوعًا ما. كما ترى ، عندما يمنحك شخص ما رقم FLOP ، فأنت بحاجة إلى التأكد مما إذا كان يقصد FP64 أو FP32 أو FP16 لأن كل منها ضعف ضعف الرقم التالي. ومع ذلك ، نظرًا لأن Dojo يدعم فقط FP32 والنسخة المختلطة من FP32 و FP16 ، والتي أشار إليها Tesla باسم BFP16 ، فقد افترضت في الأصل أن 1.1 ExaFLOP يمثل أداء FP32. كان من الممكن أن تكون هذه أخبارًا رائعة لأن الاختبار الأكثر شيوعًا الذي يمر به الكمبيوتر العملاق هو اختبار HPL-AI الذي يمنحنا مجموعة من درجات FP32 PetaFLOP التي يمكننا مقارنتها بها. ومع ذلك ، عند الفحص الدقيق ، كان رقم تسلا 1.1 ExaFLOP هو BF16 / CFP8 وليس FP32. الحمد لله أنه في شريحة واحدة قدموا أداء FP32 لشريحة واحدة ، وهو 22.6 تيرافلوبس ، ويصادف أنه بجوار درجة BF16 / CFP8 ، والتي تبلغ 362 تيرافلوبس.

الآن ، لا يتم دائمًا قياس الأداء لكل SoC والأداء ككل بشكل متساوٍ ، وكل مهمة من هذه المهام ليست متساوية تمامًا أيضًا. الرياضيات التي أجريناها هنا بسيطة جدًا ، على الرغم من ذلك - إذا قسمت نقاط الحواسيب العملاقة على درجة واحدة وضاعفتها في نتيجة FP32 ، فستحصل على 68.674 PetaFLOPS. في الواقع ، يمكن أن يكون هذا الرقم أكثر أو أقل قليلاً. ومع ذلك ، كما ذكرت بسرعة في المقدمة ، نظرًا لأن المركزين الخامس والسادس قريبان جدًا من هذا الرقم ، فمن المحتمل أن يكون Dojo في أي مكان من الرابع إلى السابع من أقوى أجهزة الكمبيوتر العملاقة في العالم. رغم ذلك ، سيكون رهاني هو المركز الرابع.

ترقبوا الجزء الأخير من هذه السلسلة ، سينشر قريبًا….

 

هل تقدر أصالة CleanTechnica؟ النظر في أن تصبح عضو في CleanTechnica أو داعم أو فني أو سفير - أو راعي على Patreon.

 

 


الإعلانات


 


هل لديك نصيحة بخصوص CleanTechnica ، أو تريد الإعلان ، أو تريد اقتراح ضيف على بودكاست CleanTech Talk؟ اتصل بنا هنا.

أفلاطون. Web3 مُعاد تصوره. تضخيم ذكاء البيانات.
انقر هنا للوصول.

المصدر: https://cleantechnica.com/2021/08/22/teslas-dojo-supercomputer-breaks-all-established-industry-standards-cleantechnica-deep-dive-part-3/

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة