شعار زيفيرنت

شركة TensorWave الناشئة في مجال الذكاء الاصطناعي تراهن على قدرة AMD على التغلب على Nvidia

التاريخ:

يظهر مشغلو السحابة المتخصصون الماهرون في تشغيل وحدات معالجة الرسومات الساخنة والمتعطشة للطاقة وغيرها من البنية التحتية للذكاء الاصطناعي، وبينما قام بعض هؤلاء اللاعبين مثل CoreWeave أو Lambda أو فولتاج بارك - ببناء مجموعاتهم باستخدام عشرات الآلاف من وحدات معالجة الرسومات Nvidia، يتجه البعض الآخر إلى أيه إم دي بدلاً من ذلك.

مثال على هذا الأخير هو شركة TensorWave الناشئة في شركة Bit Barn والتي بدأت في وقت سابق من هذا الشهر في تجميع الأنظمة التي تدعمها AMD's Instinct MI300X، والتي تخطط لتأجير الرقائق بجزء صغير من التكلفة المفروضة للوصول إلى مسرعات Nvidia.

يعتقد جيف تاتارتشوك، المؤسس المشارك لـ TensorWave، أن أحدث مسرعات AMD تتمتع بالعديد من الصفات الجيدة. بالنسبة للمبتدئين، يمكنك فعلا شرائها. قامت TensorWave بتأمين تخصيص كبير للأجزاء.

بحلول نهاية عام 2024، تهدف TensorWave إلى نشر 20,000 مسرع MI300X عبر منشأتين، وتخطط لجلب أنظمة تبريد سائلة إضافية عبر الإنترنت في العام المقبل.

كما أن أحدث سليكون الذكاء الاصطناعي من AMD أسرع أيضًا من H100 المرغوب فيه كثيرًا من Nvidia. وقال تاتارتشوك: "فقط في المواصفات الأولية، يهيمن جهاز MI300x على H100".

تم إطلاق MI300X في حدث AMD Advancing AI في ديسمبر، وهو المسرع الأكثر تقدمًا لشركة تصميم الرقائق حتى الآن. ال شريحة 750 واط يستخدم مجموعة من العبوات المتقدمة لتجميع 12 شريحة صغيرة معًا - 20 إذا حسبت وحدات HBM3 - في وحدة معالجة رسومات واحدة يُقال إنها أسرع بنسبة 32 بالمائة من Nvidia's H100.

بالإضافة إلى أداء الفاصلة العائمة الأعلى، تتميز الشريحة أيضًا بذاكرة HBM192 أكبر بسعة 3 جيجابايت قادرة على توفير نطاق ترددي يبلغ 5.3 تيرابايت/ثانية مقابل 80 جيجابايت و3.35 تيرابايت/ثانية التي يطالب بها H100.

كما رأينا من Nvidia's H200 - نسخة من H100 معززة بتضمين HBM3e - فإن عرض النطاق الترددي للذاكرة هو مساهما رئيسيا لأداء الذكاء الاصطناعي، وخاصة في الاستدلال على نماذج اللغة الكبيرة.

تمامًا مثل تصميمات Nvidia's HGX وIntel's OAM، تتطلب التكوينات القياسية لأحدث وحدة معالجة رسومات من AMD ثمانية مسرعات لكل عقدة.

هذا هو التكوين الذي ينشغل به الأشخاص في TensorWave في الأرفف والتكديس.

وقال تاتارتشوك: "لدينا المئات الآن وسيذهب الآلاف في الأشهر المقبلة".

الأرفف لهم

في صورة نشر على وسائل التواصل الاجتماعي، أظهر طاقم TensorWave ما يبدو أنه ثلاثة 8U Supermicro AS-8125GS-TNMR2 نظم حقق. قادنا هذا إلى التساؤل عما إذا كانت رفوف TensorWave ذات طاقة أو محدودة حرارياً بعد كل شيء، فليس من غير المعتاد أن تسحب هذه الأنظمة ما يزيد عن 10 كيلو واط عند تحميلها بالكامل.

اتضح أن الأشخاص في TensorWave لم ينتهوا من تثبيت الآلات وأن الشركة تستهدف أربع عقد بسعة إجمالية تبلغ حوالي 40 كيلو واط لكل رف. سيتم تبريد هذه الأنظمة باستخدام المبادلات الحرارية للأبواب الخلفية (RDHx). كما فعلنا ناقش في الماضي، كانت هذه مشعات بحجم الرف يتدفق من خلالها الماء البارد. عندما يخرج الهواء الساخن من الخادم التقليدي، فإنه يمر عبر المبرد الذي يبرده إلى مستويات مقبولة.

قال Piotr Tomasik، مدير العمليات في TensorWave، إن تقنية التبريد هذه أصبحت سلعة رائجة بين مشغلي مراكز البيانات الذين يتطلعون إلى دعم مجموعات GPU الأكثر كثافة وأدت إلى بعض التحديات في سلسلة التوريد.

وقال: "هناك الكثير من مشكلات السعة، حتى في المعدات الإضافية حول مراكز البيانات في الوقت الحالي"، مشيرًا على وجه التحديد إلى RDHx كنقطة ضعف. "لقد نجحنا حتى الآن وكنا متفائلين للغاية بشأن قدرتنا على نشرها."

ومع ذلك، على المدى الطويل، قال توماسيك إن TensorWave تضع نصب أعينها التركيز على التبريد المباشر للرقاقة والذي قد يكون من الصعب نشره في مراكز البيانات التي لم تكن مصممة لإيواء وحدات معالجة الرسومات. "نحن متحمسون للنشر المباشر لتبريد الرقائق في النصف الثاني من العام. نعتقد أن هذا سيكون أفضل بكثير وأسهل مع الكثافة.»

قلق الأداء

التحدي الآخر هو الثقة في أداء AMD. وفقًا لتاتارتشوك، في حين أن هناك الكثير من الحماس حول تقديم AMD بديلاً لـ Nvidia، إلا أن العملاء ليسوا متأكدين من أنهم سيستمتعون بنفس الأداء. وقال: "هناك أيضًا الكثير من العبارات التي تقول "لسنا متأكدين بنسبة 100 بالمائة مما إذا كانت ستكون رائعة مثل ما اعتدنا عليه حاليًا في Nvidia".

من أجل تشغيل الأنظمة في أسرع وقت ممكن، ستطلق TensorWave عقد MI300X الخاصة بها باستخدام RDMA عبر Converged Ethernet (RoCE). ستكون هذه الأنظمة المعدنية متاحة لفترات إيجار ثابتة، على ما يبدو مقابل مبلغ زهيد يصل إلى دولار واحد في الساعة لكل وحدة معالجة رسومية.

زيادة

وبمرور الوقت، تهدف المجموعة إلى تقديم طبقة تنسيق أكثر شبهًا بالسحابة لتوفير الموارد. إن تنفيذ تقنية FabreX المستندة إلى PCIe 5.0 من GigaIO لدمج ما يصل إلى 5,750 وحدة معالجة رسومات في مجال واحد مع أكثر من بيتابايت من ذاكرة النطاق الترددي العالي مدرج أيضًا على جدول الأعمال.

تعتمد ما يسمى TensorNODEs على بنية SuperNODE الخاصة بـ GigaIO تباهى في العام الماضي، والتي استخدمت زوجًا من أجهزة تبديل PCIe لتوصيل ما يصل إلى 32 وحدة معالجة رسومات AMD MI210 معًا. من الناحية النظرية، يجب أن يسمح هذا لعقدة رأس وحدة المعالجة المركزية الواحدة بمعالجة أكثر بكثير من المسرعات الثمانية التي يتم مشاهدتها عادةً في عقد وحدة معالجة الرسومات اليوم.

يختلف هذا الأسلوب عن التصميم المفضل لشركة Nvidia، والذي يستخدم NVLink لدمج عدة شرائح فائقة معًا في وحدة معالجة رسومات واحدة كبيرة. في حين أن NVLink أسرع بكثير حيث يصل إلى 1.8 تيرابايت/ثانية من عرض النطاق الترددي أحدث التكرار بالمقارنة مع 128 جيجابايت/ثانية فقط على PCIe 5.0، فهو يدعم فقط التكوينات التي تصل إلى 576 وحدة معالجة رسومات.

ستقوم TensorWave بتمويل بناء الحظيرة الخاصة بها باستخدام وحدات معالجة الرسومات الخاصة بها كضمان لجولة كبيرة من تمويل الديون، وهو نهج يستخدمه مشغلو مراكز البيانات الآخرون. فقط في الأسبوع الماضي، لامدا كشف لقد حصلت على قرض بقيمة 500 مليون دولار لتمويل نشر "عشرات الآلاف" من أسرع مسرعات Nvidia.

وفي الوقت نفسه، تمكنت شركة CoreWeave، وهي واحدة من أكبر الشركات التي تقدم وحدات معالجة الرسومات للإيجار، من القيام بذلك تأمين قرض ضخم بقيمة 2.3 مليار دولار لتوسيع نطاق مركز البيانات الخاص بها.

وقال توماسيك: "يجب أن تتوقعوا منا أن نصدر نفس النوع من الإعلان هنا في وقت لاحق من هذا العام". ®

بقعة_صورة

أحدث المعلومات الاستخباراتية

بقعة_صورة