Λογότυπο Zephyrnet

Η εκκίνηση του cloud TensorWave με τεχνητή νοημοσύνη Η AMD μπορεί να νικήσει τη Nvidia

Ημερομηνία:

Εμφανίζονται εξειδικευμένοι χειριστές cloud, ειδικευμένοι στη λειτουργία ζεστών και απαιτητικών GPU και άλλων υποδομών τεχνητής νοημοσύνης, και ενώ ορισμένοι από αυτούς τους παίκτες όπως οι CoreWeave, Lambda ή Voltage Park — έχουν δημιουργήσει τα cluster τους χρησιμοποιώντας δεκάδες χιλιάδες GPU της Nvidia, άλλοι στρέφονται σε AMD αντί.

Ένα παράδειγμα του τελευταίου είναι η εκκίνηση του Bit Barn TensorWave, η οποία νωρίτερα αυτόν τον μήνα άρχισε να συσσωρεύει συστήματα που τροφοδοτούνται από το Instinct MI300X της AMD, το οποίο σχεδιάζει να μισθώσει τα τσιπ με ένα κλάσμα του κόστους που χρεώνεται για την πρόσβαση σε επιταχυντές Nvidia.

Ο συνιδρυτής της TensorWave, Jeff Tatarchuk, πιστεύει ότι οι πιο πρόσφατοι επιταχυντές της AMD έχουν πολλές εξαιρετικές ιδιότητες. Για αρχή, μπορείτε πραγματικά να τα αγοράσετε. Το TensorWave έχει εξασφαλίσει μεγάλη κατανομή των εξαρτημάτων.

Μέχρι το τέλος του 2024, η TensorWave στοχεύει να έχει 20,000 επιταχυντές MI300X σε δύο εγκαταστάσεις και σχεδιάζει να φέρει στο διαδίκτυο πρόσθετα υγρόψυκτα συστήματα το επόμενο έτος.

Το τελευταίο πυρίτιο AI της AMD είναι επίσης ταχύτερο από το πολυπόθητο H100 της Nvidia. «Απλώς στις ακατέργαστες προδιαγραφές, το MI300x κυριαρχεί στο H100», είπε ο Tatarchuk.

Το MI300X που κυκλοφόρησε στην εκδήλωση Advancing AI της AMD τον Δεκέμβριο, είναι ο πιο προηγμένος επιταχυντής της εταιρείας σχεδιασμού τσιπ μέχρι σήμερα. ο Τσιπ 750W χρησιμοποιεί έναν συνδυασμό προηγμένων συσκευασιών για να συνδυάσει 12 chiplet — 20 αν μετρήσετε τις μονάδες HBM3 — σε μια ενιαία GPU που υποστηρίζεται ότι είναι 32 τοις εκατό ταχύτερη από το H100 της Nvidia.

Εκτός από την υψηλότερη απόδοση κινητής υποδιαστολής, το τσιπ διαθέτει επίσης μεγαλύτερη 192 ​​GB μνήμης HBM3 ικανή να παρέχει 5.3 TB/s εύρους ζώνης έναντι των 80 GB και 3.35 TB/s που υποστηρίζει το H100.

Όπως είδαμε από το H200 της Nvidia – μια έκδοση του H100 που ενισχύεται από την συμπερίληψη του HBM3e – το εύρος ζώνης της μνήμης είναι κύριος συντελεστής στην απόδοση της τεχνητής νοημοσύνης, ιδιαίτερα στην εξαγωγή συμπερασμάτων σε μεγάλα γλωσσικά μοντέλα.

Όπως τα σχέδια HGX της Nvidia και OAM της Intel, οι τυπικές διαμορφώσεις της τελευταίας GPU της AMD απαιτούν οκτώ επιταχυντές ανά κόμβο.

Αυτή είναι η διαμόρφωση που οι άνθρωποι στο TensorWave είναι απασχολημένοι με το rack και τη στοίβαξη.

«Έχουμε εκατοντάδες που μπαίνουν τώρα και χιλιάδες στους επόμενους μήνες», είπε ο Tatarchuk.

Μαζεύοντάς τα

Σε μια φωτογραφία δημοσιεύτηκε στα μέσα κοινωνικής δικτύωσης, το πλήρωμα του TensorWave έδειξε αυτό που φαινόταν να είναι τρία 8U Supermicro AS-8125GS-TNMR2 συστήματα συσσωρεύονται. Αυτό μας οδήγησε να αναρωτηθούμε εάν τελικά τα rack του TensorWave είχαν ισχύ ή θερμικά περιορισμένα, δεν είναι ασυνήθιστο για αυτά τα συστήματα να τραβούν πάνω από 10 kW όταν είναι πλήρως φορτωμένα.

Αποδεικνύεται ότι οι άνθρωποι στο TensorWave δεν είχαν ολοκληρώσει την εγκατάσταση των μηχανημάτων και ότι η εταιρεία στοχεύει τέσσερις κόμβους με συνολική χωρητικότητα περίπου 40 kW ανά rack. Αυτά τα συστήματα θα ψύχονται χρησιμοποιώντας εναλλάκτες θερμότητας πίσω πόρτας (RDHx). Όπως έχουμε συζήτηση Στο παρελθόν, αυτά ήταν θερμαντικά σώματα μεγέθους ραφιού μέσω των οποίων ρέει δροσερό νερό. Καθώς ο ζεστός αέρας εξέρχεται από έναν συμβατικό διακομιστή, περνά μέσα από το ψυγείο που τον ψύχει σε αποδεκτά επίπεδα.

Αυτή η τεχνολογία ψύξης έχει γίνει ένα καυτό εμπόρευμα μεταξύ των χειριστών κέντρων δεδομένων που θέλουν να υποστηρίξουν πυκνότερα συμπλέγματα GPU και οδήγησε σε ορισμένες προκλήσεις της εφοδιαστικής αλυσίδας, δήλωσε ο Διευθύνων Σύμβουλος της TensorWave, Piotr Tomasik.

«Υπάρχουν πολλά ζητήματα χωρητικότητας, ακόμη και στον βοηθητικό εξοπλισμό γύρω από τα κέντρα δεδομένων αυτή τη στιγμή», είπε, αναφέροντας συγκεκριμένα το RDHx ως σημείο πόνου. «Έχουμε πετύχει μέχρι στιγμής και ήμασταν πολύ θετικοί στην ικανότητά μας να τα αναπτύξουμε».

Μακροπρόθεσμα, ωστόσο, το TensorWave έχει στραμμένο το βλέμμα του στην ψύξη απευθείας στο τσιπ, η οποία μπορεί να είναι δύσκολο να αναπτυχθεί σε κέντρα δεδομένων που δεν έχουν σχεδιαστεί για να φιλοξενούν GPU, είπε ο Tomasik. «Είμαστε ενθουσιασμένοι που θα αναπτύξουμε απευθείας ψύξη chip το δεύτερο εξάμηνο του έτους. Πιστεύουμε ότι αυτό θα είναι πολύ καλύτερο και ευκολότερο με την πυκνότητα».

Άγχος απόδοσης

Μια άλλη πρόκληση είναι η εμπιστοσύνη στην απόδοση της AMD. Σύμφωνα με τον Tatarchuk, ενώ υπάρχει πολύς ενθουσιασμός γύρω από την AMD που προσφέρει μια εναλλακτική λύση στη Nvidia, οι πελάτες δεν είναι σίγουροι ότι θα απολαύσουν την ίδια απόδοση. "Υπάρχουν επίσης πολλά "Δεν είμαστε 100 τοις εκατό σίγουροι αν θα είναι τόσο υπέροχο όσο αυτό που έχουμε συνηθίσει αυτήν τη στιγμή στη Nvidia", είπε.

Προκειμένου να τεθούν σε λειτουργία τα συστήματα όσο το δυνατόν γρηγορότερα, η TensorWave θα εκκινήσει τους κόμβους MI300X χρησιμοποιώντας RDMA μέσω Converged Ethernet (RoCE). Αυτά τα γυμνά μεταλλικά συστήματα θα είναι διαθέσιμα για σταθερές περιόδους μίσθωσης, προφανώς για μόλις $1/ώρα/GPU.

Μεγέθυνση

Με την πάροδο του χρόνου, η στολή στοχεύει να εισαγάγει ένα επίπεδο ενορχήστρωσης που μοιάζει με σύννεφο για την παροχή πόρων. Η εφαρμογή της τεχνολογίας FabreX που βασίζεται σε PCIe 5.0 της GigaIO για τη συρραφή έως και 5,750 GPU σε έναν τομέα με περισσότερο από ένα petabyte μνήμης υψηλού εύρους ζώνης είναι επίσης στην ημερήσια διάταξη.

Αυτά τα λεγόμενα TensorNODEs βασίζονται στην αρχιτεκτονική SuperNODE του GigaIO έκανε επίδειξη πέρυσι, η οποία χρησιμοποίησε ένα ζεύγος συσκευών διακόπτη PCIe για τη σύνδεση έως και 32 GPU της AMD MI210 μαζί. Θεωρητικά, αυτό θα επιτρέψει σε έναν μόνο κόμβο κεφαλής CPU να απευθύνεται σε πολύ περισσότερους από τους οκτώ επιταχυντές που εμφανίζονται συνήθως στους κόμβους GPU σήμερα.

Αυτή η προσέγγιση διαφέρει από την προτιμώμενη σχεδίαση της Nvidia, η οποία χρησιμοποιεί το NVLink για να συνδυάσει πολλά superchips σε μια μεγάλη GPU. Ενώ το NVLink ολοκληρώνεται σημαντικά πιο γρήγορα με εύρος ζώνης 1.8 TB/s τελευταία επανάληψη σε σύγκριση με μόλις 128 GB/s στο PCIe 5.0, υποστηρίζει μόνο διαμορφώσεις έως και 576 GPU.

Η TensorWave θα χρηματοδοτήσει την κατασκευή του bit barn χρησιμοποιώντας τις GPU της ως εγγύηση για έναν μεγάλο γύρο χρηματοδότησης χρέους, μια προσέγγιση που χρησιμοποιείται από άλλους χειριστές κέντρων δεδομένων. Μόλις την περασμένη εβδομάδα, Λάμδα αποκάλυψε είχε εξασφαλίσει ένα δάνειο 500 εκατομμυρίων δολαρίων για να χρηματοδοτήσει την ανάπτυξη «δεκάδων χιλιάδων» των ταχύτερων επιταχυντών της Nvidia.

Εν τω μεταξύ, η CoreWeave, ένας από τους μεγαλύτερους παρόχους GPU προς ενοικίαση, μπόρεσε να προστατευμένο περιβάλλον ένα τεράστιο δάνειο 2.3 δισεκατομμυρίων δολαρίων για την επέκταση του αποτυπώματος του κέντρου δεδομένων.

«Θα το κάνετε, θα πρέπει να περιμένετε να έχουμε το ίδιο είδος ανακοίνωσης εδώ αργότερα φέτος», είπε ο Tomasik. ®

spot_img

Τελευταία Νοημοσύνη

spot_img