Λογότυπο Zephyrnet

Συνέντευξη με τον εκτελεστή λογισμικού Nvidia, Kari Briski

Ημερομηνία:

συνέντευξη Το συνέδριο τεχνολογίας GPU της Nvidia ολοκληρώθηκε την περασμένη εβδομάδα, φέρνοντας νέα για τα τσιπ Blackwell της εταιρείας και τα πολυσύχναστα θαύματα της τεχνητής νοημοσύνης, με όλο το ακριβά αγορασμένο υλικό GPU που συνεπάγεται.

Είναι τέτοιος ο θόρυβος γύρω από την εταιρεία που η τιμή της μετοχής της φλερτάρει με υψηλά ρεκόρ, με βάση την αντίληψη ότι πολλές δημιουργικές προσπάθειες μπορούν να γίνουν πιο γρήγορα, αν όχι καλύτερες, με την αυτοματοποίηση που επιτρέπουν τα μοντέλα μηχανικής μάθησης.

Αυτό εξακολουθεί να δοκιμάζεται στην αγορά.

Τζορτζ Σανταγιάνα κάποτε Έγραψε: «Όσοι δεν μπορούν να θυμηθούν το παρελθόν είναι καταδικασμένοι να το επαναλάβουν». Είναι μια φράση που επαναλαμβάνεται συχνά. Ωστόσο, η ανάμνηση των πραγμάτων του παρελθόντος δεν έχει ξεχωρίσει πραγματικά τα μοντέλα AI. Μπορούν να θυμούνται το παρελθόν, αλλά εξακολουθούν να είναι καταδικασμένοι να το επαναλαμβάνουν κατά παραγγελία, μερικές φορές λανθασμένα.

Ακόμα κι έτσι, πολλοί ορκίζονται στην παντοδύναμη τεχνητή νοημοσύνη, ιδιαίτερα εκείνοι που πωλούν υλικό τεχνητής νοημοσύνης ή υπηρεσίες cloud. Η Nvidia, μεταξύ άλλων, ποντάρει μεγάλα σε αυτό. Έτσι Το μητρώο έκανε μια σύντομη επίσκεψη στο συνέδριο της GPU για να δει τι ήταν όλη η φασαρία. Σίγουρα δεν επρόκειτο για τις μπάρες λεμονιού που σερβίρονται στην αίθουσα εκθέσεων την Πέμπτη, πολλές από τις οποίες ολοκλήρωσαν την αρχική τους δημόσια προσφορά ημιτελή στους κάδους του ορόφου της έκθεσης.

Πολύ πιο συναρπαστική ήταν μια συζήτηση Το μητρώο είχε με τον Kari Briski, αντιπρόεδρο διαχείρισης προϊόντων για κιτ ανάπτυξης λογισμικού AI και HPC στη Nvidia. Είναι επικεφαλής της διαχείρισης προϊόντων λογισμικού για τα θεμελιώδη μοντέλα της εταιρείας, τις βιβλιοθήκες, τα SDK και τώρα τις μικροϋπηρεσίες που ασχολούνται με την εκπαίδευση και τα συμπεράσματα, όπως τα πρόσφατα ανακοινωθέντα NIM μικροϋπηρεσιών και των καλύτερα καθιερωμένων nemo πλαίσιο ανάπτυξης.

Το μητρώο: Πώς θα καταναλώσουν οι εταιρείες αυτές τις μικροϋπηρεσίες – στο cloud, στις εγκαταστάσεις;

Μπρίσκι: Αυτή είναι στην πραγματικότητα η ομορφιά του γιατί κατασκευάσαμε τα NIM. Είναι κάπως αστείο να λέμε «τα NIM». Αλλά ξεκινήσαμε αυτό το ταξίδι εδώ και πολύ καιρό. Δουλεύαμε στο συμπέρασμα από τότε που ξεκίνησα – νομίζω ότι ήταν το TensorRT 1.0 όταν ξεκίνησα το 2016.

Με τα χρόνια αυξάνουμε τη στοίβα συμπερασμάτων μας, μαθαίνοντας περισσότερα για κάθε διαφορετικό είδος φόρτου εργασίας, ξεκινώντας από την όραση υπολογιστή και τα συστήματα και την ομιλία βαθιάς σύστασης, την αυτόματη αναγνώριση ομιλίας και τη σύνθεση ομιλίας και τώρα μεγάλα γλωσσικά μοντέλα. Ήταν μια πραγματικά στοίβα που εστιάζει στους προγραμματιστές. Και τώρα που οι επιχειρήσεις [έχουν δει] το OpenAI και το ChatGPT, κατανοούν την ανάγκη να τρέχουν αυτά τα μεγάλα μοντέλα γλώσσας δίπλα στα εταιρικά δεδομένα τους ή στις εταιρικές εφαρμογές τους.

Ο μέσος πάροχος υπηρεσιών cloud, για τις διαχειριζόμενες υπηρεσίες του, είχε εκατοντάδες μηχανικούς που εργάζονται σε τεχνικές εξαγωγής συμπερασμάτων και βελτιστοποίησης. Οι επιχειρήσεις δεν μπορούν να το κάνουν αυτό. Πρέπει να πάρουν το χρόνο για την αξία αμέσως. Αυτός είναι ο λόγος για τον οποίο ενσωματώσαμε όλα όσα μάθαμε όλα αυτά τα χρόνια με το TensorRT, τα μεγάλα μοντέλα γλώσσας, τον διακομιστή μας Triton Inference, το τυπικό API και τους ελέγχους υγείας. [Η ιδέα είναι να μπορείτε] να ενσωματώνετε όλα αυτά, ώστε να μπορείτε να φτάσετε από το μηδέν σε ένα μεγάλο τελικό σημείο γλωσσικού μοντέλου σε λιγότερο από πέντε λεπτά.

[Όσον αφορά το κέντρο δεδομένων on-prem έναντι cloud], πολλοί από τους πελάτες μας είναι υβριδικό cloud. Έχουν προτιμήσει τον υπολογισμό. Έτσι, αντί να στέλνουν τα δεδομένα σε μια διαχειριζόμενη υπηρεσία, μπορούν να εκτελούν την microservice κοντά στα δεδομένα τους και μπορούν να την εκτελούν όπου θέλουν.

Το μητρώο: Πώς μοιάζει η στοίβα λογισμικού της Nvidia για AI όσον αφορά τις γλώσσες προγραμματισμού; Είναι ακόμα σε μεγάλο βαθμό CUDA, Python, C και C++; Ψάχνετε αλλού για μεγαλύτερη ταχύτητα και αποτελεσματικότητα;

Μπρίσκι: Εξερευνούμε πάντα οπουδήποτε χρησιμοποιούν οι προγραμματιστές. Αυτό ήταν πάντα το κλειδί μας. Από τότε λοιπόν που ξεκίνησα στη Nvidia, εργάζομαι σε επιταχυνόμενες μαθηματικές βιβλιοθήκες. Πρώτα, έπρεπε να προγραμματίσετε σε CUDA για να αποκτήσετε παραλληλισμό. Και τότε είχαμε C API. Και είχαμε ένα Python API. Επομένως, πρόκειται για τη μετάβαση της πλατφόρμας όπου κι αν βρίσκονται οι προγραμματιστές. Αυτήν τη στιγμή, οι προγραμματιστές θέλουν απλώς να χτυπήσουν ένα πολύ απλό τελικό σημείο API, όπως με μια εντολή curl ή μια εντολή Python ή κάτι παρόμοιο. Πρέπει λοιπόν να είναι εξαιρετικά απλό, γιατί κάπως έτσι συναντάμε τους προγραμματιστές σήμερα.

Το μητρώο: Το CUDA παίζει προφανώς τεράστιο ρόλο στην αποτελεσματικότητα του υπολογισμού της GPU. Τι κάνει η Nvidia για να προωθήσει το CUDA;

Μπρίσκι: Το CUDA είναι η βάση για όλες τις GPU μας. Είναι μια GPU με δυνατότητα CUDA, προγραμματιζόμενη από CUDA. Πριν από μερικά χρόνια, το ονομάσαμε CUDA-X, επειδή είχατε αυτές τις συγκεκριμένες γλώσσες για τον τομέα. Αν λοιπόν έχετε ιατρική απεικόνιση [εφαρμογή], έχετε cuCIM. Εάν έχετε αυτόματη αναγνώριση ομιλίας, έχετε έναν αποκωδικοποιητή ταχείας αναζήτησης δέσμης CUDA στο τέλος της. Και έτσι υπάρχουν όλα αυτά τα συγκεκριμένα πράγματα για κάθε διαφορετικό τύπο φόρτου εργασίας που έχουν επιταχυνθεί από το CUDA. Έχουμε δημιουργήσει όλες αυτές τις εξειδικευμένες βιβλιοθήκες όλα αυτά τα χρόνια όπως cuDF και cuML, και cu-αυτό-και-εκείνο. Όλες αυτές οι βιβλιοθήκες CUDA είναι το θεμέλιο αυτού που χτίσαμε όλα αυτά τα χρόνια και τώρα χτίζουμε πάνω από αυτό.

Το μητρώο: Πώς βλέπει η Nvidia τις εκτιμήσεις κόστους όσον αφορά τον τρόπο που σχεδιάζει το λογισμικό και το υλικό της; Με κάτι σαν το Nvidia AI Enterprise, είναι 4,500 $ ανά GPU κάθε χρόνο, το οποίο είναι σημαντικό.

Μπρίσκι: Πρώτον, για μικρότερες εταιρείες, έχουμε πάντα το Έναρξη πρόγραμμα. Συνεργαζόμαστε πάντα με πελάτες – μια δωρεάν δοκιμή 90 ημερών, είναι πραγματικά πολύτιμη για εσάς; Αξίζει πραγματικά τον κόπο; Στη συνέχεια, για να μειώσουμε το κόστος σας όταν το αγοράζετε, βελτιστοποιούμε πάντα το λογισμικό μας. Επομένως, εάν αγοράζατε τα 4,500 $ ανά CPU ανά έτος και ανά άδεια χρήσης, και τρέχετε με A100 και τρέχετε με H100 αύριο, είναι η ίδια τιμή – το κόστος σας έχει μειωθεί [σε σχέση με την απόδοση σας]. Έτσι, ενσωματώνουμε πάντα αυτές τις βελτιστοποιήσεις και το συνολικό κόστος ιδιοκτησίας και απόδοσης στο λογισμικό.

Όταν σκεφτόμαστε τόσο την εκπαίδευση όσο και το συμπέρασμα, η εκπαίδευση διαρκεί λίγο περισσότερο, αλλά έχουμε αυτούς τους αυτόματους διαμορφωτές για να μπορούμε να πούμε, «Πόσα δεδομένα έχετε; Πόσο υπολογισμό χρειάζεστε; Πόσο καιρό θέλεις να πάρει;» Έτσι, μπορείτε να έχετε μικρότερο αποτύπωμα υπολογισμού, αλλά ίσως χρειαστεί περισσότερος χρόνος για να εκπαιδεύσετε το μοντέλο σας… Θα θέλατε να το εκπαιδεύσετε σε μια εβδομάδα; Ή θα θέλατε να το εκπαιδεύσετε σε μια μέρα; Και έτσι μπορείτε να κάνετε αυτές τις ανταλλαγές.

Το μητρώο: Όσον αφορά τα τρέχοντα προβλήματα, υπάρχει κάτι συγκεκριμένο που θα θέλατε να λύσετε ή υπάρχει κάποια τεχνική πρόκληση που θα θέλατε να ξεπεράσετε;

Μπρίσκι: Αυτήν τη στιγμή, καθοδηγείται από εκδηλώσεις RAGs [που είναι ένας τρόπος ενίσχυσης μοντέλων AI με δεδομένα που λαμβάνονται από εξωτερική πηγή]. Πολλές επιχειρήσεις σκέφτονται απλώς την κλασική προτροπή για να δημιουργήσουν μια απάντηση. Αλλά στην πραγματικότητα, αυτό που θέλουμε να κάνουμε είναι να [αλυσοδέψουμε] όλα αυτά τα συστήματα παραγωγής επαυξημένης ανάκτησης όλα μαζί. Γιατί αν σκέφτεστε εσάς και μια εργασία που ίσως θέλετε να ολοκληρώσετε: «Ω, πρέπει να πάω να μιλήσω με την ομάδα της βάσης δεδομένων. Και αυτή η ομάδα βάσης δεδομένων πρέπει να πάει να μιλήσει με την ομάδα του Tableau. Πρέπει να με κάνουν ένα ταμπλό» και όλα αυτά πρέπει να συμβούν πριν μπορέσετε να ολοκληρώσετε πραγματικά την εργασία. Και έτσι είναι κάπως αυτό το RAG που βασίζεται σε εκδηλώσεις. Δεν θα έλεγα ότι οι RAG μιλούν με τους RAG, αλλά ουσιαστικά είναι αυτό – οι πράκτορες φεύγουν και κάνουν πολλή δουλειά και επιστρέφουν. Και είμαστε στο κατώφλι αυτού. Οπότε νομίζω ότι είναι κάτι που είμαι πραγματικά ενθουσιασμένος που θα δω το 2024.

Το μητρώο: Η Nvidia προετοιμάζει το δικό της AI; Βρήκατε το AI χρήσιμο εσωτερικά;

Μπρίσκι: Στην πραγματικότητα, φύγαμε και πέρυσι, καθώς το 2023 ήταν η χρονιά εξερεύνησης, υπήρχαν 150 ομάδες μέσα στη Nvidia που βρήκα – θα μπορούσαν να ήταν περισσότερες – και προσπαθούσαμε να πούμε, πώς χρησιμοποιείτε τα εργαλεία μας, τι είδους των περιπτώσεων χρήσης και αρχίσαμε να συνδυάζουμε όλες τις γνώσεις, περίπου από χίλια λουλούδια που ανθίζουν, και συνδυάσαμε όλες τις γνώσεις τους σε βέλτιστες πρακτικές σε ένα repo. Αυτό στην πραγματικότητα κυκλοφορήσαμε ως αυτό που λέμε Παραδείγματα Generative AI στο GitHub, γιατί απλώς θέλαμε να έχουμε όλες τις βέλτιστες πρακτικές σε ένα μέρος.

Κάτι τέτοιο κάναμε δομικά. Αλλά ως ρητό παράδειγμα, νομίζω ότι γράψαμε αυτό το πραγματικά υπέροχο έγγραφο που ονομάζεται ChipNeMo, και στην πραγματικότητα έχει να κάνει με την ομάδα σχεδίασης EDA, VLSI, και τον τρόπο με τον οποίο πήραν το μοντέλο θεμελίωσης και το εκπαίδευσαν στα ιδιόκτητα δεδομένα μας. Έχουμε τις δικές μας γλώσσες κωδικοποίησης για το VLSI. Έτσι, κωδικοποιούσαν αντίγραφα [μοντέλα δημιουργίας ανοιχτού κώδικα] για να μπορέσουν να δημιουργήσουν την ιδιόκτητη γλώσσα μας και να βοηθήσουν την παραγωγικότητα νέων μηχανικών που δεν γνωρίζουν τον κώδικα γραφής τσιπ σχεδιασμού VLSI.

Και αυτό έχει απήχηση σε κάθε πελάτη. Έτσι, αν μιλήσετε με τη SAP, έχουν BOP [Επεξεργασία Backorder], το οποίο είναι σαν ένα ιδιόκτητο SQL στη βάση δεδομένων τους. Και μίλησα με άλλους τρεις πελάτες που είχαν διαφορετικές ιδιόκτητες γλώσσες – ακόμη και η SQL έχει εκατοντάδες διαλέκτους. Επομένως, η δυνατότητα δημιουργίας κώδικα δεν είναι μια περίπτωση χρήσης που μπορεί να επιλυθεί άμεσα από το RAG. Ναι, το RAG βοηθά στην ανάκτηση τεκμηρίωσης και ορισμένων αποσπασμάτων κώδικα, αλλά εκτός κι αν έχει εκπαιδευτεί να δημιουργεί τα διακριτικά σε αυτήν τη γλώσσα, δεν μπορεί απλώς να δημιουργήσει κώδικα.

Το μητρώο: Όταν εξετάζετε μεγάλα γλωσσικά μοντέλα και τον τρόπο που συνδέονται με τις εφαρμογές, σκέφτεστε τον λανθάνοντα χρόνο που μπορεί να εισαγάγει και πώς να το αντιμετωπίσετε; Υπάρχουν φορές που η απλή κωδικοποίηση ενός δέντρου αποφάσεων φαίνεται ότι θα είχε πιο νόημα;

Μπρίσκι: Έχετε δίκιο, όταν κάνετε μια συγκεκριμένη ερώτηση ή σας ζητηθεί, θα μπορούσε να υπάρχει, ακόμη και για μία ερώτηση, μπορεί να υπάρχουν πέντε ή επτά μοντέλα που έχουν ήδη ξεκινήσει, ώστε να μπορείτε να λάβετε άμεση επανεγγραφή και προστατευτικά κιγκλιδώματα και retriever και εκ νέου κατάταξη και μετά η γεννήτρια. Γι' αυτό το NIM είναι τόσο σημαντικό, επειδή έχουμε βελτιστοποιήσει την καθυστέρηση.

Αυτός είναι επίσης ο λόγος που προσφέρουμε διαφορετικές εκδόσεις των μοντέλων βάσης, επειδή μπορεί να έχετε ένα μοντέλο SLM, ένα μικρό μοντέλο γλώσσας που είναι κάπως καλύτερο για ένα συγκεκριμένο σύνολο εργασιών και, στη συνέχεια, θέλετε το μεγαλύτερο μοντέλο για μεγαλύτερη ακρίβεια στο τέλος. Αλλά στη συνέχεια, το να αλυσοδένετε όλα αυτά ώστε να ταιριάζουν στο παράθυρο του λανθάνοντος χρόνου σας είναι ένα πρόβλημα που λύναμε όλα αυτά τα χρόνια για πολλές υπηρεσίες υπερκλίμακας ή διαχειριζόμενες υπηρεσίες. Έχουν αυτά τα παράθυρα λανθάνοντος χρόνου και πολλές φορές όταν κάνετε μια ερώτηση ή κάνετε μια αναζήτηση, στην πραγματικότητα σβήνουν και απαντούν την ερώτηση πολλές φορές. Έτσι, έχουν πολλές συνθήκες αγώνα "ποιο είναι το παράθυρο λανθάνοντος χρόνου μου για κάθε μικρό μέρος της συνολικής απόκρισης;" Οπότε ναι, το κοιτάμε πάντα αυτό.

Για την άποψή σου σχετικά με τον σκληρό κώδικα, μόλις μίλησα σε έναν πελάτη γι' αυτό σήμερα. Είμαστε πολύ πιο πέρα ​​από τον σκληρό κώδικα… Θα μπορούσατε να χρησιμοποιήσετε έναν διαχειριστή διαλόγου και να έχετε εάν-τότε-άλλο. [Αλλά] η διαχείριση των χιλιάδων κανόνων είναι πραγματικά, πραγματικά αδύνατη. Και γι' αυτό μας αρέσουν πράγματα όπως τα προστατευτικά κιγκλιδώματα, επειδή τα προστατευτικά κιγκλιδώματα αντιπροσωπεύουν ένα είδος αντικατάστασης ενός κλασικού διαχειριστή διαλόγου. Αντί να πείτε, "Μη μιλάτε για μπέιζμπολ, μην μιλάτε για σόφτμπολ, μην μιλάτε για ποδόσφαιρο" και να τα αναφέρετε, μπορείτε απλώς να πείτε, "Μην μιλάτε για αθλήματα". Και τότε το LLM ξέρει τι είναι άθλημα. Η εξοικονόμηση χρόνου και η δυνατότητα διαχείρισης αυτού του κωδικού αργότερα, είναι πολύ καλύτερη. ®

spot_img

Τελευταία Νοημοσύνη

spot_img