जेफिरनेट लोगो

एनवीडिया सॉफ्टवेयर कार्यकारी कारी ब्रिस्की के साथ साक्षात्कार

दिनांक:

साक्षात्कार एनवीडिया का जीपीयू प्रौद्योगिकी सम्मेलन पिछले सप्ताह संपन्न हुआ, जिसमें कंपनी के ब्लैकवेल चिप्स और एआई के बहुचर्चित चमत्कारों के बारे में बताया गया, जिसमें सभी महंगे खरीदे गए जीपीयू हार्डवेयर शामिल थे।

कंपनी के चारों ओर ऐसी चर्चा है कि इसके शेयर की कीमत रिकॉर्ड ऊंचाई पर है, इस धारणा के आधार पर कि मशीन लर्निंग मॉडल द्वारा सक्षम स्वचालन के साथ बेहतर नहीं तो कई रचनात्मक प्रयास तेजी से किए जा सकते हैं।

इसका अभी भी बाजार में परीक्षण किया जा रहा है।

जॉर्ज सैंटायना एक बार लिखा था: "जो लोग अतीत को याद नहीं रख सकते, वे उसे दोहराने के लिए अभिशप्त हैं।" यह एक मुहावरा है जिसे अक्सर दोहराया जाता है। फिर भी अतीत की चीज़ों की याद वास्तव में एआई मॉडल को अलग नहीं करती है। वे अतीत को याद कर सकते हैं लेकिन वे अभी भी मांग पर इसे दोहराने के लिए अभिशप्त हैं, कभी-कभी गलत तरीके से।

फिर भी, कई लोग सर्वशक्तिमान एआई की कसम खाते हैं, खासकर एआई हार्डवेयर या क्लाउड सेवाएं बेचने वाले। एनवीडिया, दूसरों के बीच, इस पर बड़ा दांव लगा रही है. इतना रजिस्टर यह देखने के लिए कि सारा उपद्रव किस बारे में था, जीपीयू सम्मेलन में एक संक्षिप्त दौरा किया। यह निश्चित रूप से गुरुवार को प्रदर्शनी हॉल में परोसे गए नींबू बार के बारे में नहीं था, जिनमें से कई ने अपनी आरंभिक सार्वजनिक पेशकश को शो फ्लोर डिब्बे में अधूरा छोड़ दिया।

बातचीत कहीं अधिक आकर्षक थी रजिस्टर एनवीडिया में एआई और एचपीसी सॉफ्टवेयर विकास किट के लिए उत्पाद प्रबंधन के उपाध्यक्ष कारी ब्रिस्की के साथ बातचीत की। वह कंपनी के फाउंडेशन मॉडल, लाइब्रेरी, एसडीके और अब माइक्रोसर्विसेज के लिए सॉफ्टवेयर उत्पाद प्रबंधन का नेतृत्व करती हैं, जो नई घोषणा की तरह प्रशिक्षण और अनुमान से निपटते हैं। एनआईएम माइक्रोसर्विसेज और बेहतर स्थापित निमो परिनियोजन ढाँचा.

रजिस्टर: कंपनियां इन माइक्रोसर्विसेज का उपभोग कैसे करेंगी - क्लाउड में, परिसर में?

ब्रिस्की: वास्तव में यही खूबसूरती है कि हमने एनआईएम क्यों बनाया। "एनआईएम" कहना अजीब है। लेकिन हमने यह यात्रा बहुत पहले शुरू कर दी थी। जब से मैंने शुरुआत की है तब से हम अनुमान लगाने पर काम कर रहे हैं - मुझे लगता है कि जब मैंने 1.0 की शुरुआत की थी तो यह TensorRT 2016 था।

वर्षों से हम अपने अनुमान स्टैक को बढ़ा रहे हैं, हर अलग-अलग प्रकार के कार्यभार के बारे में अधिक सीख रहे हैं, कंप्यूटर विज़न और गहन अनुशंसा प्रणाली और भाषण, स्वचालित भाषण पहचान और भाषण संश्लेषण और अब बड़े भाषा मॉडल से शुरू करते हैं। यह वास्तव में डेवलपर-केंद्रित स्टैक रहा है। और अब जब उद्यमों ने OpenAI और ChatGPT को देखा है, तो वे इन बड़े भाषा मॉडलों को अपने एंटरप्राइज़ डेटा के बगल में या अपने एंटरप्राइज़ अनुप्रयोगों में चलाने की आवश्यकता को समझते हैं।

औसत क्लाउड सेवा प्रदाता, अपनी प्रबंधित सेवाओं के लिए, उनके पास अनुमान, अनुकूलन तकनीकों पर काम करने वाले सैकड़ों इंजीनियर हैं। उद्यम ऐसा नहीं कर सकते. उन्हें तुरंत समय-से-मूल्य प्राप्त करने की आवश्यकता है। यही कारण है कि हमने पिछले कुछ वर्षों में जो कुछ भी सीखा है उसे TensorRT, बड़े भाषा मॉडल, हमारे ट्राइटन अनुमान सर्वर, मानक एपीआई और स्वास्थ्य जांच के साथ समाहित किया है। [विचार यह है] कि आप यह सब समाहित करने में सक्षम हों ताकि आप पांच मिनट से कम समय में शून्य से एक बड़े भाषा मॉडल समापन बिंदु तक पहुंच सकें।

[ऑन-प्रिमाइसेस बनाम क्लाउड डेटासेंटर के संबंध में], हमारे बहुत से ग्राहक हाइब्रिड क्लाउड हैं। उन्होंने गणना को प्राथमिकता दी है। इसलिए डेटा को किसी प्रबंधित सेवा में भेजने के बजाय, वे माइक्रोसर्विस को अपने डेटा के करीब चला सकते हैं और वे इसे जहां चाहें वहां चला सकते हैं।

रजिस्टर: प्रोग्रामिंग भाषाओं के संदर्भ में एआई के लिए एनवीडिया का सॉफ्टवेयर स्टैक कैसा दिखता है? क्या यह अभी भी बड़े पैमाने पर CUDA, Python, C, और C++ है? क्या आप अधिक गति और दक्षता के लिए कहीं और तलाश कर रहे हैं?

ब्रिस्की: जहां भी डेवलपर्स उपयोग कर रहे हैं हम हमेशा खोज कर रहे हैं। वह हमेशा से हमारी कुंजी रही है। इसलिए जब से मैंने एनवीडिया में शुरुआत की है, मैंने त्वरित गणित पुस्तकालयों पर काम किया है। सबसे पहले, आपको समानता प्राप्त करने के लिए CUDA में प्रोग्राम करना होगा। और फिर हमारे पास सी एपीआई थे। और हमारे पास एक Python API था। तो यह उस प्लेटफ़ॉर्म को ले जाने के बारे में है जहाँ डेवलपर्स हैं। अभी, डेवलपर्स बस एक बहुत ही सरल एपीआई एंडपॉइंट को हिट करना चाहते हैं, जैसे कि कर्ल कमांड या पायथन कमांड या कुछ इसी तरह। इसलिए यह अत्यंत सरल होना चाहिए, क्योंकि आज हम इसी तरह डेवलपर्स से मिल रहे हैं।

रजिस्टर: CUDA स्पष्ट रूप से GPU गणना को प्रभावी बनाने में एक बड़ी भूमिका निभाता है। CUDA को आगे बढ़ाने के लिए Nvidia क्या कर रहा है?

ब्रिस्की: CUDA हमारे सभी GPU का आधार है। यह एक CUDA-सक्षम, CUDA-प्रोग्रामयोग्य GPU है। कुछ साल पहले, हमने इसे CUDA-X कहा था, क्योंकि आपके पास ये डोमेन-विशिष्ट भाषाएँ थीं। तो यदि आपके पास मेडिकल इमेजिंग [एप्लिकेशन] है, तो आपके पास है cuCIM. यदि आपके पास स्वचालित वाक् पहचान है, तो आपके पास इसके अंत में एक CUDA त्वरित बीम खोज डिकोडर है। और इसलिए हर अलग-अलग प्रकार के कार्यभार के लिए ये सभी विशिष्ट चीजें हैं जिन्हें CUDA द्वारा त्वरित किया गया है। हमने पिछले कुछ वर्षों में इन सभी विशिष्ट पुस्तकालयों का निर्माण किया है सीयूडीएफ और सीयूएमएल, और क्यू-यह-और-वह। ये सभी CUDA लाइब्रेरीज़ हमने वर्षों में जो बनाया है उसकी नींव हैं और अब हम उसी के ऊपर एक इमारत बना रहे हैं।

रजिस्टर: एनवीडिया अपने सॉफ़्टवेयर और हार्डवेयर को डिज़ाइन करने के तरीके के संदर्भ में लागत संबंधी विचारों को किस प्रकार देखता है? एनवीडिया एआई एंटरप्राइज जैसी किसी चीज़ के साथ, यह हर साल $4,500 प्रति जीपीयू है, जो काफी है।

ब्रिस्की: सबसे पहले, छोटी कंपनियों के लिए, हमारे पास हमेशा है आरंभ कार्यक्रम. हम हमेशा ग्राहकों के साथ काम करते रहते हैं - 90 दिनों का निःशुल्क परीक्षण, क्या यह वास्तव में आपके लिए मूल्यवान है? यह वास्तव में इसके लायक है? फिर, जब आप उसे खरीदते हैं तो आपकी लागत कम करने के लिए, हम हमेशा अपने सॉफ़्टवेयर को अनुकूलित करते रहते हैं। इसलिए यदि आप प्रति वर्ष प्रति लाइसेंस $4,500 प्रति सीपीयू खरीद रहे थे, और आप ए100 पर चल रहे हैं, और कल आप एच100 पर चलेंगे, तो यह वही कीमत है - आपकी लागत कम हो गई है [आपके थ्रूपुट के सापेक्ष]। इसलिए हम हमेशा उन अनुकूलन और स्वामित्व और प्रदर्शन की कुल लागत को सॉफ़्टवेयर में वापस ला रहे हैं।

जब हम प्रशिक्षण और अनुमान दोनों के बारे में सोच रहे होते हैं, तो प्रशिक्षण में थोड़ा अधिक समय लगता है, लेकिन हमारे पास ये ऑटो कॉन्फिगरेटर हैं जो यह कहने में सक्षम हैं, “आपके पास कितना डेटा है? आपको कितनी गणना की आवश्यकता है? आप इसमें कितना समय लेना चाहते हैं?” तो आपके पास गणना का एक छोटा पदचिह्न हो सकता है, लेकिन आपके मॉडल को प्रशिक्षित करने में अधिक समय लग सकता है... क्या आप इसे एक सप्ताह में प्रशिक्षित करना चाहेंगे? या क्या आप इसे एक दिन में प्रशिक्षित करना चाहेंगे? और इसलिए आप वे व्यापार बंद कर सकते हैं।

रजिस्टर: वर्तमान समस्याओं के संदर्भ में, क्या कोई विशेष चीज़ है जिसे आप हल करना चाहेंगे या कोई तकनीकी चुनौती है जिसे आप दूर करना चाहेंगे?

ब्रिस्की: अभी, यह इवेंट-संचालित है लत्ता [जो बाहरी स्रोत से प्राप्त डेटा के साथ एआई मॉडल को बढ़ाने का एक तरीका है]। बहुत से उद्यम उत्तर उत्पन्न करने के लिए केवल शास्त्रीय संकेत के बारे में सोच रहे हैं। लेकिन वास्तव में, हम जो करना चाहते हैं वह इन सभी पुनर्प्राप्ति-संवर्धित जनरेटिव प्रणालियों को एक साथ [श्रृंखला] करना है। क्योंकि यदि आप अपने बारे में सोचते हैं, और एक कार्य जिसे आप करना चाहते हैं: “ओह, मुझे डेटाबेस टीम से बात करनी होगी। और उस डेटाबेस टीम को टेब्लू टीम से बात करनी होगी। उन्हें मेरे लिए एक डैशबोर्ड बनाना होगा," और इससे पहले कि आप वास्तव में कार्य पूरा कर सकें, ये सभी चीजें होनी चाहिए। और इसलिए यह एक तरह से इवेंट-संचालित RAG है। मैं यह नहीं कहूंगा कि आरएजी आरएजी से बात कर रहे हैं, लेकिन यह अनिवार्य रूप से यही है - एजेंट जा रहे हैं और बहुत सारा काम कर रहे हैं और वापस आ रहे हैं। और हम इसके शिखर पर हैं। इसलिए मुझे लगता है कि यह कुछ ऐसा है जिसे मैं 2024 में देखने के लिए वास्तव में उत्साहित हूं।

रजिस्टर: क्या एनवीडिया अपना स्वयं का AI डॉगफूडिंग कर रहा है? क्या आपने AI को आंतरिक रूप से उपयोगी पाया है?

ब्रिस्की: दरअसल, हम चले गए और पिछले साल, चूंकि 2023 अन्वेषण का वर्ष था, एनवीडिया के भीतर 150 टीमें थीं जो मुझे मिलीं - और भी हो सकती थीं - और हम यह कहने की कोशिश कर रहे थे कि आप हमारे टूल का उपयोग कैसे कर रहे हैं, किस तरह का उपयोग के मामलों में और हमने सभी सीखों को एक साथ मिलाना शुरू कर दिया, जैसे कि हजारों फूल खिल रहे थे, और हमने उनकी सभी सीखों को सर्वोत्तम प्रथाओं में एक रेपो में जोड़ दिया। वास्तव में हमने वही जारी किया है जिसे हम कहते हैं जनरेटिव एआई उदाहरण GitHub पर, क्योंकि हम सभी सर्वोत्तम अभ्यास एक ही स्थान पर रखना चाहते थे।

हमने संरचनात्मक तौर पर ऐसा ही किया। लेकिन एक स्पष्ट उदाहरण के रूप में, मुझे लगता है कि हमने यह वास्तव में महान पेपर लिखा है चिपनेमो, और यह वास्तव में हमारी ईडीए, वीएलएसआई डिजाइन टीम के बारे में है, और उन्होंने फाउंडेशन मॉडल कैसे लिया और उन्होंने इसे हमारे मालिकाना डेटा पर प्रशिक्षित किया। वीएलएसआई के लिए हमारी अपनी कोडिंग भाषाएं हैं। इसलिए वे हमारी मालिकाना भाषा उत्पन्न करने में सक्षम होने के लिए और आने वाले नए इंजीनियरों की उत्पादकता में मदद करने के लिए सह-पायलट [ओपन सोर्स कोड जेनरेशन मॉडल] को कोडिंग कर रहे थे जो हमारे वीएलएसआई डिजाइन चिप लेखन कोड को बिल्कुल नहीं जानते हैं।

और यह हर ग्राहक को पसंद आया है। इसलिए यदि आप SAP से बात करें, तो उनके पास BOP [बैकऑर्डर प्रोसेसिंग] है, जो उनके डेटाबेस के लिए एक मालिकाना SQL की तरह है। और मैंने तीन अन्य ग्राहकों से बात की जिनके पास अलग-अलग स्वामित्व वाली भाषाएँ थीं - यहाँ तक कि SQL में भी सैकड़ों बोलियाँ हैं। इसलिए कोड जनरेशन करने में सक्षम होना कोई ऐसा उपयोग मामला नहीं है जिसे RAG द्वारा तुरंत हल किया जा सके। हाँ, RAG दस्तावेज़ और कुछ कोड स्निपेट पुनर्प्राप्त करने में मदद करता है, लेकिन जब तक इसे उस भाषा में टोकन उत्पन्न करने के लिए प्रशिक्षित नहीं किया जाता है, तब तक यह केवल कोड नहीं बना सकता है।

रजिस्टर: जब आप बड़े भाषा मॉडलों को देखते हैं और जिस तरह से उन्हें अनुप्रयोगों के साथ जोड़ा जा रहा है, क्या आप उस विलंबता के बारे में सोच रहे हैं जो ला सकती है और उससे कैसे निपटना है? क्या ऐसे समय होते हैं जब किसी निर्णय वृक्ष को केवल हार्डकोड करने से ऐसा लगता है कि यह अधिक अर्थपूर्ण होगा?

ब्रिस्की: आप सही हैं, जब आप कोई विशेष प्रश्न पूछते हैं, या संकेत देते हैं, तो ऐसा हो सकता है, यहां तक ​​कि केवल एक प्रश्न के लिए भी, पांच या सात मॉडल पहले से ही शुरू किए जा सकते हैं ताकि आप शीघ्र पुनर्लेखन और रेलिंग और रिट्रीवर और पुनः रैंकिंग प्राप्त कर सकें। और फिर जनरेटर. इसीलिए एनआईएम इतना महत्वपूर्ण है, क्योंकि हमने विलंबता के लिए अनुकूलन किया है।

इसीलिए हम फाउंडेशन मॉडल के विभिन्न संस्करण पेश करते हैं क्योंकि आपके पास एक एसएलएम हो सकता है, एक छोटा भाषा मॉडल जो कार्यों के एक विशेष सेट के लिए बेहतर है, और फिर आप अंत में अधिक सटीकता के लिए बड़ा मॉडल चाहते हैं। लेकिन फिर इसे आपकी विलंबता विंडो में फिट करने के लिए श्रृंखलाबद्ध करना एक समस्या है जिसे हम कई हाइपरस्केल या प्रबंधित सेवाओं के लिए वर्षों से हल कर रहे हैं। उनके पास ये विलंबता विंडो हैं और कई बार जब आप कोई प्रश्न पूछते हैं या खोज करते हैं, तो वे वास्तव में बंद हो जाते हैं और प्रश्न को कई बार हल कर देते हैं। इसलिए उनके पास "कुल प्रतिक्रिया के प्रत्येक छोटे हिस्से के लिए मेरी विलंबता विंडो क्या है?" जैसी कई दौड़ स्थितियाँ हैं। तो हाँ, हम हमेशा उस पर नज़र रख रहे हैं।

जहाँ तक हार्डकोडिंग के बारे में आपकी बात है, मैंने आज ही एक ग्राहक से इस बारे में बात की थी। हम हार्डकोडिंग से बहुत आगे हैं... आप एक संवाद प्रबंधक का उपयोग कर सकते हैं और यदि-तब-अन्यथा का उपयोग कर सकते हैं। [लेकिन] हजारों नियमों को प्रबंधित करना वास्तव में असंभव है। और यही कारण है कि हमें रेलिंग जैसी चीजें पसंद हैं, क्योंकि रेलिंग एक शास्त्रीय संवाद प्रबंधक के प्रतिस्थापन का प्रतिनिधित्व करती है। यह कहने के बजाय, "बेसबॉल के बारे में बात मत करो, सॉफ्टबॉल के बारे में बात मत करो, फुटबॉल के बारे में बात मत करो," और उन्हें सूचीबद्ध करने के बजाय आप बस इतना कह सकते हैं, "खेल के बारे में बात मत करो।" और फिर एलएलएम जानता है कि खेल क्या है। समय की बचत, और बाद में उस कोड को प्रबंधित करने में सक्षम होना, बहुत बेहतर है। ®

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी