जेफिरनेट लोगो

कैसे चेन-ऑफ-थॉट रीजनिंग तंत्रिका नेटवर्क की गणना में मदद करती है | क्वांटा पत्रिका

दिनांक:

परिचय

आपके ग्रेड स्कूल शिक्षक ने संभवतः आपको यह नहीं बताया कि 20 अंकों की संख्याएँ कैसे जोड़ी जाती हैं। लेकिन यदि आप छोटी संख्याओं को जोड़ना जानते हैं, तो आपको बस कागज और पेंसिल और थोड़े से धैर्य की आवश्यकता है। एक स्थान से शुरू करें और चरण दर चरण बाईं ओर काम करें, और जल्द ही आप आसानी से क्विंटलों का ढेर लगा देंगे।

इस तरह की समस्याएं इंसानों के लिए आसान हैं, लेकिन केवल तभी जब हम उनसे सही तरीके से निपटें। "हम इंसान इन समस्याओं को कैसे हल करते हैं, यह नहीं है कि 'इसे देखते रहें और फिर उत्तर लिखें,'" ने कहा एरन मैलाच, हार्वर्ड विश्वविद्यालय में एक मशीन लर्निंग शोधकर्ता। "हम वास्तव में चरणों से चलते हैं।"

उस अंतर्दृष्टि ने शोधकर्ताओं को बड़े भाषा मॉडल का अध्ययन करने के लिए प्रेरित किया है जो चैटजीपीटी जैसे चैटबॉट को शक्ति प्रदान करते हैं। हालाँकि ये प्रणालियाँ अंकगणित के कुछ चरणों से जुड़े प्रश्नों में सफल हो सकती हैं, वे अक्सर दो बड़ी संख्याओं के योग की गणना करने जैसे कई चरणों से संबंधित समस्याओं को हल कर देंगी। लेकिन 2022 में, Google शोधकर्ताओं की एक टीम पता चला भाषा मॉडलों को चरण-दर-चरण समाधान उत्पन्न करने के लिए कहने से मॉडलों को उन समस्याओं को हल करने में सक्षम बनाया गया जो पहले उनकी पहुंच से परे लगती थीं। उनकी तकनीक, जिसे चेन-ऑफ-थॉट प्रॉम्प्टिंग कहा जाता है, जल्द ही व्यापक हो गई, यहां तक ​​​​कि शोधकर्ताओं ने यह समझने के लिए संघर्ष किया कि यह क्या काम करता है।

अब, कई टीमों ने कम्प्यूटेशनल जटिलता सिद्धांत नामक सैद्धांतिक कंप्यूटर विज्ञान की एक रहस्यमय शाखा की तकनीकों का उपयोग करके विचार-श्रृंखला तर्क की शक्ति का पता लगाया है। यह शोध की श्रृंखला में नवीनतम अध्याय है जो भाषा मॉडल की आंतरिक क्षमताओं और सीमाओं का अध्ययन करने के लिए जटिलता सिद्धांत का उपयोग करता है। ये प्रयास स्पष्ट करते हैं कि हमें मॉडलों के विफल होने की उम्मीद कहां करनी चाहिए, और वे उन्हें बनाने के लिए नए दृष्टिकोण की ओर इशारा कर सकते हैं।

“वे कुछ जादू हटा देते हैं,” कहा दिमित्रिस पपेलिओपोलोसविस्कॉन्सिन विश्वविद्यालय, मैडिसन में एक मशीन लर्निंग शोधकर्ता। "यह तो अच्छी बात है।"

प्रशिक्षण ट्रांसफार्मर

बड़े भाषा मॉडल गणितीय संरचनाओं के आसपास बनाए जाते हैं जिन्हें कृत्रिम तंत्रिका नेटवर्क कहा जाता है। इन नेटवर्कों के अंदर कई "न्यूरॉन्स" अलग-अलग शब्दों का प्रतिनिधित्व करने वाली संख्याओं की लंबी स्ट्रिंग पर सरल गणितीय संचालन करते हैं, जो नेटवर्क से गुजरने वाले प्रत्येक शब्द को दूसरे में परिवर्तित करते हैं। इस गणितीय कीमिया का विवरण संख्याओं के एक अन्य सेट पर निर्भर करता है जिसे नेटवर्क के पैरामीटर कहा जाता है, जो न्यूरॉन्स के बीच कनेक्शन की ताकत को मापता है।

सुसंगत आउटपुट उत्पन्न करने के लिए एक भाषा मॉडल को प्रशिक्षित करने के लिए, शोधकर्ता आमतौर पर एक तंत्रिका नेटवर्क से शुरुआत करते हैं, जिसके सभी मापदंडों में यादृच्छिक मान होते हैं, और फिर इसे इंटरनेट से ढेर सारा डेटा खिलाते हैं। हर बार जब मॉडल पाठ का एक नया ब्लॉक देखता है, तो वह बारी-बारी से प्रत्येक शब्द की भविष्यवाणी करने की कोशिश करता है: यह पहले के आधार पर दूसरे शब्द का अनुमान लगाता है, पहले दो के आधार पर तीसरे का अनुमान लगाता है, और इसी तरह। यह प्रत्येक भविष्यवाणी की तुलना वास्तविक पाठ से करता है, फिर अंतर को कम करने के लिए इसके मापदंडों में बदलाव करता है। प्रत्येक बदलाव केवल मॉडल की भविष्यवाणियों को थोड़ा सा बदलता है, लेकिन किसी तरह उनका सामूहिक प्रभाव किसी मॉडल को उन इनपुटों पर सुसंगत रूप से प्रतिक्रिया करने में सक्षम बनाता है जो उसने कभी नहीं देखे हैं।

शोधकर्ता 20 वर्षों से भाषा को संसाधित करने के लिए तंत्रिका नेटवर्क को प्रशिक्षित कर रहे हैं। लेकिन काम वास्तव में 2017 में शुरू हुआ, जब Google के शोधकर्ताओं ने एक पेश किया नए तरह का नेटवर्क ट्रांसफार्मर कहा जाता है.

"यह सात साल पहले प्रस्तावित किया गया था, जो प्रागैतिहासिक जैसा लगता है," कहा पाब्लो बार्सेलो, चिली के पोंटिफ़िकल कैथोलिक विश्वविद्यालय में एक मशीन लर्निंग शोधकर्ता।

ट्रांसफॉर्मर को इतना परिवर्तनकारी बनाने वाली बात यह है कि उन्हें स्केल करना आसान है - मापदंडों की संख्या और प्रशिक्षण डेटा की मात्रा को बढ़ाना - बिना प्रशिक्षण को अत्यधिक महंगा बनाए। ट्रांसफार्मर से पहले, तंत्रिका नेटवर्क में अधिकतम कुछ सौ मिलियन पैरामीटर होते थे; आज, सबसे बड़े ट्रांसफार्मर-आधारित मॉडलों की संख्या एक ट्रिलियन से अधिक है। पिछले पांच वर्षों में भाषा-मॉडल प्रदर्शन में अधिकांश सुधार केवल स्केलिंग से आया है।

ट्रांसफार्मरों ने विशेष गणितीय संरचनाओं, जिन्हें अटेंशन हेड्स कहा जाता है, का उपयोग करके इसे संभव बनाया, जो उन्हें उनके द्वारा पढ़े जा रहे पाठ का एक प्रकार का विहंगम दृश्य प्रदान करता है। जब एक ट्रांसफॉर्मर पाठ के एक नए ब्लॉक को पढ़ता है, तो उसका ध्यान तुरंत पूरी चीज़ को स्कैन करता है और शब्दों के बीच प्रासंगिक कनेक्शन की पहचान करता है - शायद यह देखते हुए कि चौथा और आठवां शब्द 10वें की भविष्यवाणी के लिए सबसे उपयोगी होने की संभावना है। फिर ध्यान प्रमुख शब्दों को न्यूरॉन्स के एक विशाल वेब तक भेजता है जिसे फीडफॉरवर्ड नेटवर्क कहा जाता है, जो सीखने में मदद करने वाली भविष्यवाणियों को उत्पन्न करने के लिए आवश्यक भारी संख्या में क्रंचिंग करता है।

वास्तविक ट्रांसफार्मर में फीडफॉरवर्ड नेटवर्क द्वारा अलग किए गए ध्यान प्रमुखों की कई परतें होती हैं, और केवल अंतिम परत के बाद ही भविष्यवाणियां सामने आती हैं। लेकिन प्रत्येक परत पर, ध्यान प्रमुखों ने पहले से ही प्रत्येक शब्द के लिए सबसे प्रासंगिक संदर्भ की पहचान कर ली है, इसलिए पाठ में प्रत्येक शब्द के लिए कम्प्यूटेशनल रूप से गहन फीडफॉरवर्ड चरण एक साथ हो सकता है। इससे प्रशिक्षण प्रक्रिया में तेजी आती है, जिससे डेटा के बड़े सेट पर ट्रांसफार्मर को प्रशिक्षित करना संभव हो जाता है। इससे भी अधिक महत्वपूर्ण बात यह है कि यह शोधकर्ताओं को एक विशाल तंत्रिका नेटवर्क के प्रशिक्षण के विशाल कम्प्यूटेशनल भार को एक साथ काम करने वाले कई प्रोसेसरों में फैलाने की अनुमति देता है।

बड़े पैमाने पर डेटा सेट से अधिकतम लाभ प्राप्त करने के लिए, "आपको मॉडल को वास्तव में बड़ा बनाना होगा," कहा डेविड चियांग, नोट्रे डेम विश्वविद्यालय में एक मशीन लर्निंग शोधकर्ता। "जब तक यह समानान्तर न हो, उन्हें प्रशिक्षित करना व्यावहारिक नहीं होगा।"

हालाँकि, समानांतर संरचना जो ट्रांसफार्मर को प्रशिक्षित करना इतना आसान बनाती है, प्रशिक्षण के बाद मदद नहीं करती है - उस बिंदु पर, पहले से मौजूद शब्दों की भविष्यवाणी करने की कोई आवश्यकता नहीं है। सामान्य ऑपरेशन के दौरान, ट्रांसफार्मर एक समय में एक शब्द आउटपुट करते हैं, प्रत्येक आउटपुट को अगला शब्द उत्पन्न करने से पहले इनपुट पर वापस ले जाते हैं, लेकिन वे अभी भी समानांतर प्रसंस्करण के लिए अनुकूलित आर्किटेक्चर से चिपके हुए हैं।

जैसे-जैसे ट्रांसफॉर्मर-आधारित मॉडल बढ़ते गए और कुछ कार्यों से उन्हें परेशानी होती रही, कुछ शोधकर्ताओं को आश्चर्य होने लगा कि क्या अधिक समानांतर मॉडल की ओर धकेलने की कीमत चुकानी पड़ी है। क्या ट्रांसफार्मर के व्यवहार को सैद्धांतिक रूप से समझने का कोई तरीका था?

ट्रांसफार्मर की जटिलता

तंत्रिका नेटवर्क के सैद्धांतिक अध्ययन में कई कठिनाइयों का सामना करना पड़ता है, खासकर जब वे प्रशिक्षण का हिसाब लगाने की कोशिश करते हैं। तंत्रिका नेटवर्क प्रशिक्षण प्रक्रिया के प्रत्येक चरण में अपने मापदंडों को बदलने के लिए एक प्रसिद्ध प्रक्रिया का उपयोग करते हैं। लेकिन यह समझना मुश्किल हो सकता है कि यह सरल प्रक्रिया मापदंडों के अच्छे सेट पर क्यों केंद्रित होती है।

प्रशिक्षण के दौरान क्या होता है, इस पर विचार करने के बजाय, कुछ शोधकर्ता यह कल्पना करके ट्रांसफार्मर की आंतरिक क्षमताओं का अध्ययन करते हैं कि उनके मापदंडों को किसी भी मनमाने मूल्य पर समायोजित करना संभव है। यह एक ट्रांसफार्मर को एक विशेष प्रकार के प्रोग्रामयोग्य कंप्यूटर के रूप में मानने के समान है।

"आपके पास कुछ कंप्यूटिंग डिवाइस है, और आप जानना चाहते हैं, 'अच्छा, यह क्या कर सकता है? यह किस प्रकार के कार्यों की गणना कर सकता है?'' चियांग ने कहा।

गणना के औपचारिक अध्ययन में ये केंद्रीय प्रश्न हैं। यह क्षेत्र 1936 का है, जब एलन ट्यूरिंग ने पहली बार इसकी कल्पना की थी काल्पनिक उपकरण, जिसे अब ट्यूरिंग मशीन कहा जाता है, जो अनंत टेप पर प्रतीकों को पढ़कर और लिखकर कोई भी गणना कर सकती है। कम्प्यूटेशनल जटिलता सिद्धांतकारों ने बाद में ट्यूरिंग के काम को यह साबित करके आगे बढ़ाया कि कम्प्यूटेशनल समस्याएं स्वाभाविक रूप से अलग-अलग होती हैं जटिलता वर्ग उन्हें हल करने के लिए आवश्यक संसाधनों द्वारा परिभाषित किया गया है।

2019 में, बार्सेलो और दो अन्य शोधकर्ता साबित निश्चित संख्या में मापदंडों के साथ ट्रांसफार्मर का एक आदर्श संस्करण ट्यूरिंग मशीन जितना ही शक्तिशाली हो सकता है। यदि आप एक ट्रांसफॉर्मर को उसके आउटपुट को बार-बार इनपुट के रूप में फीड करने के लिए सेट करते हैं और जिस विशिष्ट समस्या को आप हल करना चाहते हैं उसके लिए पैरामीटर को उचित मान पर सेट करते हैं, तो यह अंततः सही उत्तर देगा।

वह परिणाम एक शुरुआती बिंदु था, लेकिन यह कुछ अवास्तविक धारणाओं पर निर्भर था जो संभवतः ट्रांसफार्मर की शक्ति को अधिक महत्व देगा। उसके बाद के वर्षों में, शोधकर्ताओं ने अधिक यथार्थवादी सैद्धांतिक रूपरेखा विकसित करने के लिए काम किया है।

ऐसा ही एक प्रयास 2021 में शुरू हुआ, जब विलियम मेरिलअब न्यूयॉर्क विश्वविद्यालय में स्नातक छात्र, सिएटल में एलन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस में दो साल की फ़ेलोशिप छोड़ रहा था। वहां रहते हुए, उन्होंने ऐसी तकनीकों का उपयोग करके अन्य प्रकार के तंत्रिका नेटवर्क का विश्लेषण किया जो ट्रांसफार्मर के समानांतर वास्तुकला के लिए उपयुक्त नहीं लगती थीं। जाने से कुछ समय पहले, उन्होंने एआई शोधकर्ता के लिए एलन इंस्टीट्यूट से बातचीत की आशीष सभरवाल, जिन्होंने एआई अनुसंधान में जाने से पहले जटिलता सिद्धांत का अध्ययन किया था। उन्हें संदेह होने लगा कि जटिलता सिद्धांत उन्हें ट्रांसफार्मर की सीमाओं को समझने में मदद कर सकता है।

“ऐसा लग रहा था जैसे यह एक साधारण मॉडल है; सभरवाल ने कहा, ''कुछ सीमाएँ होनी चाहिए जिन्हें कोई भी ख़त्म कर सकता है।''

जोड़ी ने कम्प्यूटेशनल जटिलता सिद्धांत की एक शाखा का उपयोग करके ट्रांसफार्मर का विश्लेषण किया, जिसे सर्किट जटिलता कहा जाता है, जिसका उपयोग अक्सर समानांतर गणना का अध्ययन करने के लिए किया जाता है और किया गया था हाल ही में लागू किया गया है ट्रांसफार्मर के सरलीकृत संस्करणों के लिए। अगले वर्ष में, उन्होंने पिछले कार्य की कई अवास्तविक धारणाओं को परिष्कृत किया। यह अध्ययन करने के लिए कि ट्रांसफार्मर की समानांतर संरचना उनकी क्षमताओं को कैसे सीमित कर सकती है, जोड़ी ने उस मामले पर विचार किया जहां ट्रांसफार्मर ने अपने आउटपुट को अपने इनपुट में वापस नहीं डाला - इसके बजाय, उनका पहला आउटपुट अंतिम उत्तर होगा। वे साबित इस सैद्धांतिक ढांचे में ट्रांसफार्मर किसी विशिष्ट जटिलता वर्ग के बाहर की किसी भी कम्प्यूटेशनल समस्या को हल नहीं कर सकते हैं। और ऐसा माना जाता है कि गणित की कई समस्याएं, जिनमें रैखिक समीकरणों को हल करना जैसी अपेक्षाकृत सरल समस्याएं भी शामिल हैं, इस वर्ग से बाहर हैं।

मूल रूप से, उन्होंने दिखाया कि समानता की कीमत चुकानी पड़ती है - कम से कम तब जब ट्रांसफार्मर को तुरंत उत्तर देना पड़ता है। मेरिल ने कहा, "ट्रांसफॉर्मर काफी कमजोर होते हैं यदि आप उनका उपयोग करने के तरीके में एक इनपुट देते हैं, और आप तत्काल उत्तर की उम्मीद करते हैं।"

विचार प्रयोग

मेरिल और सभरवाल के परिणामों ने एक स्वाभाविक प्रश्न उठाया - जब ट्रांसफार्मर को अपने आउटपुट को रीसायकल करने की अनुमति दी जाती है तो वे कितने अधिक शक्तिशाली हो जाते हैं? बार्सेलो और उनके सह-लेखकों ने आदर्श ट्रांसफार्मर के अपने 2019 विश्लेषण में इस मामले का अध्ययन किया था, लेकिन अधिक यथार्थवादी धारणाओं के साथ प्रश्न खुला रहा। और बीच के वर्षों में, शोधकर्ताओं ने चेन-ऑफ-थॉट प्रॉम्प्टिंग की खोज की, जिससे प्रश्न को एक नई प्रासंगिकता मिली।

मेरिल और सभरवाल जानते थे कि उनका विशुद्ध गणितीय दृष्टिकोण वास्तविक भाषा मॉडल में विचार-श्रृंखला के तर्क के सभी पहलुओं को नहीं पकड़ सकता है, जहां संकेत में शब्दांकन होता है बहुत महत्वपूर्ण हो सकता है. लेकिन इससे कोई फर्क नहीं पड़ता कि प्रॉम्प्ट को कैसे वाक्यांशित किया जाता है, जब तक यह एक भाषा मॉडल को चरण-दर-चरण समाधान आउटपुट करने का कारण बनता है, मॉडल सैद्धांतिक रूप से ट्रांसफार्मर के माध्यम से बाद के मार्गों पर मध्यवर्ती चरणों के परिणामों का पुन: उपयोग कर सकता है। यह समानांतर गणना की सीमाओं से बचने का एक तरीका प्रदान कर सकता है।

इस बीच, पेकिंग विश्वविद्यालय की एक टीम इसी तरह सोच रही थी, और उनके प्रारंभिक परिणाम सकारात्मक थे। मई 2023 के एक पेपर में, उन्होंने कुछ गणित समस्याओं की पहचान की जो मेरिल और सभरवाल के ढांचे में सामान्य ट्रांसफार्मर के लिए असंभव होनी चाहिए, और पता चला मध्यवर्ती कदमों ने ट्रांसफार्मर को इन समस्याओं को हल करने में सक्षम बनाया।

अक्टूबर में, मेरिल और सभरवाल ने अपने पहले के काम को आगे बढ़ाया विस्तृत सैद्धांतिक अध्ययन विचार श्रृंखला की कम्प्यूटेशनल शक्ति का. उन्होंने मात्रा निर्धारित की कि अतिरिक्त कम्प्यूटेशनल शक्ति एक ट्रांसफार्मर को अंतिम उत्तर देने से पहले उपयोग करने की अनुमति देने वाले मध्यवर्ती चरणों की संख्या पर कैसे निर्भर करती है। सामान्य तौर पर, शोधकर्ता किसी भी समस्या को हल करने के लिए मध्यवर्ती चरणों की उचित संख्या की अपेक्षा करते हैं जो समस्या के इनपुट के आकार पर निर्भर हो। उदाहरण के लिए, दो 20-अंकीय संख्याओं को जोड़ने की सबसे सरल रणनीति के लिए दो 10-अंकीय संख्याओं को जोड़ने के समान दृष्टिकोण की तुलना में दोगुने मध्यवर्ती जोड़ चरणों की आवश्यकता होती है।

इस तरह के उदाहरण बताते हैं कि केवल कुछ मध्यवर्ती चरणों का उपयोग करने से ट्रांसफार्मर को अधिक लाभ नहीं होगा। वास्तव में, मेरिल और सभरवाल ने साबित कर दिया कि विचार की श्रृंखला वास्तव में तभी मदद करना शुरू करती है जब मध्यवर्ती चरणों की संख्या इनपुट के आकार के अनुपात में बढ़ती है, और कई समस्याओं के लिए मध्यवर्ती चरणों की संख्या को और भी बड़ा करने की आवश्यकता होती है।

परिणाम की संपूर्णता ने शोधकर्ताओं को प्रभावित किया। "उन्होंने वास्तव में इसे दबा दिया," कहा डैनियल सू, कोलंबिया विश्वविद्यालय में मशीन लर्निंग शोधकर्ता।

मेरिल और सभरवाल के हालिया काम से संकेत मिलता है कि विचार की श्रृंखला रामबाण नहीं है - सिद्धांत रूप में, यह ट्रांसफार्मर को कठिन समस्याओं को हल करने में मदद कर सकती है, लेकिन केवल बहुत सारे कम्प्यूटेशनल प्रयास की कीमत पर।

मेरिल ने कहा, "हम एक कदम से ट्रांसफार्मर की सीमाओं से पार पाने के विभिन्न तरीकों में रुचि रखते हैं।" "विचार की श्रृंखला एक रास्ता है, लेकिन यह पेपर दिखाता है कि यह सबसे किफायती तरीका नहीं हो सकता है।"

वास्तविकता में वापस

फिर भी, शोधकर्ता सावधान करते हैं कि इस प्रकार का सैद्धांतिक विश्लेषण वास्तविक भाषा मॉडल के बारे में केवल इतना ही बता सकता है। सकारात्मक परिणाम - सबूत है कि ट्रांसफार्मर सिद्धांत रूप से कुछ समस्याओं को हल कर सकते हैं - इसका मतलब यह नहीं है कि एक भाषा मॉडल वास्तव में प्रशिक्षण के दौरान उन समाधानों को सीख लेगा।

और यहां तक ​​कि ट्रांसफार्मर की सीमाओं को संबोधित करने वाले परिणाम भी चेतावनियों के साथ आते हैं: वे संकेत देते हैं कि कोई भी ट्रांसफार्मर सभी मामलों में कुछ समस्याओं को पूरी तरह से हल नहीं कर सकता है। निःसंदेह, यह एक बहुत ऊंची बार है। ह्सू ने कहा, "समस्या के कुछ विशेष मामले हो सकते हैं जिन्हें यह ठीक से संभाल सकता है।"

इन चेतावनियों के बावजूद, नया कार्य विभिन्न प्रकार के तंत्रिका नेटवर्क आर्किटेक्चर का विश्लेषण करने के लिए एक टेम्पलेट प्रदान करता है जो अंततः ट्रांसफार्मर को प्रतिस्थापित कर सकता है। यदि जटिलता सिद्धांत विश्लेषण से पता चलता है कि कुछ प्रकार के नेटवर्क दूसरों की तुलना में अधिक शक्तिशाली हैं, तो यह सबूत होगा कि वे नेटवर्क वास्तविक दुनिया में भी बेहतर प्रदर्शन कर सकते हैं।

च्यांग ने इस बात पर भी जोर दिया कि ट्रांसफॉर्मर की सीमाओं पर शोध और भी अधिक मूल्यवान है क्योंकि वास्तविक दुनिया के अनुप्रयोगों की एक विस्तृत श्रृंखला में भाषा मॉडल का तेजी से उपयोग किया जा रहा है, जिससे उनकी क्षमताओं को अधिक महत्व देना आसान हो जाता है।

चियांग ने कहा, "वास्तव में ऐसी बहुत सी चीजें हैं जो वे उतनी अच्छी तरह से नहीं करते हैं, और हमें इस बात का बहुत-बहुत ज्ञान होना चाहिए कि सीमाएं क्या हैं।" "इसलिए इस तरह का काम वास्तव में महत्वपूर्ण है।"

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी