जेफिरनेट लोगो

मशीनें डेटा को कैसे 'ग्रोक' करती हैं? | क्वांटा पत्रिका

दिनांक:

परिचय

अपनी सारी प्रतिभा के बावजूद, कृत्रिम तंत्रिका नेटवर्क हमेशा की तरह गूढ़ बने हुए हैं। जैसे-जैसे ये नेटवर्क बड़े होते जाते हैं, उनकी क्षमताएं बढ़ती जाती हैं, लेकिन उनकी आंतरिक कार्यप्रणाली को समझना हमेशा असंभव रहा है। शोधकर्ता लगातार किसी भी अंतर्दृष्टि की तलाश में रहते हैं जो उन्हें इन मॉडलों में मिल सके।

कुछ साल पहले, उन्होंने एक नया खोजा।

जनवरी 2022 में, ChatGPT के पीछे की कंपनी OpenAI के शोधकर्ता, की रिपोर्ट जब इन प्रणालियों को गलती से सामान्य से अधिक समय तक डेटा पर कब्जा करने की अनुमति दी गई, तो उन्होंने समस्याओं को हल करने के अनूठे तरीके विकसित किए। आमतौर पर, जब इंजीनियर तंत्रिका नेटवर्क से मशीन लर्निंग मॉडल बनाते हैं - जो कृत्रिम न्यूरॉन्स नामक गणना की इकाइयों से बना होता है - तो वे एक निश्चित बिंदु पर प्रशिक्षण को रोक देते हैं, जिसे ओवरफिटिंग शासन कहा जाता है। यह तब होता है जब नेटवर्क मूल रूप से अपने प्रशिक्षण डेटा को याद रखना शुरू कर देता है और अक्सर नई, अनदेखी जानकारी को सामान्यीकृत नहीं करता है। लेकिन जब ओपनएआई टीम ने गलती से इस बिंदु से परे एक छोटे नेटवर्क को प्रशिक्षित किया, तो ऐसा लगा कि समस्या की समझ विकसित हो गई है जो केवल याद रखने से परे है - यह अचानक किसी भी परीक्षण डेटा को प्राप्त कर सकता है।

शोधकर्ताओं ने इस घटना को "ग्रॉकिंग" नाम दिया है, यह शब्द विज्ञान-कथा लेखक रॉबर्ट ए. हेनलेन द्वारा गढ़ा गया है जिसका अर्थ है किसी चीज़ को "इतनी अच्छी तरह से समझना कि पर्यवेक्षक अवलोकन की जा रही प्रक्रिया का एक हिस्सा बन जाए।" कुछ गणितीय संचालन करने के लिए डिज़ाइन किए गए अतिप्रशिक्षित तंत्रिका नेटवर्क ने संख्याओं की सामान्य संरचना सीख ली थी और परिणाम को आत्मसात कर लिया था। यह झंझट में पड़ गया और समाधान बन गया।

"यह [था] बहुत रोमांचक और विचारोत्तेजक," कहा मिखाइल बेल्किन कैलिफ़ोर्निया विश्वविद्यालय, सैन डिएगो के, जो तंत्रिका नेटवर्क के सैद्धांतिक और अनुभवजन्य गुणों का अध्ययन करते हैं। "इसने बहुत से अनुवर्ती कार्यों को प्रेरित किया।"

दरअसल, दूसरों ने परिणामों को दोहराया है और यहां तक ​​कि उन्हें रिवर्स-इंजीनियरिंग भी किया है। सबसे हालिया कागजात ने न केवल यह स्पष्ट किया कि ये तंत्रिका नेटवर्क जब वे टटोलते हैं तो क्या कर रहे हैं, बल्कि एक नया लेंस भी प्रदान किया है जिसके माध्यम से उनके अंदरूनी हिस्सों की जांच की जा सकती है। "गहन शिक्षा के विभिन्न पहलुओं को समझने के लिए ग्रोकिंग सेटअप एक अच्छे मॉडल जीव की तरह है," ने कहा एरिक माइकॉड मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के।

इस जीव के अंदर झाँकने से कई बार बहुत कुछ पता चलता है। "न केवल आप सुंदर संरचना पा सकते हैं, बल्कि वह सुंदर संरचना यह समझने के लिए भी महत्वपूर्ण है कि आंतरिक रूप से क्या चल रहा है," उन्होंने कहा नील नंदा, अब लंदन में Google DeepMind पर।

सीमा से परे

मूल रूप से, मशीन लर्निंग मॉडल का काम सरल लगता है: किसी दिए गए इनपुट को वांछित आउटपुट में बदलना। यह सीखने के एल्गोरिदम का काम है कि वह सर्वोत्तम संभव फ़ंक्शन की तलाश करे जो ऐसा कर सके। कोई भी दिया गया मॉडल केवल कार्यों के सीमित सेट तक पहुंच सकता है, और वह सेट अक्सर मॉडल में मापदंडों की संख्या से तय होता है, जो तंत्रिका नेटवर्क के मामले में लगभग कृत्रिम न्यूरॉन्स के बीच कनेक्शन की संख्या के बराबर है।

परिचय

जैसे-जैसे नेटवर्क प्रशिक्षित होता है, यह अधिक जटिल कार्यों को सीखता है, और अपेक्षित आउटपुट और वास्तविक आउटपुट के बीच विसंगति प्रशिक्षण डेटा के लिए कम होने लगती है। इससे भी बेहतर, यह विसंगति, जिसे हानि के रूप में जाना जाता है, परीक्षण डेटा के लिए भी कम होने लगती है, जो प्रशिक्षण में उपयोग नहीं किया जाने वाला नया डेटा है। लेकिन कुछ बिंदु पर, मॉडल ओवरफिट होने लगता है, और जबकि प्रशिक्षण डेटा का नुकसान कम होता रहता है, परीक्षण डेटा का नुकसान बढ़ना शुरू हो जाता है। इसलिए, आमतौर पर, तभी शोधकर्ता नेटवर्क का प्रशिक्षण बंद कर देते हैं।

यह प्रचलित ज्ञान था जब ओपनएआई की टीम ने यह पता लगाना शुरू किया कि तंत्रिका नेटवर्क गणित कैसे कर सकता है। वे एक छोटे का उपयोग कर रहे थे ट्रांसफार्मर - एक नेटवर्क आर्किटेक्चर जिसने हाल ही में बड़े भाषा मॉडल में क्रांति ला दी है - विभिन्न प्रकार के मॉड्यूलर अंकगणित करने के लिए, जिसमें आप सीमित सेट संख्याओं के साथ काम करते हैं जो स्वयं पर वापस लूप करते हैं। उदाहरण के लिए, मोडुलो 12, घड़ी के मुख पर किया जा सकता है: 11 + 2 = 1। टीम ने दो संख्याओं को जोड़ने के नेटवर्क उदाहरण दिखाए, a और b, आउटपुट उत्पन्न करने के लिए, c, मॉड्यूलो 97 में (97 नंबर वाली घड़ी के मुख के बराबर)। फिर उन्होंने अनदेखे संयोजनों पर ट्रांसफार्मर का परीक्षण किया a और b यह देखने के लिए कि क्या यह सही भविष्यवाणी कर सकता है c.

जैसा कि अपेक्षित था, जब नेटवर्क ने ओवरफिटिंग व्यवस्था में प्रवेश किया, तो प्रशिक्षण डेटा पर नुकसान शून्य के करीब आ गया (उसने जो देखा था उसे याद रखना शुरू कर दिया था), और परीक्षण डेटा पर नुकसान बढ़ना शुरू हो गया। यह सामान्यीकरण नहीं था. "और फिर एक दिन, हम भाग्यशाली हो गए," टीम लीडर एलेथिया पावर ने कहा, सितंबर 2022 में बोल रहा हूं सैन फ्रांसिस्को में एक सम्मेलन में. "और भाग्यशाली से मेरा मतलब है भुलक्कड़।"

टीम का सदस्य जो नेटवर्क को प्रशिक्षण दे रहा था, छुट्टी पर चला गया और प्रशिक्षण बंद करना भूल गया। जैसे-जैसे नेटवर्क के इस संस्करण का प्रशिक्षण जारी रहा, यह अचानक अनदेखे डेटा पर सटीक हो गया। स्वचालित परीक्षण से टीम के बाकी सदस्यों को इस अप्रत्याशित सटीकता का पता चला, और उन्हें जल्द ही एहसास हुआ कि नेटवर्क ने संख्याओं को व्यवस्थित करने के चतुर तरीके ढूंढ लिए हैं a और b. आंतरिक रूप से, नेटवर्क कुछ उच्च-आयामी स्थान में संख्याओं का प्रतिनिधित्व करता है, लेकिन जब शोधकर्ताओं ने इन संख्याओं को 2डी स्थान पर प्रक्षेपित किया और उन्हें मैप किया, तो संख्याओं ने एक वृत्त बना लिया।

यह आश्चर्यजनक था. टीम ने मॉडल को कभी नहीं बताया कि वह मॉड्यूलो 97 गणित कर रहा है, या यहां तक ​​कि मॉड्यूलो का क्या मतलब है - उन्होंने इसे केवल अंकगणित के उदाहरण दिखाए। ऐसा प्रतीत होता है कि मॉडल किसी गहरे, विश्लेषणात्मक समाधान पर पहुंच गया है - एक ऐसा समीकरण जो सभी संयोजनों के लिए सामान्यीकृत है a और b, प्रशिक्षण डेटा से भी परे। नेटवर्क ख़राब हो गया था, और परीक्षण डेटा की सटीकता 100% तक बढ़ गई थी। "यह अजीब है," पावर ने अपने दर्शकों से कहा।

टीम ने विभिन्न कार्यों और विभिन्न नेटवर्क का उपयोग करके परिणामों का सत्यापन किया। खोज रुकी रही.

घड़ियों और पिज्जा की

लेकिन नेटवर्क को कौन सा समीकरण मिला था? ओपनएआई पेपर में यह नहीं कहा गया, लेकिन परिणाम ने नंदा का ध्यान खींचा। "तंत्रिका नेटवर्क के बारे में मुख्य रहस्यों और कष्टप्रद चीजों में से एक यह है कि वे जो करते हैं उसमें बहुत अच्छे हैं, लेकिन डिफ़ॉल्ट रूप से, हमें पता नहीं होता कि वे कैसे काम करते हैं," नंदा ने कहा, जिनका काम एक प्रशिक्षित रिवर्स-इंजीनियरिंग पर केंद्रित है नेटवर्क यह पता लगाने के लिए कि उसने कौन से एल्गोरिदम सीखे।

नंदा ओपनएआई की खोज से रोमांचित थे, और उन्होंने एक तंत्रिका नेटवर्क को अलग करने का फैसला किया जो खराब हो गया था। उन्होंने ओपनएआई न्यूरल नेटवर्क का और भी सरल संस्करण डिजाइन किया ताकि वह मॉड्यूलर अंकगणित करना सीखते समय मॉडल के मापदंडों की बारीकी से जांच कर सकें। उन्होंने वही व्यवहार देखा: ओवरफिटिंग ने सामान्यीकरण का मार्ग प्रशस्त किया और परीक्षण सटीकता में अचानक सुधार हुआ। उसका नेटवर्क भी नंबरों को एक घेरे में व्यवस्थित कर रहा था. इसमें कुछ प्रयास करना पड़ा, लेकिन अंततः नंदा को इसका कारण पता चल गया।

जबकि यह एक वृत्त पर संख्याओं का प्रतिनिधित्व कर रहा था, नेटवर्क केवल घड़ी देखने वाले किंडरगार्टनर की तरह अंकों की गिनती नहीं कर रहा था: यह कुछ परिष्कृत गणितीय जोड़-तोड़ कर रहा था। नेटवर्क के मापदंडों के मूल्यों का अध्ययन करके, नंदा और सहकर्मियों ने खुलासा किया यह उन पर "असतत फूरियर ट्रांसफॉर्म" निष्पादित करके घड़ी संख्याओं को जोड़ रहा था - साइन और कोसाइन जैसे त्रिकोणमितीय कार्यों का उपयोग करके संख्याओं को परिवर्तित करना और फिर समाधान पर पहुंचने के लिए त्रिकोणमितीय पहचान का उपयोग करके इन मानों में हेरफेर करना। कम से कम, उसका विशेष नेटवर्क तो यही कर रहा था।

जब एमआईटी में एक टीम पीछा किया नंदा के काम पर, उन्होंने दिखाया कि ग्रोकिंग तंत्रिका नेटवर्क हमेशा इस "घड़ी" एल्गोरिदम की खोज नहीं करते हैं। कभी-कभी, नेटवर्क वह ढूंढते हैं जिसे शोधकर्ता "पिज़्ज़ा" एल्गोरिदम कहते हैं। यह दृष्टिकोण एक पिज्जा को स्लाइस में विभाजित करने और क्रम में क्रमांकित करने की कल्पना करता है। दो संख्याओं को जोड़ने के लिए, पिज्जा के केंद्र से संबंधित संख्याओं तक तीर खींचने की कल्पना करें, फिर उस रेखा की गणना करें जो पहले दो तीरों द्वारा बनाए गए कोण को समद्विभाजित करती है। यह रेखा पिज़्ज़ा के कुछ स्लाइस के बीच से होकर गुजरती है: स्लाइस की संख्या दो संख्याओं का योग है। इन संक्रियाओं को साइन और कोसाइन के त्रिकोणमितीय और बीजगणितीय जोड़-तोड़ के संदर्भ में भी लिखा जा सकता है a और b, और वे सैद्धांतिक रूप से घड़ी के दृष्टिकोण के समान ही सटीक हैं।

परिचय

"दोनों [द] घड़ी और पिज़्ज़ा एल्गोरिदम में यह गोलाकार प्रतिनिधित्व है," कहा ज़िमिंग लियू, एमआईटी टीम का एक सदस्य। “लेकिन… वे इन साइन और कोसाइन का लाभ कैसे उठाते हैं, यह अलग है। इसलिए हम उन्हें अलग-अलग एल्गोरिदम कहते हैं।”

और यह अभी भी सब कुछ नहीं था. मॉड्यूलो गणित करने के लिए कई नेटवर्कों को प्रशिक्षित करने के बाद, लियू और उनके सहयोगियों ने पाया कि इन नेटवर्कों द्वारा खोजे गए लगभग 40% एल्गोरिदम पिज्जा या घड़ी एल्गोरिदम की किस्में थे। टीम यह समझ नहीं पाई है कि बाकी समय नेटवर्क क्या कर रहे हैं। पिज़्ज़ा और घड़ी एल्गोरिदम के लिए, "यह बस होता है कि यह कुछ ऐसा ढूंढता है जिसकी हम इंसान व्याख्या कर सकते हैं," लियू ने कहा।

और जब कोई नेटवर्क किसी समस्या को हल करता है तो वह जो भी एल्गोरिदम सीखता है, वह सामान्यीकरण में शोधकर्ताओं के संदेह से भी अधिक शक्तिशाली होता है। जब मैरीलैंड विश्वविद्यालय में एक टीम एक सरल तंत्रिका नेटवर्क खिलाया यादृच्छिक त्रुटियों के साथ प्रशिक्षण डेटा, नेटवर्क ने पहले अपेक्षा के अनुरूप व्यवहार किया: प्रशिक्षण डेटा, त्रुटियों और सभी को ओवरफिट करें, और असंदूषित परीक्षण डेटा पर खराब प्रदर्शन करें। हालाँकि, एक बार जब नेटवर्क ने ध्यान दिया और परीक्षण प्रश्नों का सही उत्तर देना शुरू कर दिया, तो यह गलत प्रविष्टियों के लिए भी सही उत्तर दे सका, याद किए गए गलत उत्तरों को भूल गया और यहां तक ​​​​कि अपने प्रशिक्षण डेटा को भी सामान्य बना लिया। उन्होंने कहा, "इस प्रकार के भ्रष्टाचारों के लिए ग्रोकिंग कार्य वास्तव में काफी मजबूत है।" दर्शील दोशी, पेपर के लेखकों में से एक।

नियंत्रण के लिए लड़ाई

परिणामस्वरूप, शोधकर्ता अब उस प्रक्रिया को समझने लगे हैं जिसके कारण एक नेटवर्क अपने डेटा को चुरा लेता है। नंदा ग्रोकिंग की स्पष्ट बाहरी अचानकता को संस्मरण से सामान्यीकरण तक क्रमिक आंतरिक संक्रमण के परिणाम के रूप में देखते हैं, जो तंत्रिका नेटवर्क के अंदर दो अलग-अलग एल्गोरिदम का उपयोग करते हैं। उन्होंने कहा, जब कोई नेटवर्क सीखना शुरू करता है, तो वह सबसे पहले याद रखने में आसान एल्गोरिदम का पता लगाता है; हालाँकि, एल्गोरिथ्म सरल होने के बावजूद, इसके लिए काफी संसाधनों की आवश्यकता होती है, क्योंकि नेटवर्क को प्रशिक्षण डेटा के प्रत्येक उदाहरण को याद रखने की आवश्यकता होती है। लेकिन जैसे-जैसे यह याद आ रहा है, तंत्रिका नेटवर्क के कुछ हिस्से ऐसे सर्किट बनाना शुरू कर देते हैं जो सामान्य समाधान को लागू करते हैं। प्रशिक्षण के दौरान दो एल्गोरिदम संसाधनों के लिए प्रतिस्पर्धा करते हैं, लेकिन यदि नेटवर्क को नियमितीकरण नामक एक अतिरिक्त घटक के साथ प्रशिक्षित किया जाता है तो अंततः सामान्यीकरण जीत जाता है।

लियू ने कहा, "नियमितीकरण धीरे-धीरे समाधान को सामान्यीकरण समाधान की ओर ले जाता है।" यह एक ऐसी प्रक्रिया है जो मॉडल की कार्यात्मक क्षमता को कम कर देती है - फ़ंक्शन की जटिलता जिसे मॉडल सीख सकता है। जैसे-जैसे नियमितीकरण मॉडल की जटिलता को कम करता है, सामान्यीकरण एल्गोरिथ्म, जो कम जटिल है, अंततः जीत जाता है। नंदा ने कहा, "उसी [स्तर के] प्रदर्शन के लिए सामान्यीकरण सरल है।" अंत में, तंत्रिका नेटवर्क याद रखने वाले एल्गोरिदम को त्याग देता है।

इसलिए, जबकि सामान्यीकरण करने की विलंबित क्षमता अचानक उभरने लगती है, आंतरिक रूप से नेटवर्क के पैरामीटर सामान्यीकरण एल्गोरिदम को लगातार सीख रहे हैं। यह केवल तभी होता है जब नेटवर्क ने सामान्यीकरण एल्गोरिदम को सीख लिया है और याद रखने वाले एल्गोरिदम को पूरी तरह से हटा दिया है, जिससे आप परेशान हो जाते हैं। नंदा ने कहा, "यह संभव है कि जो चीजें अचानक लगती हैं वे सतह के नीचे धीरे-धीरे हों।" अन्य मशीन लर्निंग अनुसंधान.

इन सफलताओं के बावजूद, यह याद रखना महत्वपूर्ण है कि ग्रोकिंग अनुसंधान अभी भी अपनी प्रारंभिक अवस्था में है। अब तक, शोधकर्ताओं ने केवल बेहद छोटे नेटवर्क का अध्ययन किया है, और यह स्पष्ट नहीं है कि क्या ये निष्कर्ष बड़े, अधिक शक्तिशाली नेटवर्क पर टिके रहेंगे। बेल्किन ने यह भी चेतावनी दी है कि आज के तंत्रिका नेटवर्क द्वारा किए जा रहे सभी विभिन्न कार्यों की तुलना में मॉड्यूलर अंकगणित "समुद्र में एक बूंद" है। ऐसे गणित के लिए तंत्रिका नेटवर्क का रिवर्स-इंजीनियरिंग समाधान उन सामान्य सिद्धांतों को समझने के लिए पर्याप्त नहीं हो सकता है जो इन नेटवर्कों को सामान्यीकरण की ओर ले जाते हैं। बेल्किन ने कहा, "पेड़ों का अध्ययन करना बहुत अच्छा है।" "लेकिन हमें जंगल का भी अध्ययन करना है।"

बहरहाल, इन नेटवर्कों के अंदर झाँकने और उन्हें विश्लेषणात्मक रूप से समझने की क्षमता के बहुत बड़े निहितार्थ हैं। हम में से अधिकांश के लिए, फ़ोरियर रूपांतरण और वृत्तों के चापों को द्विभाजित करना मॉड्यूलो जोड़ करने का एक बहुत ही अजीब तरीका है - मानव न्यूरॉन्स बस ऐसा नहीं सोचते हैं। नंदा ने कहा, "लेकिन अगर आप रैखिक बीजगणित से बने हैं, तो इसे इस तरह से करना वास्तव में बहुत मायने रखता है।"

"ये अजीब [कृत्रिम] दिमाग हमारे दिमाग से अलग तरह से काम करते हैं," उन्होंने कहा। “[उनके] अपने नियम और संरचना हैं। हमें यह सोचना सीखना होगा कि तंत्रिका नेटवर्क कैसे सोचता है।"

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी