जेफिरनेट लोगो

एआई जंगल में फेल क्यों होता है

दिनांक:

क्या आप अपने जीवन के साथ AI पर भरोसा करेंगे?

एक तंत्रिका नेटवर्क मॉडल के बारे में एआई अनुसंधान हलकों में कुछ प्रसिद्ध कहानी है भेड़ियों और पतियों के बीच अंतर करने के लिए प्रशिक्षित। मॉडल ने उन्हें सफलतापूर्वक पहचानने के लिए सीखा, जब उनके प्रशिक्षण के लिए उपयोग नहीं किए गए चित्र दिए गए थे, तो उच्च सटीकता प्राप्त करना।

हालांकि, यह जल्द ही स्पष्ट हो गया कि कुछ गलत हो रहा था - कुछ बहुत स्पष्ट छवियां मिसकैरेज की जा रही थीं। जब उन्होंने देखा कि तंत्रिका नेटवर्क इस तरह की घोर गलतियाँ क्यों कर रहा है, तो शोधकर्ताओं ने पता लगाया कि मॉडल ने एक छवि को वर्गीकृत करने के लिए सीखा है कि क्या उसमें बर्फ है या नहीं - प्रशिक्षण में प्रयुक्त भेड़ियों की सभी छवियों की पृष्ठभूमि में बर्फ थी, जबकि पतियों का नहीं था। अप्रत्याशित रूप से, मॉडल विफल हो रहा था।

अब, कल्पना करें कि हम मदद करने में सक्षम होना चाहते हैं जंगली में आवारा भूसी पकड़, इसलिए हम किसी भी तरह मॉडल को ठीक करते हैं, और पृष्ठभूमि रंग की परवाह किए बिना भेड़ियों और हकीस के बीच सही ढंग से भेद करना सिखाते हैं। हम इसे कैमरों के साथ उपकरणों में एम्बेड करते हैं, जिसे हम फिर स्वयंसेवकों और दोस्तों के बीच साझा करते हैं। हमें विश्वास है कि हमारे मॉडल को यह कहने की ज़रूरत नहीं है कि यह वास्तव में एक भेड़िया है, लेकिन हम कैसे आश्वस्त हैं कि मॉडल को और कुछ नहीं तोड़ेंगे? यदि मॉडल एक कोयोट देखता है तो क्या होगा? क्या यह आकार के आधार पर इसे भेड़िया के रूप में वर्गीकृत करेगा? एक लोमड़ी के बारे में क्या? एक भालू? क्या हम अपने दोस्तों को दृष्टिकोण के बारे में बताने का जोखिम उठाते हैं, यह उम्मीद करते हैं कि वे वास्तव में एक भालू हैं जो एक अच्छा रसदार स्टेक के साथ कार से बाहर निकलने से पहले एक भालू है?

मशीन लर्निंग क्या?

मशीन लर्निंग तकनीक, सबसे विशेष रूप से न्यूरल नेटवर्क, ने कई समस्याओं के साथ जबरदस्त सफलता हासिल की है, जिसमें अनुवाद और भाषण मान्यता जैसे कुख्यात मुश्किल भी शामिल हैं। उनकी उपयोगिता निर्विवाद है, और जैसे वे विभिन्न अनुप्रयोगों में सर्वव्यापी हो गए हैं।

पिछले 12 वर्षों में सफलताओं की एक श्रृंखला के बावजूद, एआई अनुसंधान समुदाय में वर्तमान अभ्यास वृद्धिशील अनुसंधान करना है। बड़े मॉडल और अधिक डेटा का उपयोग करके AI सिस्टम में सुधार किया जा रहा है, मेरे सहयोगी कैटरीना ने पिछले लेख में बताया। प्रदर्शन में लाभ आंशिक है, और स्कोरबोर्ड के अस्तित्व ने अभ्यास को प्रोत्साहित किया है।

ये स्कोरबोर्ड कई प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कार्यों के लिए सार्वजनिक डेटासेट प्रदान करते हैं, जैसे प्रश्न-उत्तर, सेंटीमेंट विश्लेषण, शब्दार्थ समानता, आदि। यह वास्तव में एक महान पहल है क्योंकि यह शोधकर्ताओं को तुलनीय प्रणाली बनाने के लिए प्रेरित करता है। हालांकि, यह शोधकर्ताओं को इन डेटासेटों के लिए अपने सिस्टम को बहुत अधिक दर्जी बनाता है। ऐसा नहीं है कि यह पहले नहीं हुआ था, लेकिन एआई के आसपास के सभी प्रचार के बीच, यह हाथ से बाहर चला गया है।

जैसा कि भेड़िया बनाम कर्कश समुंद्र में, समस्या यह है कि अधिक से अधिक मॉडल डेटा में idiosyncrasies सीखकर उच्च प्रदर्शन प्राप्त कर रहे हैं। तंत्रिका मॉडल काले बक्से की तरह होते हैं, जो यह पुष्टि करना कठिन बनाता है कि मॉडल कार्य के बजाय डेटा को हल कर रहा है या नहीं। पर्याप्त लोग इस बारे में बहुत अधिक चिंता नहीं करते हैं, और इसलिए इन मॉडलों को समय से पहले वास्तविक जीवन के उपयोग के मामलों में लागू किया जाता है, और जब तक कोई नोटिस करता है कि बर्फ एक कारक है, तो नुकसान हो जाता है।

इन ओवर-ऑप्टिमाइज़ेशन समस्याओं के दो मुख्य कारण हैं।

1. गलत काम के लिए अनुकूलन

मॉडलों को एक मीट्रिक के लिए अनुकूलित किया जाता है जो गणना करने के लिए आसान और तेज़ है, और जो कुछ हद तक, वांछित लक्ष्य (या सफलता के "माप") से संबंधित है। आसानी से औसत दर्जे की मात्रा के लिए एक वांछित लक्ष्य को मैप करने की समस्या को कई विषयों में दशकों से स्वीकार किया गया है, सबसे विशेष रूप से 1975 में, जब अर्थशास्त्री चार्ल्स गुडहार्ट ने आर्थिक विनियमन पर एक पेपर प्रकाशित किया, जो कि गुडहार्ट के कानून के रूप में जाना जाता है:

"जब एक माप एक मीट्रिक बन जाता है, तो यह एक अच्छा उपाय होना बंद हो जाता है।"

कम आसानी से: "किसी भी मनाया सांख्यिकीय नियमितता नियंत्रण उद्देश्यों के लिए उस पर दबाव डाला जाता है एक बार पतन होगा।" सूत्रीकरण के बावजूद, कानून का तात्पर्य यह है कि, जब भी हमारा प्रदर्शन कुछ संख्या के संदर्भ में मापा जाता है, हम उस संख्या के लिए अनुकूलन करते हैं। दूसरे शब्दों में, हम मीट्रिक को गेम करते हैं।

तंत्रिका नेटवर्क मॉडल एक ही काम कर रहे हैं। जिस मीट्रिक के लिए उन्हें अनुकूलित किया गया है, वह प्रदर्शन के वास्तविक माप के लिए सिर्फ एक प्रॉक्सी है। यह सुनिश्चित करने का कोई तरीका नहीं है कि मॉडल वास्तविक दुनिया में अपेक्षित प्रदर्शन के लिए मैप करने वाला है।

उदाहरण के लिए, न्यूरल मशीन अनुवाद मॉडल, BLEU के लिए अनुकूलित हैं, जो एक मीट्रिक है जो मॉडल के आउटपुट की तुलना संदर्भ अनुवाद, शब्द के लिए शब्द से करता है। वास्तविक दुनिया में, क्या मायने रखता है एक धाराप्रवाह और सटीक अनुवाद, भले ही मूल वाक्य से अलग तरीके से बना हो।

2. अप्रमाणिक डेटा के साथ अनुकूलन

स्नो डिटेक्शन स्टोरी की तरह, शक्तिशाली मॉडल केवल प्रशिक्षण डेटा में आइडिओसिंक्रासिस सीखकर उच्च (मीट्रिक) प्रदर्शन प्राप्त कर सकते हैं। लेकिन वास्तविक डेटा कुछ हद तक अलग हो सकते हैं और इसमें समान आइडिओसिंक्रैसी या शब्द, वर्ग, पृष्ठभूमि आदि की समग्र आवृत्तियाँ शामिल नहीं होती हैं। जब वास्तविक दुनिया के परिदृश्यों में तैनात होते हैं, तो ऐसे मॉडल अनिवार्य रूप से प्रतिनिधित्व के पक्षपाती होंगे जो उन्होंने प्रशिक्षण डेटा से सीखा था। एक हरे परिदृश्य में एक भेड़िया आसानी से एक कर्कश बन जाएगा।

जब प्रशिक्षण के लिए अप्राप्य डेटा का उपयोग किया जाता है, तो कभी-कभी इस बारे में कोई विचार नहीं किया जाता है कि प्रशिक्षण डेटा कैसे एकत्र किया गया था या यह कहाँ से आया था, यह उन लोगों से अलग-अलग स्थितियों में एक मॉडल लागू करने के लिए बहुत समस्याग्रस्त हो सकता है जो इसे जानता है। मॉडल पक्षपाती हो जाता है। और जब यह अंतर्निहित सीखा पूर्वाग्रह इस विशेष स्थिति में इतना समस्याग्रस्त नहीं लग सकता है (जब तक कि, निश्चित रूप से, किसी व्यक्ति को नियोजित किया जाता है), जब यह ऋण अनुप्रयोगों, आवास कर क्रेडिट, यहां तक ​​कि नौकरी के साक्षात्कार के साथ होता है, निहितार्थ के बारे में सोचना डरावना है.

पिछले साल, कैलिफोर्निया की राज्य अदालत ने फैसला किया कि नकद जमानत राशि तय करने में बहुत अधिक मानवीय पूर्वाग्रह थे। इस पूर्वाग्रह को हटाने के तर्क के साथ, अदालत में पेश होने में विफल रहने वाले व्यक्ति के जोखिम का आकलन करने के लिए उन्होंने एक एल्गोरिथ्म के उपयोग को अनिवार्य करने वाला कानून पारित किया, जो उन्होंने माना कि एक उद्देश्य दृश्य प्रदान करेगा। लेकिन इस एल्गोरिदम के लिए प्रशिक्षण डेटा कहां से आ रहा है? ऐतिहासिक रिकॉर्ड से सबसे अधिक संभावना है, जिसमें बहुत ही पूर्वाग्रह शामिल हैं एल्गोरिदम से बचने के लिए माना जाता है।

जंगली में

तंत्रिका नेटवर्क अपनी भविष्यवाणियों में आश्वस्त हैं, तब भी जब इसका कोई मतलब नहीं है।

भेड़िया बनाम कर्कश मॉडल को ठीक करने के बाद भी, हमें अभी भी एक समस्या थी। जब यह एक कोयोट, या एक लोमड़ी, या एक भालू की छवि को खिलाया जाता है तो वह क्या भविष्यवाणी करेगा?

हम जानते हैं कि हमारा भेड़िया बनाम कर्कश मॉडल एक भालू को नहीं जानता जब वह एक को देखता है। यह एक भेड़िया या कर्कश के रूप में वर्गीकृत करने का प्रयास करेगा। लेकिन सामान्य रूप से तंत्रिका मॉडल के साथ समस्या यह है कि वे किसी दिए गए आउटपुट को सौंपने की संभावना उस भविष्यवाणी में उनके आत्मविश्वास को प्रतिबिंबित नहीं करते हैं। संभावनाओं को विश्वास अनुमान के रूप में नहीं लिया जा सकता है। तंत्रिका नेटवर्क अपनी भविष्यवाणियों में तब भी आश्वस्त होते हैं जब यह बिल्कुल भी समझ में नहीं आता है, और यहां तक ​​कि जब इनपुट प्रशिक्षण के दौरान देखे गए मॉडल से इनपुट काफी हद तक अलग है। जब मॉडल एक भालू की छवि का सामना करता है, तो आउटपुट 100% भेड़िया से 100% कर्कश तक कुछ भी हो सकता है। यदि हमारा मॉडल 50% / 50% उत्पादन करेगा तो क्या यह राहत नहीं होगी? हम तब निकट आने से बचने के लिए सभी एहतियाती कदम उठा सकते थे।

हम अपने मॉडलों के लिए उच्च अनिश्चितता दिखाना चाहते हैं जब वे उन क्षेत्रों में डेटा के साथ काम कर रहे हैं जो उन्होंने पहले नहीं देखे हैं। “हम चाहते हैं कि उत्पादन में इस्तेमाल होने पर वे 'इनायत से विफल' हों, ”जैसा कि अनंत जैन ने मीडियम पर अपनी पोस्ट में लिखा है। यह हमें अपने मॉडल की भविष्यवाणियों पर भरोसा करने की अनुमति देगा।

दुर्भाग्य से, मौजूदा अभ्यास एक प्रदर्शन के आधार पर एक मॉडल पर भरोसा करना है जो इसे प्राप्त करता है एकल मीट्रिक एक से अधिक अप्रमाणिक डेटासेट.

क्या उम्मीद है?

इनमें से कोई भी समस्या आसानी से हल नहीं हो सकती है। उन्हें शोधकर्ताओं, इंजीनियरों, नियामकों, निर्णय और नीति-निर्माताओं के प्रयास और समय की आवश्यकता होती है। लेकिन उम्मीद है।

एक एकल छद्म मीट्रिक से ओवरफिटिंग से बचने के लिए जो वास्तविक वांछित उपाय को प्रतिबिंबित नहीं करेगा, हम पूरक मीट्रिक का उपयोग करके मॉडल को प्रशिक्षित कर सकते हैं। सबसे अच्छा मॉडल उन सभी पर समान रूप से अच्छा प्रदर्शन करने वाला होना चाहिए। इसके अतिरिक्त, हमें वास्तविक दुनिया में समय-समय पर प्रदर्शन को मापने के लिए कुछ महत्वपूर्ण प्रयास करना चाहिए, भले ही कुछ आंशिक उदाहरणों के सेट के लिए (क्योंकि इसके लिए आमतौर पर मैनुअल मानव कार्य की आवश्यकता होती है)।

जितना संभव हो उतना अंतर्निहित पूर्वाग्रह को कम करने के लिए, अधिक प्रतिनिधि प्रशिक्षण डेटा स्पष्ट रूप से मदद करेगा। हालांकि, यह जानना कि कौन सा डेटा अधिक प्रतिनिधि है यह अपने आप में एक चुनौती है। क्या वास्तव में उपयोगी होगा मॉडल है कि व्याख्या करने योग्य हैं, या जो उनकी भविष्यवाणी क्या है के लिए एक स्पष्टीकरण उत्पादन करने में सक्षम हैं। यह वही है जो हमें तुरंत भेड़िया-बर्फ पूर्वाग्रह को इंगित करने की अनुमति देगा।

अंत में, भरोसा करने में सक्षम होना कि कौन सी मॉडल भविष्यवाणी करती है, एआई के अधिक सुरक्षित अनुप्रयोगों के लिए अनुमति देगा। जब भी एक निश्चित आत्मविश्वास की सीमा तक नहीं पहुँचा जा सकता है, तो मनुष्य हस्तक्षेप कर सकता है, इस प्रकार मॉडल को उस डेटा से निपटने के लिए अपना शानदार काम करने की अनुमति देता है जो वे वास्तव में कर रहे हैं।

उनाबेल में, हम लगातार हकीक, भेड़िये और भालू के बीच आ रहे हैं। लेकिन मनुष्यों के पाश में होने से, हमारे मॉडलों की गलतियों को ठीक करना और जो हम वितरित करते हैं उसकी वास्तविक गुणवत्ता का मूल्यांकन करना, हम अपने मॉडल में सुधार करने में सक्षम हैं और हम अपने आप उनका मूल्यांकन कैसे करते हैं.

भाषाई प्रौद्योगिकी के हमारे VP को पार करके, अलोन लवी:

हमारे लिए सबसे महत्वपूर्ण व्यावहारिक [तथ्य] यह है कि प्रायोगिक परिणाम हम प्राप्त नहीं करते हैं जैसा कि हम मानते हैं और वास्तव में व्यवहार में हमारे अनुवाद परिदृश्य के प्रतिनिधि नहीं हैं। यह हमेशा होता है।

एआई यहां रहने के लिए है, और हम पहले से ही बहुत सारे लाभ उठा चुके हैं। लेकिन हम एक टिपिंग बिंदु पर पहुंच रहे हैं जहां तंत्रिका नेटवर्क का उपयोग इतने व्यापक रूप से किया जाता है कि हमें उन्हें प्रशिक्षित करने में अधिक जिम्मेदार होने की आवश्यकता है। हम अधिक से अधिक भेड़ियों को देख रहे हैं, बर्फ पिघल रही है, और हमारे दोस्त वहां से बाहर हैं। हो सकता है कि बहुत देर हो जाने से पहले हमें यह तय करने पर ध्यान देना चाहिए कि क्या टूट गया है।

स्रोत: https://unbabel.com/blog/artific-intelligence-fails/

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी