जेफिरनेट लोगो

मनुष्यों को बंद कर देता है AI सिस्टम भटक रहा है क्योंकि हम लेबलिंग पर सहमत नहीं हो सकते

दिनांक:

एक अध्ययन से पता चलता है कि शीर्ष मॉडलसेट एआई मॉडल और बेंचमार्क को प्रशिक्षित करने के लिए उपयोग किए जाते हैं कि तकनीक ने समय के साथ कैसे प्रगति की है।

डेटा शिक्षण मशीनों में एक महत्वपूर्ण संसाधन है कि कैसे विशिष्ट कार्यों को पूरा करना है, चाहे वह पौधों की विभिन्न प्रजातियों की पहचान कर रहा हो या स्वचालित रूप से कैप्शन उत्पन्न कर रहा हो। अधिकांश तंत्रिका नेटवर्क चम्मच-खिलाए गए और बहुत सारे एनोटेट नमूने हैं इससे पहले कि वे डेटा में सामान्य पैटर्न सीख सकें।

लेकिन ये लेबल हमेशा सही नहीं होते हैं; त्रुटि-प्रवण डेटासेट का उपयोग करने वाली प्रशिक्षण मशीनें अपने प्रदर्शन या सटीकता को कम कर सकती हैं। में पूर्वोक्त अध्ययन, MIT के नेतृत्व में, विश्लेषकों ने दस लोकप्रिय डेटासेट के माध्यम से कंघी की, जिन्हें अकादमिक पत्रों में 100,000 से अधिक बार उद्धृत किया गया है और पाया गया कि औसतन 3.4 प्रतिशत नमूनों को गलत तरीके से लेबल किया गया है।

डेटासेट ने फ़ोटोनेट में तस्वीरों से लेकर ऑडियोसेट में ध्वनियों तक, अमेज़ॅन से स्क्रैप की गई समीक्षा, क्विकड्राव में स्केच को देखा। कुछ गलतियों के उदाहरण संकलित शोधकर्ताओं द्वारा यह दिखाया गया है कि कुछ मामलों में, यह एक स्पष्ट गड़गड़ाहट है, जैसे कि एक मगरमच्छ के रूप में टैग किए गए प्रकाश बल्ब की एक ड्राइंग, दूसरों में, हालांकि, यह हमेशा स्पष्ट नहीं होता है। क्या बेसबॉल के बाल्टी की तस्वीर को 'बेसबॉल' या 'बाल्टी' के रूप में लेबल किया जाना चाहिए?

चौंकाने वाली सामग्री सामने आई

1TB के अंदर ImageNet डेटासेट का उपयोग दुनिया के AI को प्रशिक्षित करने के लिए किया जाता है: नग्न बच्चे, शराबी पार्टियां, पोर्न स्टार, और बहुत कुछ

अधिक पढ़ें

प्रत्येक नमूने की व्याख्या करना श्रमसाध्य कार्य है। यह कार्य अक्सर अमेज़ॅन मैकेनिकल तुर्क जैसी सेवाओं के लिए आउटसोर्स किया जाता है, जहां श्रमिकों को एआई सिस्टम में खिलाने के लिए टुकड़े टुकड़े, लेबलिंग छवियों और ऑडियो के माध्यम से डेटा पीस के माध्यम से बोने के लिए सभी के वर्गमूल का भुगतान किया जाता है। यह प्रक्रिया पूर्वाग्रह और त्रुटियों को बढ़ाती है, जैसा कि उपप्रलेखित है यहाँ उत्पन्न करें.

मजदूरों पर यथास्थिति से सहमत होने का दबाव डाला जाता है, यदि वे भुगतान करना चाहते हैं: यदि उनमें से बहुत से बेसबॉल के एक बाल्टी को एक 'बाल्टी' के रूप में लेबल करते हैं, और आप तय करते हैं कि यह 'बेसबॉल' है, तो आपको भुगतान नहीं किया जा सकता है यदि मंच आंकड़े गलत हैं या आप जानबूझकर लेबलिंग को गड़बड़ाने की कोशिश कर रहे हैं। इसका मतलब है कि कार्यकर्ता सबसे लोकप्रिय लेबल का चयन करेंगे ताकि वे यह देख सकें कि उन्होंने गलती की है। यह उनके हित में है कि वे कथा से चिपके रहें और गले में अंगूठे की तरह चुभने से बचें। इसका मतलब है कि त्रुटियां, या बदतर, नस्लीय पूर्वाग्रह और इसी तरह, इन डेटासेट में स्नोबॉल।

त्रुटि दर डेटासेट में भिन्न होती है। में IMAGEnetसबसे लोकप्रिय डेटासेट ऑब्जेक्ट मान्यता के लिए मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाता है, दर ऊपर रेंगता है छह फीसदी। इसे देखते हुए लगभग 15 मिलियन फ़ोटो शामिल हैं, इसका मतलब है कि सैकड़ों हजारों लेबल गलत हैं। छवियों के कुछ वर्ग दूसरों की तुलना में अधिक प्रभावित होते हैं, उदाहरण के लिए, 'गिरगिट' को अक्सर 'हरी छिपकली' और इसके विपरीत के लिए गलत माना जाता है।

अन्य नॉक-ऑन प्रभाव हैं: तंत्रिका जाल कुछ लेबलों के साथ डेटा के भीतर सुविधाओं को गलत तरीके से जोड़ना सीख सकते हैं। यदि कहें, तो समुद्र की कई छवियों में नावें लगती हैं और वे 'समुद्र' के रूप में चिह्नित होते रहते हैं, एक मशीन भ्रमित हो सकती है और गलत तरीके से नावों को समुद्र के रूप में पहचानने की अधिक संभावना है।

इन शोर डेटासेट का उपयोग करके मॉडल के प्रदर्शन की तुलना करने की कोशिश करते समय समस्याएँ उत्पन्न नहीं होती हैं। अगर इन प्रणालियों को वास्तविक दुनिया में तैनात किया जाता है, तो कर्टिस नॉर्थकट, स्टड के सह-प्रमुख लेखक और एमआईटी में पीएचडी छात्र, और मशीन-लर्निंग स्टार्टअप, चिपब्रेन के कोफाउंडर और सीटीओ, को भी समझाया जाता है। रजिस्टर.

"एक आत्म-ड्राइविंग कार की कल्पना करें जो चौराहों पर स्टीयरिंग निर्णय लेने के लिए एआई मॉडल का उपयोग करता है," उन्होंने कहा। “अगर सेल्फ-ड्राइविंग कार को एक लेबल पर लगातार त्रुटियों के साथ प्रशिक्षित किया जाता है जो कि तीन-तरफ़ा चौराहे को चार-तरफ़ा चौराहे के रूप में गुमराह करता है? उत्तर: यह सड़क से ड्राइव करना सीख सकता है जब यह तीन-तरफ़ा चौराहों का सामना करता है।

यदि स्व-चालित कार को एक डेटासेट पर लगातार लेबल त्रुटियों के साथ प्रशिक्षित किया जाता है जो कि चार-तरफ़ा चौराहे के रूप में एक तीन-तरफ़ा चौराहे को भ्रमित करता है?

“शायद आपके एआई सेल्फ-ड्राइविंग मॉडल में से एक वास्तव में प्रशिक्षण शोर के लिए अधिक मजबूत है, ताकि यह सड़क पर उतना ड्राइव न करे। यदि आपका टेस्ट सेट लेबल वास्तविकता से मेल नहीं खाएगा, तो आपको यह कभी पता नहीं चलेगा कि आपका सेट बहुत शोरगुल वाला है। इसका मतलब यह है कि आप अपने ऑटो-पायलट एआई मॉडल को ठीक से नाप नहीं सकते हैं - कम से कम तब तक नहीं जब तक आप कार को वास्तविक दुनिया में बाहर तैनात नहीं करते हैं, जहां यह सड़क पर ड्राइव कर सकता है। ”

जब अध्ययन पर काम कर रही टीम ने इमेजनेट के कुछ जटिल नेटवर्क को प्रशिक्षित किया, जो त्रुटियों से मुक्त हो गए, तो उनके प्रदर्शन में सुधार हुआ। बोफिंस का मानना ​​है कि डेवलपर्स को डेटासेट पर बड़े मॉडलों के प्रशिक्षण के बारे में दो बार सोचना चाहिए जिनकी उच्च त्रुटि दर है, और उन्हें पहले नमूनों के माध्यम से छाँटने की सलाह देते हैं। क्लीनलैब, टीम द्वारा विकसित और गलत और असंगत लेबल की पहचान करने के लिए उपयोग किया जाने वाला सॉफ़्टवेयर, पर पाया जा सकता है GitHub.

नॉर्थकट ने कहा, "क्लिनलैब, शोरगुल लेबल के साथ मशीन सीखने के लिए एक ओपन-सोर्स पाइथन पैकेज है।" “एमआईटी में आविष्कार किया गया मशीन लर्निंग के उप-क्षेत्र में क्लिनलैब सभी को मशीन लर्निंग के सिद्धांत और एल्गोरिदम को लागू करके काम करता है। मैंने अन्य शोधार्थियों को आत्मविश्वास से सीखने की अनुमति देने के लिए क्लीनलैब का निर्माण किया - आमतौर पर कोड की केवल कुछ पंक्तियों के साथ - लेकिन इससे भी महत्वपूर्ण बात यह है कि शोर लेबल के साथ मशीन सीखने में विज्ञान की प्रगति को आगे बढ़ाने और नए शोधकर्ताओं को आसानी से शुरू करने के लिए एक ढांचा प्रदान करने के लिए। ”

और ध्यान रखें कि यदि कोई डेटासेट लेबल विशेष रूप से घटिया है, तो बड़े जटिल तंत्रिका नेटवर्क का प्रशिक्षण हमेशा इतना फायदेमंद नहीं हो सकता है। बड़े मॉडल छोटे से अधिक डेटा को ओवरफिट करते हैं।

“कभी-कभी छोटे मॉडल का उपयोग करना बहुत शोर डेटासेट के लिए काम करेगा। हालांकि, बहुत शोर डेटासेट के लिए छोटे मॉडल का उपयोग करने में हमेशा डिफ़ॉल्ट होने के बजाय, मुझे लगता है कि मुख्य takeaway यह है कि मशीन लर्निंग इंजीनियरों को अपने मॉडलों को बेंचमार्क करने से पहले अपने परीक्षण सेट को साफ और सही करना चाहिए, ”नॉर्थकट ने निष्कर्ष निकाला। ®

Coinsmart। यूरोपा में बेस्टे बिटकॉइन-बोरसे
स्रोत: https://go.theregister.com/feed/www.theregister.com/2021/04/01/mit_ai_accurur/

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी

हमारे साथ चैट करें

नमस्ते! मैं आपकी कैसे मदद कर सकता हूँ?