जेफिरनेट लोगो

कंप्यूटिंग पायनियर एआई की मदद कर रहा है देखें | क्वांटा पत्रिका

दिनांक:

परिचय

. एलेक्सी एफ्रोसो 1980 के दशक में एक किशोर के रूप में अपने परिवार के साथ रूस से कैलिफ़ोर्निया चले गए, वे अपना सोवियत निर्मित निजी कंप्यूटर, एक इलेक्ट्रोनिका बीके-0010 ले आए। मशीन में कोई बाहरी भंडारण नहीं था और यह हर कुछ घंटों में गर्म हो जाती थी, इसलिए वीडियो गेम खेलने के लिए, उसे मशीन बंद होने से पहले कोड लिखना, समस्या निवारण करना और तेजी से खेलना पड़ता था। अधिकांश दिनों में दोहराए गए उस चक्र ने उसकी सीखने की गति को तेज़ कर दिया।

"मैं बहुत भाग्यशाली था कि यह सोवियत कंप्यूटर बहुत अच्छा नहीं था!" एफ्रोस ने कहा, जो आसानी से हंसता है और हल्के रूसी लहजे में बोलता है। वह आजकल उतने गेम नहीं खेलता है, लेकिन उसके उपकरणों का पता लगाने और उनका अधिकतम लाभ उठाने की इच्छा अभी भी बनी हुई है।

कैलिफोर्निया विश्वविद्यालय, बर्कले के ग्रेजुएट स्कूल में, एफ्रोस ने लंबी पैदल यात्रा और खाड़ी क्षेत्र की प्राकृतिक सुंदरता की खोज शुरू की। इससे पहले कि वह इन दृश्यों के आनंद के साथ कंप्यूटर के प्रति अपने जुनून को जोड़ना शुरू कर दे, ज्यादा समय नहीं लगा। उन्होंने तस्वीरों में छेदों को निर्बाध रूप से पैच करने का एक तरीका विकसित किया - उदाहरण के लिए, एक लाल लकड़ी के जंगल की तस्वीर में एक ख़राब डंपस्टर को प्राकृतिक दिखने वाले पेड़ों से बदलना। एडोब फोटोशॉप ने बाद में अपने "कंटेंट-अवेयर फिल" टूल के लिए तकनीक का एक संस्करण अपनाया।

अब बर्कले आर्टिफिशियल इंटेलिजेंस रिसर्च लैब में एक कंप्यूटर वैज्ञानिक, एफ्रोस दृश्य दुनिया को समझने, मॉडल करने और फिर से बनाने के लिए मशीन लर्निंग एल्गोरिदम के साथ बड़े पैमाने पर ऑनलाइन डेटा सेट को जोड़ता है। 2016 में, एसोसिएशन फॉर कंप्यूटिंग मशीनरी ने उन्हें इसका पुरस्कार दिया कंप्यूटिंग में पुरस्कार यथार्थवादी सिंथेटिक छवियां बनाने के उनके काम के लिए, उन्हें "छवि कीमियागर".

परिचय

एफ्रोस का कहना है कि, शोधकर्ताओं के सर्वोत्तम प्रयासों के बावजूद, मशीनें अभी भी हमारी तुलना में मौलिक रूप से भिन्न दिखती हैं। एफ्रोस ने कहा, "रंग और चमक के धब्बों के कारण हमें जो कुछ हम अभी देख रहे हैं उसे अपनी स्मृति से जोड़ना पड़ता है कि हमने इन चीजों को पहले कहां देखा है।" "यह कनेक्शन हम जो देख रहे हैं उसे अर्थ देता है।" अक्सर, मशीनें यह देखती हैं कि उस क्षण क्या है, बिना इसे उससे जोड़े जो उन्होंने पहले देखा है।

लेकिन अंतर के फायदे हो सकते हैं. कंप्यूटर विज़न में, एफ्रोस यह जानने की तात्कालिकता की सराहना करता है कि वस्तुओं और दृश्यों को पहचानने के लिए डिज़ाइन किया गया एल्गोरिदम किसी छवि पर काम करता है या नहीं। उनके कुछ कंप्यूटर विज़न प्रश्न - जैसे "पेरिस पेरिस जैसा क्यों दिखता है?”- दार्शनिक प्रवृत्ति रखते हैं। अन्य, जैसे लगातार कैसे संबोधित करें डेटा सेट में पूर्वाग्रह, व्यावहारिक और दबाव डालने वाले हैं।

एफ्रोस ने कहा, "अभी बहुत सारे लोग भाषा के साथ एआई कर रहे हैं।" "मैं उन संपूर्ण दृश्य पैटर्न को देखना चाहता हूं जो पीछे छूट गए हैं।" कंप्यूटर दृष्टि में सुधार करके, वह न केवल स्व-चालित कारों जैसे बेहतर व्यावहारिक अनुप्रयोगों की आशा करता है; जिसे वह "मानव दृश्य बुद्धिमत्ता" कहते हैं उसे बेहतर ढंग से समझने के लिए वह उन अंतर्दृष्टियों का भी उपयोग करना चाहता है - लोग जो देखते हैं उसका अर्थ कैसे बनाते हैं।

क्वांटा पत्रिका वैज्ञानिक महाशक्तियों, दृश्यों का वर्णन करने की कठिनाई और कृत्रिम बुद्धिमत्ता वास्तव में कितनी खतरनाक है, इस बारे में बात करने के लिए बर्कले कार्यालय में एफ्रोस से मुलाकात की। स्पष्टता के लिए साक्षात्कार को संक्षिप्त और संपादित किया गया है।

परिचय

जब आप विद्यार्थी थे तब से कंप्यूटर दृष्टि में कैसे सुधार हुआ है?

जब मैंने अपनी पीएच.डी. शुरू की, तो लगभग कुछ भी उपयोगी नहीं था। कुछ रोबोट कंप्यूटर विज़न का उपयोग करके कुछ पेंच कस रहे थे, लेकिन यह इस तरह की बहुत नियंत्रित औद्योगिक सेटिंग तक ही सीमित था। फिर, अचानक, मेरे कैमरे ने चेहरों का पता लगाया और उन्हें तेज़ कर दिया।

अब, कंप्यूटर विज़न बड़ी संख्या में अनुप्रयोगों में है, जैसे सेल्फ-ड्राइविंग कार। कुछ लोगों ने शुरू में जितना सोचा था, उससे अधिक समय लग रहा है, लेकिन फिर भी प्रगति हो रही है। जो लोग गाड़ी नहीं चलाते, उनके लिए यह बेहद रोमांचक है।

रुको, तुम गाड़ी नहीं चलाते?

नहीं, मुझे गाड़ी चलाने लायक ठीक से दिखाई नहीं देता! [हंसते हैं।] मेरे लिए, यह एक गेम चेंजर होगा - एक ऐसी कार होना जो मुझे कई जगहों पर ले जाएगी।

मुझे एहसास ही नहीं हुआ कि आपकी दृष्टि ने आपको गाड़ी चलाने से रोका है। क्या आप उन छवियों को कंप्यूटर मॉनिटर पर देख सकते हैं जिन पर आप काम करते हैं?

अगर मैं उन्हें काफी बड़ा बना दूं. आप देख सकते हैं कि मेरे फॉन्ट काफी बड़े हैं। मैं जन्म से ही ठीक से नहीं देख पा रहा था। मुझे लगता है कि बाकी सभी लोग अच्छी दृष्टि के मामले में अजीब हैं।

क्या आपकी गैर-अजीब स्थिति ने आपके शोध की दिशा को प्रभावित किया?

कौन जानता है? निश्चित रूप से इसका कोई मतलब नहीं था कि "ओह, मैं अच्छी तरह से नहीं देख पाता, इसलिए मैं ऐसे कंप्यूटर बनाने जा रहा हूं जो बेहतर देख सकें।" नहीं, मेरी प्रेरणा के रूप में वह कभी नहीं रही।

एक अच्छा वैज्ञानिक बनने के लिए आपको एक गुप्त महाशक्ति की आवश्यकता होती है। आपको बाकी सभी से बेहतर कुछ करने की जरूरत है। विज्ञान के बारे में सबसे अच्छी बात यह है कि हम सभी के पास एक जैसी महाशक्ति नहीं है। हो सकता है कि मेरी महाशक्ति यह रही हो, क्योंकि मैं बहुत अच्छी तरह से नहीं देख पाता, इसलिए मुझे दृष्टि समस्या के बारे में अधिक जानकारी हो सकती है।

परिचय

दुनिया को देखते समय मुझे पहले से ही पूर्व डेटा के महत्व के बारे में समझ आ गया था। मैं स्वयं बहुत अच्छी तरह से नहीं देख सकता था, लेकिन पूर्व अनुभवों की मेरी स्मृति ने छेदों को इतना भर दिया कि मैं मूल रूप से एक सामान्य व्यक्ति के रूप में अच्छे से काम कर सका। ज़्यादातर लोग नहीं जानते कि मैं ठीक से नहीं देख पाता। इससे मुझे - मुझे लगता है - यह अनोखा अंतर्ज्ञान मिला कि यह पिक्सल के बारे में कम और मेमोरी के बारे में अधिक हो सकता है।

कंप्यूटर केवल वही देखते हैं जो अभी है, जबकि हम उस क्षण को उन सभी चीजों की टेपेस्ट्री से जुड़ा हुआ देखते हैं जो हमने पहले देखी हैं।

क्या उन सूक्ष्म दृश्य पैटर्न को शब्दों में व्यक्त करना संभव है, जो उदाहरण के लिए, पेरिस को पेरिस जैसा बनाते हैं?

जब आप किसी विशेष शहर में होते हैं, तो कभी-कभी आपको बस यह पता होता है कि आप किस शहर में हैं - बस यही है जेई NE sais quoi, भले ही आप उस विशेष सड़क के कोने पर कभी नहीं गए हों। इसे शब्दों में वर्णित करना बेहद कठिन है, लेकिन यह पिक्सल में मौजूद है।

[पेरिस के लिए], आप इस बारे में बात कर सकते हैं कि आमतौर पर छह मंजिला इमारतें होती हैं, और आमतौर पर चौथी मंजिल पर बालकनी होती हैं। आप इसमें से कुछ को शब्दों में बयां कर सकते हैं, लेकिन बहुत कुछ भाषाई नहीं है। मेरे लिए यह रोमांचक है.

आपके हाल के काम में कंप्यूटर पढ़ाना शामिल है दृश्य डेटा ग्रहण करें ऐसे तरीकों से जो मानवीय दृष्टि की नकल करते हैं। वह कैसे काम करता है?

अभी, कंप्यूटरों में एक विशाल डेटा सेट है: अरबों यादृच्छिक छवियां इंटरनेट से हटा दी गई हैं। वे यादृच्छिक छवियां लेते हैं, एक छवि को संसाधित करते हैं, फिर दूसरी यादृच्छिक छवि लेते हैं, उसे संसाधित करते हैं, आदि। आप इस डेटा सेट पर बार-बार जाकर अपने [कंप्यूटर के दृश्य] सिस्टम को प्रशिक्षित करते हैं।

जिस तरह से हम - जैविक एजेंट - डेटा ग्रहण करते हैं वह बहुत अलग है। जब हम किसी अनोखी स्थिति का सामना करते हैं, तो यही एकमात्र समय होता है जब यह डेटा हमारे लिए मौजूद होता है। हम कभी भी इस सटीक स्थिति में, इस कमरे में, इस तरह की रोशनी के साथ, इस तरह से कपड़े पहने हुए कभी नहीं रहे हैं। सबसे पहले, हम इस डेटा का उपयोग वह करने के लिए करते हैं जो हमें करने की ज़रूरत है, दुनिया को समझने के लिए। फिर, हम इस डेटा का उपयोग इससे सीखने के लिए, भविष्य की भविष्यवाणी करने के लिए करते हैं।

परिचय

साथ ही, जो डेटा हम देखते हैं वह यादृच्छिक नहीं है। अब आप जो देख रहे हैं वह कुछ सेकंड पहले आपने जो देखा था उससे काफी हद तक संबंधित है। आप इसे वीडियो के रूप में सोच सकते हैं। वीडियो के सभी फ़्रेम एक-दूसरे से सहसंबद्ध हैं, जो कंप्यूटर द्वारा डेटा को संसाधित करने के तरीके से बहुत अलग है।

मैं सीखने के अपने दृष्टिकोण को ऐसा बनाने में रुचि रखता हूं जिसमें कंप्यूटर डेटा को आते ही देखें, उसे संसाधित करें और जैसे ही वे जाएं उससे सीखें।

मुझे लगता है कि यह उतना आसान नहीं है जितना कंप्यूटर स्थिर छवियों के बजाय वीडियो देखता है।

नहीं, अनुकूलन के लिए आपको अभी भी [कंप्यूटर] की आवश्यकता है। मुझे ऐसे दृष्टिकोण सीखने में दिलचस्पी है जो डेटा आते ही उसे देखते हैं और फिर जैसे ही वे आते हैं उन्हें संसाधित करते हैं और उससे सीखते हैं। हमारे पास जो एक दृष्टिकोण है उसे इस नाम से जाना जाता है परीक्षण-समय प्रशिक्षण. विचार यह है कि, जैसा कि आप एक वीडियो की तरह छवियों के अनुक्रम को देख रहे हैं, चीजें बदल रही होंगी। इसलिए आप नहीं चाहते कि आपका मॉडल ठीक हो। जिस तरह एक जैविक एजेंट हमेशा अपने परिवेश के अनुरूप ढलता रहता है, उसी तरह हम चाहते हैं कि कंप्यूटर भी लगातार अनुकूल बने।

मानक प्रतिमान यह है कि आप पहले एक बड़े डेटा सेट पर प्रशिक्षण लेते हैं, और फिर उसे तैनात करते हैं। Dall·E और ChatGPT को लगभग 2021 में इंटरनेट पर प्रशिक्षित किया गया था, और फिर [उनका ज्ञान] ख़त्म हो गया। फिर वह वही उगल देता है जो वह पहले से जानता है। एक अधिक स्वाभाविक तरीका है [परीक्षण-समय प्रशिक्षण], इसमें डेटा को अवशोषित करने और काम पर सीखने की कोशिश की जाती है, न कि अलग-अलग प्रशिक्षण और तैनाती चरण होते हैं।

निश्चित रूप से कंप्यूटर के साथ एक समस्या है, जिसे डोमेन शिफ्ट या डेटा सेट पूर्वाग्रह कहा जाता है - यह विचार है कि, यदि आपका प्रशिक्षण डेटा उस डेटा से बहुत अलग है जिसे आप सिस्टम को तैनात करते समय उपयोग कर रहे हैं, तो चीजें काम नहीं करेंगी अचे से। हम कुछ प्रगति कर रहे हैं, लेकिन हम अभी तक वहां तक ​​नहीं पहुंचे हैं।

परिचय

क्या समस्या वैसी ही है जैसे बैंक निवेशकों को चेतावनी देते हैं कि पिछला प्रदर्शन भविष्य की कमाई की भविष्यवाणी नहीं कर सकता है?

बिल्कुल यही समस्या है. वास्तविक दुनिया में चीजें बदलती रहती हैं। उदाहरण के लिए, यदि एक फ़ील्ड चूहा किसी घर में पहुँच जाता है, तो यह ठीक रहेगा। आपको उस चूहे से कभी छुटकारा नहीं मिलेगा! [हंसते हैं।] यह एक खेत में पैदा हुआ है, पहले कभी किसी घर में नहीं रहा है, और फिर भी यह आपकी सारी आपूर्ति ढूंढ लेगा और खा जाएगा। यह बहुत तेजी से अपने आप को ढालता है, सीखता है और नए माहौल में ढल जाता है।

वह क्षमता वर्तमान [कंप्यूटर विज़न] प्रणालियों में नहीं है। सेल्फ-ड्राइविंग के साथ, यदि आप कैलिफ़ोर्निया में एक कार को प्रशिक्षित करते हैं और फिर मिनेसोटा में उसका परीक्षण करते हैं - बूम! - वहां बर्फ है। इसने कभी बर्फ नहीं देखी. यह भ्रमित हो जाता है.

अब लोग इसे इतना अधिक डेटा प्राप्त करके संबोधित करते हैं कि [सिस्टम] ने मूल रूप से सब कुछ देख लिया है। फिर इसे अनुकूलित करने की आवश्यकता नहीं है। लेकिन वह अभी भी दुर्लभ घटनाओं को याद करता है।

ऐसा लगता है कि एआई सिस्टम ही आगे बढ़ने का रास्ता है। वह इंसानों को कहां छोड़ता है?

टेक्स्ट फ्रंट (चैटजीपीटी) और इमेज फ्रंट (Dall·E) दोनों पर ओपनएआई का काम अविश्वसनीय रूप से रोमांचक और आश्चर्यजनक रहा है। यह इस विचार की पुष्टि करता है कि, एक बार जब आपके पास पर्याप्त डेटा हो, तो उचित सरल तरीके आश्चर्यजनक रूप से अच्छे परिणाम दे सकते हैं।

परिचय

लेकिन चैटजीपीटी ने मुझे यह अहसास कराया कि मनुष्य उतने रचनात्मक और असाधारण नहीं हैं जितना हम खुद को देखना पसंद करते हैं। अधिकांश समय, हमारे अंदर के पैटर्न पहचानने वाले काम कर रहे होते हैं। हम उन वाक्यांशों या वाक्यों से बने वाक्यों में बोलते हैं जो हमने पहले सुने हैं। बेशक, हमारे पास कल्पना और रचनात्मकता की उड़ानें हैं। हम वो काम करने में सक्षम हैं जो कंप्यूटर नहीं कर सकते - कम से कम अभी के लिए। लेकिन अधिकांश समय, हमें ChatGPT द्वारा प्रतिस्थापित किया जा सकता है, और अधिकांश लोग इस पर ध्यान नहीं देंगे।

यह विनम्र है. लेकिन यह उन पैटर्नों से बाहर निकलने, कल्पना की अधिक उड़ान भरने की कोशिश करने, घिसी-पिटी बातों में न फंसने के लिए भी एक प्रेरक है।

कुछ वैज्ञानिकों ने एआई द्वारा मानवता के लिए उत्पन्न खतरों के बारे में चिंता व्यक्त की है। क्या आप चिंतित हैं?

बहुत से शोधकर्ता जिनका मैं बहुत सम्मान करता हूं, कृत्रिम बुद्धिमत्ता के बारे में चेतावनी देते रहे हैं। मैं उन शब्दों को छोटा नहीं करना चाहता. उनमें से बहुत सारे वैध बिंदु हैं। लेकिन किसी को चीजों को परिप्रेक्ष्य में रखने की जरूरत है।

फिलहाल सभ्यता को सबसे बड़ा खतरा कंप्यूटर से नहीं बल्कि इंसानों से है। परमाणु युद्ध और जलवायु परिवर्तन कहीं अधिक गंभीर चिंताएँ हैं। रूसी संघ ने अपने बिल्कुल निर्दोष पड़ोसी पर हमला किया है। मेरा जन्म रूस में हुआ था, और यह विशेष रूप से भयावह है कि मेरे पूर्व देशवासी ऐसा कर सकते हैं। मैं यह सुनिश्चित करने के लिए हर संभव प्रयास कर रहा हूं कि यह विषय नंबर एक बना रहे।

हम सोच सकते हैं कि एआई क्रांति हमारे जीवनकाल की सबसे महत्वपूर्ण घटना है। लेकिन अगर हम आज़ाद दुनिया को नहीं बचाएंगे तो एआई क्रांति कुछ भी नहीं होगी।

तो क्या आपको AI के बारे में बिल्कुल भी चिंता नहीं है?

नहीं, आप जानते हैं, मुझे चिंता करना अच्छा लगता है। मैं एक महान चिंता करनेवाला हूँ! लेकिन अगर दुनिया को नष्ट करने वाला पुतिन यहां है [अपने सिर पर हाथ उठाता है] और जलवायु परिवर्तन यहां है [अपने कंधों पर हाथ नीचे करता है], तो एआई यहां नीचे है [अपने पैरों पर हाथ नीचे करता है]। पुतिन और जलवायु परिवर्तन की तुलना में यह मेरी चिंता का एक प्रतिशत का अंश है।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी