जेफिरनेट लोगो

एक फीचर स्टोर के साथ ब्रेनलेस एआई से परे

दिनांक:

एक फीचर स्टोर के साथ ब्रेनलेस एआई से परे

एआई-संचालित उत्पाद जो इसके अनुप्रयोग के भीतर उपलब्ध डेटा तक सीमित हैं, जेलीफ़िश की तरह हैं: इसकी स्वायत्त प्रणाली इसे कार्यात्मक बनाती है, लेकिन इसमें मस्तिष्क का अभाव है। हालाँकि, आप फीचर स्टोर की मदद से अपने मॉडल को डेटा समृद्ध "दिमाग" के साथ विकसित कर सकते हैं।


By जिम डाउलिंग, लॉजिकल क्लॉक के सीईओ, केटीएच रॉयल इंस्टीट्यूट ऑफ टेक्नोलॉजी में एसोसिएट प्रोफेसर.

TLDR; मशीन लर्निंग मॉडल केवल उतने ही अच्छे होते हैं जितने डेटा (फीचर्स) पर उन्हें प्रशिक्षित किया जाता है। उद्यमों में, डेटा वैज्ञानिक अक्सर प्रयोगशाला में बहुत प्रभावी मॉडल को प्रशिक्षित कर सकते हैं - जब उन्हें इस बात की खुली छूट दी जाती है कि किस डेटा का उपयोग करना है। हालाँकि, उनमें से कई डेटा स्रोत डिस्कनेक्टेड सिस्टम और डेटा साइलो के कारण उत्पादन वातावरण में उपलब्ध नहीं हैं। एक एआई-संचालित उत्पाद जो अपने एप्लिकेशन साइलो के भीतर उपलब्ध डेटा तक सीमित है, अपने उपयोगकर्ताओं के बारे में ऐतिहासिक डेटा या बाहरी स्रोतों से प्रासंगिक प्रासंगिक डेटा को याद नहीं कर सकता है। यह जेलिफ़िश की तरह है - इसकी स्वायत्त प्रणाली इसे कार्यात्मक और उपयोगी बनाती है, लेकिन इसमें मस्तिष्क का अभाव है। हालाँकि, आप फीचर स्टोर की मदद से अपने मॉडल को ब्रेन-फ्री एआई से टोटल रिकॉल एआई में विकसित कर सकते हैं, एक केंद्रीकृत प्लेटफॉर्म जो पूरे उद्यम में फैले डेटा तक कम विलंबता पहुंच वाले मॉडल प्रदान कर सकता है।

स्वायत्त ए.आई

जेलिफ़िश निस्संदेह परिष्कृत व्यवहार वाले जटिल प्राणी हैं - वे चलते हैं, संभोग करते हैं और खाते हैं। वे एक ही खुले स्थान से कचरा खाते हैं और फेंक देते हैं। फिर भी, उनके पास कोई मस्तिष्क नहीं है - उनकी स्वायत्त प्रणाली उनकी जरूरतों के लिए पर्याप्त है। हाल के वर्षों में एआई में सबसे बड़ी सफलता गहन शिक्षण द्वारा सक्षम की गई है, जिसके लिए बड़ी मात्रा में डेटा और विशेष कंप्यूट हार्डवेयर (उदाहरण के लिए, जीपीयू) की आवश्यकता होती है। हालाँकि, जेलिफ़िश की तरह, छवि प्रसंस्करण और गहन शिक्षा के साथ एनएलपी में हाल की सफलताओं के लिए किसी मस्तिष्क की आवश्यकता नहीं है - कोई कार्यशील स्मृति, इतिहास या संदर्भ नहीं।

आज की अधिकांश गहन सीख जेलिफ़िश एआई है। हमने छवियों में वस्तुओं की पहचान करने और प्राकृतिक भाषा में अनुवाद करने में अविश्वसनीय प्रगति की है। फिर भी, ऐसे गहन शिक्षण मॉडल को आमतौर पर अपनी भविष्यवाणी करने के लिए केवल तत्काल इनपुट - छवि या पाठ - की आवश्यकता होती है।  इनपुट सिग्नल सूचना-समृद्ध है. इन छवि और एनएलपी मॉडलों को संदर्भ या यादों के साथ इनपुट को बढ़ाने के लिए शायद ही कभी 'मस्तिष्क' की आवश्यकता होती है। Google अनुवाद को स्कॉट्स और आयरिश के बीच की ऐतिहासिक शत्रुता को जानने की आवश्यकता नहीं है कि इसे व्हिस्की या व्हिस्की लिखा जाता है या नहीं। जेलीफ़िश एआई प्रभावशाली है - इनपुट डेटा जानकारी से भरपूर है, और मॉडल लेबल किए गए उदाहरणों से काल्पनिक रूप से उन्नत व्यवहार सीख सकते हैं। भविष्यवाणियाँ करने के लिए आवश्यक सभी "ज्ञान" मॉडल में अंतर्निहित है। मॉडल को कार्यशील मेमोरी की आवश्यकता नहीं है (उदाहरण के लिए, यह जानने की आवश्यकता नहीं है कि उपयोगकर्ता ने अंतिम मिनट के दौरान आपकी वेबसाइट पर 10 बार क्लिक किया है)।

अब छवि वर्गीकरण या एनएलपी के लिए एआई के उपयोग की तुलना एक वेब एप्लिकेशन के निर्माण से करें जो वेबसाइट ब्राउज़ करने वाले उपयोगकर्ता के साथ बातचीत करने के लिए एआई का उपयोग करेगा। आपके एप्लिकेशन को आपके वेब ब्राउज़र से प्राप्त होने वाला तत्काल इनपुट डेटा माउस या कीबोर्ड पर क्लिक होता है।  इनपुट सिग्नल सूचना-प्रकाश है - केवल उपयोगकर्ता क्लिक का उपयोग करके एक उपयोगी मॉडल को प्रशिक्षित करना मुश्किल है। हालाँकि, बड़ी इंटरनेट कंपनियाँ कई अलग-अलग स्रोतों से उपयोगकर्ताओं के बारे में ढेर सारी जानकारी एकत्र करती हैं और उस उपयोगकर्ता डेटा को सुविधाओं में बदल देती हैं (सूचना-समृद्ध सिग्नल जो प्रशिक्षण मॉडल या मॉडल के साथ भविष्यवाणियां करने के लिए उपयोग के लिए तैयार हैं)। मॉडल तब क्लिक सुविधाओं को उपयोगकर्ताओं के बारे में ऐतिहासिक विशेषताओं और प्रासंगिक सुविधाओं के साथ जोड़कर मॉडल में जानकारी-समृद्ध इनपुट बना सकते हैं। उदाहरण के लिए, आप उत्पाद के साथ उपयोगकर्ता की सहभागिता बढ़ाने के लिए उपयोगकर्ता के इतिहास और संदर्भ के बारे में जो कुछ भी आप जानते हैं, उसके साथ उपयोगकर्ता की कार्रवाई को बढ़ा सकते हैं। मशीन लर्निंग (एमएल) के लिए फीचर स्टोर स्टोर करता है और मॉडलों को ये सुविधाएं प्रदान करता है। हमारा मानना ​​है कि एआई-संचालित उत्पाद जो ऐतिहासिक और प्रासंगिक सुविधाओं तक आसानी से पहुंच सकते हैं, उद्यम में एआई की अगली लहर का नेतृत्व करेंगे, और उन उत्पादों को एमएल के लिए एक फीचर स्टोर की आवश्यकता होगी।

डेटा वैज्ञानिक और एमएल इंजीनियर डिस्कनेक्ट

उद्यमों में तनाव का एक आम स्रोत "भोले-भाले" डेटा वैज्ञानिकों और "सड़क-वार" एमएल इंजीनियरों के बीच है। अच्छी सॉफ्टवेयर इंजीनियरिंग प्रथाओं से प्रेरित होकर, कई एमएल इंजीनियरों का मानना ​​है कि एमएल मॉडल स्व-निहित होने चाहिए, और डेटा वैज्ञानिकों के साथ तनाव पैदा हो सकता है जो अपने मॉडल में ऐसी विशेषताएं शामिल करना चाहते हैं जो "स्पष्ट रूप से उत्पादन प्रणाली में उपलब्ध नहीं हैं।"

हालाँकि, डेटा वैज्ञानिकों को सर्वोत्तम मॉडल बनाने का काम सौंपा गया है ताकि वे अंतिम पंक्ति में जोड़ सकें - अधिक उपयोगकर्ताओं को संलग्न करें, राजस्व बढ़ाएं, लागत कम करें। वे जानते हैं कि वे अधिक डेटा और डेटा के अधिक विविध स्रोतों के साथ बेहतर मॉडल को प्रशिक्षित कर सकते हैं। उदाहरण के लिए, एक डेटा वैज्ञानिक यह अनुमान लगाने की कोशिश कर रहा है कि किसी वित्तीय लेनदेन में मनी लॉन्ड्रिंग का संदेह है या नहीं, उसे पता चल सकता है कि एक शक्तिशाली विशेषता पिछले दिन/सप्ताह/महीने में इस व्यक्ति से संबंधित वित्तीय हस्तांतरण का ग्राफ है। वे मनी लॉन्ड्रिंग के झूठे अलर्ट को 100* गुना तक कम कर सकते हैं, झूठे अलर्ट की जांच की लागत को कम कर सकते हैं, जिससे व्यवसाय को प्रति वर्ष लाखों डॉलर की बचत हो सकती है।. डेटा वैज्ञानिक मॉडल को एमएल इंजीनियर को सौंप देता है, जो उत्पादन वातावरण में ग्राफ-आधारित सुविधाओं को शामिल करने के विचार को खारिज कर देता है, और उत्पादन में क्या संभव है और क्या संभव नहीं है, यह संचार करते समय तनाव पैदा होता है। डेटा वैज्ञानिक निराश है - लेकिन ऐसा होने की जरूरत नहीं है।

फ़ीचर स्टोर अब एआई-संचालित उत्पादों के लिए ऐतिहासिक और प्रासंगिक सुविधाओं को संग्रहीत करने के लिए वास्तविक उद्यम मंच है। फ़ीचर स्टोर, वास्तव में, एआई-संचालित उत्पादों के लिए मस्तिष्क है, तीन-आंखों वाला रेवेन जो मॉडल को एप्लिकेशन में केवल स्थानीय स्थिति ही नहीं, बल्कि पूरे उद्यम के इतिहास और स्थिति तक पहुंचने में सक्षम बनाता है।

फ़ीचर स्टोर एप्लिकेशन या मॉडल सर्विंग इंफ्रास्ट्रक्चर को सूचना-प्रकाश इनपुट (जैसे उपयोगकर्ता या शॉपिंग कार्ट सत्र की पहचान करने वाली कुकी) लेने में सक्षम बनाता है और बेहतर भविष्यवाणियां करने में सक्षम फ़ीचर वैक्टर बनाने के लिए एंटरप्राइज़ या उससे परे कहीं से भी एकत्रित सुविधाओं के साथ इसे समृद्ध करता है। . और जैसा कि हम डीप लर्निंग से जानते हैं, अधिक सुविधाओं और डेटा के साथ मॉडल सटीकता में अनुमानित रूप से सुधार होता है, इसलिए उनकी सटीकता में सुधार करने के लिए मॉडलों में अधिक से अधिक सुविधाओं को जोड़ने की ओर रुझान बढ़ेगा। एंड्रयू एनजी हाल ही में इस दृष्टिकोण की वकालत कर रहे हैं जिसे वे कहते हैं डेटा-केंद्रित विकास अधिक पारंपरिक मॉडल-केंद्रित विकास के बजाय। बड़े उद्यमों में एक और ध्यान देने योग्य प्रवृत्ति तेजी से और अधिक स्केलेबल फ़ीचर स्टोर का निर्माण करना है जो एआई-संचालित उत्पाद के लिए उपलब्ध समय बजट के भीतर उन सुविधाओं की आपूर्ति कर सकते हैं। लेकिन AI एंटरप्राइज़ सॉफ़्टवेयर उत्पादों में क्रांति लाने जा रहा है, तो हम यह कैसे सुनिश्चित करें कि हमारे एआई-सक्षम उत्पाद सिर्फ जेलिफ़िश एआई नहीं हैं?

फ़ीचर स्टोर के साथ AI-सक्षम उत्पादों को सक्षम करना

विरोधी पैटर्न: सर्विंग लेयर के लिए "फीचर इंजीनियरिंग" कोड को दोबारा लागू करना गैर- हैसूखी. यह मॉडलों को प्रशिक्षित करने के लिए उपयोग की जाने वाली सुविधाओं और परिचालन मॉडलों को दी जाने वाली सुविधाओं के बीच 'विषम' का जोखिम पेश करता है।

हम एआई-सक्षम उत्पादों को केवल एप्लिकेशन द्वारा एकत्रित इनपुट सुविधाओं का उपयोग करने तक सीमित करने से कैसे बच सकते हैं? मॉडल को उन सभी डेटा तक पहुंच से लाभ होगा जो उद्यम ने उपयोगकर्ता, उत्पाद या उसके संदर्भ के बारे में एकत्र किया है। हालाँकि, यहाँ घर्षण का एक संभावित स्रोत माइक्रोसर्विसेज और डेटा स्टोव-पाइप के लिए प्रमुख वास्तुशिल्प प्राथमिकता है। मॉडल स्वयं को मॉडल-सर्विंग इंफ्रास्ट्रक्चर में माइक्रोसर्विसेज के रूप में तैनात किया जा रहा है केएफसर्विंगTensorFlow सर्व करनाया, एनवीडिया ट्राइटन. हम इन मॉडलों को अधिक सुविधाओं तक पहुंच कैसे दे सकते हैं?

एंटी-पैटर्न: माइक्रोसर्विस-आधारित ऑनलाइन फ़ीचर स्टोर। कच्चे इनपुट डेटा से वास्तविक समय में सुविधाओं की गणना करने के लिए माइक्रोसर्विसेज का उपयोग किया जा सकता है। जब सुविधाओं की पूर्व-गणना की जा सकती है, तो माइक्रोसर्विसेज एक विरोधी पैटर्न है। यह आर्किटेक्चर विलंबता जोड़ता है, इसे अत्यधिक उपलब्ध कराने की आवश्यकता है, हॉटस्पॉट को संभालता है, और माइक्रोसर्विसेज संसाधनों का उपभोग तब भी करते हैं जब उनकी आवश्यकता नहीं होती है। सर्वर रहित फ़ंक्शन उस स्थिति में स्वीकार्य हो सकते हैं जहां सेकंड की वार्मअप विलंबता सहनीय हो। लेकिन प्रशिक्षण डेटा की गणना करने के लिए माइक्रोसर्विसेज का अभी भी पुन: उपयोग किया जाना चाहिए - अन्यथा, प्रशिक्षण/सेवा में गड़बड़ी का जोखिम है।

फ़ीचर स्टोर के बिना, एप्लिकेशन क्रमशः ऐतिहासिक और प्रासंगिक सुविधाओं (डेटा) की गणना या पुनर्प्राप्ति के लिए माइक्रोसर्विसेज या डेटाबेस से संपर्क कर सकते हैं। एप्लिकेशन में सुविधाओं की गणना करना अपने आप में एक एंटी-पैटर्न है क्योंकि यह फीचर इंजीनियरिंग कोड को डुप्लिकेट करता है - मॉडल के लिए प्रशिक्षण डेटा उत्पन्न करने के लिए वह कोड पहले से मौजूद होना चाहिए। अनुप्रयोगों में फ़ीचर इंजीनियरिंग तर्क को फिर से लागू करने से एप्लिकेशन में गणना की गई सुविधाओं और प्रशिक्षण के लिए गणना की गई सुविधाओं के बीच विषमता का खतरा भी उत्पन्न होता है। यदि सेवा और प्रशिक्षण वातावरण एक ही प्रोग्रामिंग भाषा का उपयोग करते हैं, तो वे सुविधाओं की गणना करने वाली संस्करणित लाइब्रेरी का पुन: उपयोग करके गैर-DRY कोड से बच सकते हैं। हालाँकि, भले ही फीचर इंजीनियरिंग लॉजिक को प्रशिक्षण और सेवा दोनों में पायथन में लिखा गया हो, यह प्रशिक्षण के लिए पायस्पार्क और सेवा के लिए पायथन या पायथन के विभिन्न संस्करणों का उपयोग कर सकता है। संस्करणित लाइब्रेरीज़ मदद कर सकती हैं लेकिन फीचर तिरछा समस्या का सामान्य समाधान नहीं हैं।

फ़ीचर स्टोर फ़ीचर पाइपलाइन में एक बार फ़ीचर की गणना करके प्रशिक्षण/सर्विंग स्क्यू समस्या का समाधान करता है। इसके बाद फ़ीचर पाइपलाइन का पुन: उपयोग (1) प्रशिक्षण डेटा बनाने और (2) उन पूर्व-इंजीनियर्ड सुविधाओं को फ़ीचर स्टोर में सहेजने के लिए किया जाता है। पूर्वानुमान लगाने के लिए आवश्यकता पड़ने पर सेवा संबंधी बुनियादी ढांचा उन सुविधाओं को पुनः प्राप्त कर सकता है। उदाहरण के लिए, जब कोई एप्लिकेशन किसी उपयोगकर्ता के बारे में भविष्यवाणी करना चाहता है, तो वह फीचर स्टोर से पूर्व-इंजीनियर सुविधाओं को पुनः प्राप्त करने के लिए उपयोगकर्ता की आईडी, शॉपिंग कार्ट आईडी, सत्र आईडी या स्थान की आपूर्ति करेगा। सुविधाओं को फ़ीचर वेक्टर के रूप में पुनर्प्राप्त किया जाता है, और फ़ीचर वेक्टर को उस मॉडल पर भेजा जाता है जो भविष्यवाणी करता है। फ़ीचर वैक्टर को पुनः प्राप्त करने के लिए फ़ीचर स्टोर सेवा को आमतौर पर के रूप में जाना जाता है ऑनलाइन फ़ीचर स्टोर. ऑनलाइन फ़ीचर स्टोर से सुविधाओं को पुनः प्राप्त करने का तर्क केवल अनुप्रयोगों में ही नहीं, बल्कि मॉडल सर्विंग इंफ्रास्ट्रक्चर में भी लागू किया जा सकता है। सर्विंग इंफ्रास्ट्रक्चर में सुविधाओं को देखने का लाभ यह है कि यह एप्लिकेशन लॉजिक को साफ-सुथरा रखता है, और एप्लिकेशन केवल आईडी और रियल-टाइम फीचर्स को मॉडल सर्विंग इंफ्रास्ट्रक्चर में भेजता है, जो बदले में फीचर वेक्टर बनाता है, इसे मॉडल के लिए भेजता है। भविष्यवाणी, और परिणाम को एप्लिकेशन पर लौटाता है। कम विलंबता और उच्च थ्रूपुट ऑनलाइन फीचर स्टोर के लिए महत्वपूर्ण गुण हैं - जितनी तेज़ी से आप सुविधाओं को पुनः प्राप्त कर सकते हैं और जितनी अधिक सुविधाएँ आप एक निश्चित समय बजट में शामिल कर सकते हैं, उतने ही अधिक सटीक मॉडल आपको उत्पादन में तैनात करने में सक्षम होने चाहिए। को डोरडैश उद्धृत करें:

“फ़ीचर स्टोर पर विलंबता मॉडल सेवा का एक हिस्सा है, और मॉडल सेवा विलंबता कम मिलीसेकंड सीमा में होती है। इस प्रकार, पढ़ने की विलंबता आनुपातिक रूप से कम होनी चाहिए। 

एआई-सक्षम उत्पाद भविष्यवाणियां करने के लिए मॉडल का उपयोग करते हैं, और उन मॉडलों को बेहतर भविष्यवाणियां करने के लिए ऐतिहासिक और प्रासंगिक डेटा (सुविधाएं) प्रदान करने के लिए एक ऑनलाइन फ़ीचर स्टोर की आवश्यकता होती है।

ऑनलाइन फ़ीचर स्टोर के साथ डेटा-केंद्रित एआई

तो, संक्षेप में कहें तो, यदि आप अपने एमएल मॉडल को दिमाग देना चाहते हैं, तो उन्हें एक फीचर स्टोर से कनेक्ट करें। वैयक्तिकृत सेवाओं का निर्माण करने वाले उद्यमों के लिए, फीचर स्टोर अपने मॉडलों को ग्राहक के 360-डिग्री उद्यम-व्यापी दृश्य के साथ समृद्ध कर सकता है - न कि केवल ग्राहक के उत्पाद-विशिष्ट दृष्टिकोण के साथ। फीचर स्टोर उन भविष्यवाणियों को बनाने के लिए उपलब्ध अधिक डेटा के माध्यम से अधिक सटीक भविष्यवाणियों को सक्षम बनाता है, और यह अंततः बेहतर उपयोगकर्ता अनुभव, बढ़ी हुई व्यस्तता और उपयोगकर्ताओं द्वारा अपेक्षित उत्पाद बुद्धिमत्ता वाले उत्पादों को सक्षम बनाता है।

*इस पर आधारित है एक सच्ची कहानी.

मूल। अनुमति के साथ पुनर्प्रकाशित।

जैव: जिम डाउलिंग (@jim_dowling) लॉजिकल क्लॉक्स के सीईओ और केटीएच रॉयल इंस्टीट्यूट ऑफ टेक्नोलॉजी में एसोसिएट प्रोफेसर हैं। वह ओपन-सोर्स हॉप्सवर्क्स प्लेटफ़ॉर्म के प्रमुख वास्तुकार हैं, जो उन्नत एंड-टू-एंड एमएल प्लेटफ़ॉर्म के साथ दुनिया का पहला एंटरप्राइज़ फ़ीचर स्टोर है।

संबंधित:



शीर्ष आलेख पिछले 30 दिन

सबसे लोकप्रिय
  1. डेटा साइंटिस्ट बनने के लिए एक गाइड (कदम दर कदम दृष्टिकोण)
  2. डेटा वैज्ञानिक, डेटा इंजीनियर और अन्य डेटा करियर, समझाया गया
  3. वैक्स: पांडा लेकिन 1000 गुना तेज
  4. चीट शीट के साथ SQL में डेटा तैयार करना!
  5. शीर्ष प्रोग्रामिंग भाषाएं और उनके उपयोग
सर्वाधिक साझा
  1. डेटा साइंटिस्ट बनने के लिए एक गाइड (कदम दर कदम दृष्टिकोण)
  2. डेटा वैज्ञानिक, डेटा इंजीनियर और अन्य डेटा करियर, समझाया गया
  3. कैसे निर्धारित करें कि आपका मशीन लर्निंग मॉडल ओवरट्रेन है
  4. डीपमाइंड मशीन लर्निंग में सबसे महत्वपूर्ण एल्गोरिदम में से एक की फिर से कल्पना करना चाहता है
  5. डेटा साइंस और मशीन लर्निंग के लिए आवश्यक रैखिक बीजगणित

Coinsmart। यूरोपा में बेस्टे बिटकॉइन-बोरसे
स्रोत: https://www.kdnuggets.com/2021/06/ai-with-feature-store.html

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी