जेफिरनेट लोगो

ज्ञान ग्राफ़ 101: प्रचार के पीछे की कहानी (और लाभ) - डेटा विविधता

दिनांक:

ज्ञान ग्राफ़, हालांकि अन्य डेटा प्रबंधन पेशकशों के समान प्रसिद्ध नहीं हैं, कई कार्यक्षेत्रों में एंटरप्राइज़ डेटा प्रबंधन आवश्यकताओं को संबोधित करने के लिए एक सिद्ध गतिशील और स्केलेबल समाधान हैं। डेटा, मेटाडेटा और सामग्री के केंद्र के रूप में, वे विभिन्न प्रणालियों में बिखरे हुए डेटा का एक एकीकृत, सुसंगत और स्पष्ट दृश्य प्रदान करते हैं। व्याख्या के संदर्भ और संवर्धन के स्रोत के रूप में वैश्विक ज्ञान का उपयोग करते हुए, वे मालिकाना जानकारी को भी अनुकूलित करते हैं ताकि संगठन निर्णय लेने में वृद्धि कर सकें और अपनी डेटा संपत्तियों के बीच पहले से अनुपलब्ध सहसंबंधों का एहसास कर सकें। 

संगठन केवल एक दशक पहले ही जानते हैं कि उन्हें जिस डेटा को प्रबंधित करने की आवश्यकता है वह बहुत विविध, फैला हुआ और अथाह मात्रा में है। यह अक्सर अर्थहीन, गुप्त डेटा और सामग्री की उलझी जटिलता के बीच व्यावसायिक अंतर्दृष्टि और अवसरों को खो देता है। ज्ञान ग्राफ़ डेटा एक्सेस को एकीकृत करके, लचीला डेटा एकीकरण प्रदान करके और डेटा प्रबंधन को स्वचालित करके इन चुनौतियों को दूर करने में मदद करते हैं। ज्ञान ग्राफ़ के उपयोग का विभिन्न प्रणालियों और प्रक्रियाओं पर अत्यधिक प्रभाव पड़ता है, यही कारण है गार्नर भविष्यवाणी करते हैं 2025 तक, ग्राफ प्रौद्योगिकियों का उपयोग 80% डेटा और एनालिटिक्स नवाचारों में किया जाएगा, जो 10 में 2021% से अधिक है, जिससे पूरे उद्यम में तेजी से निर्णय लेने की सुविधा मिलेगी। 

ज्ञान ग्राफ परिभाषित और शब्दार्थ (और ओन्टोलॉजी) क्यों मायने रखते हैं

के अनुसार विकिपीडिया, एक ज्ञान ग्राफ एक ज्ञान आधार है जो डेटा का प्रतिनिधित्व और संचालन करने के लिए ग्राफ-संरचित डेटा मॉडल या टोपोलॉजी का उपयोग करता है। ज्ञान ग्राफ का हृदय एक ज्ञान मॉडल है - अवधारणाओं, संस्थाओं, संबंधों और घटनाओं के परस्पर जुड़े विवरणों का एक संग्रह जहां:

  • विवरणों में औपचारिक शब्दार्थ होते हैं जो लोगों और कंप्यूटर दोनों को उन्हें कुशलतापूर्वक और स्पष्ट रूप से संसाधित करने की अनुमति देते हैं
  • विवरण एक दूसरे में योगदान करते हैं, एक नेटवर्क बनाते हैं, जहां प्रत्येक इकाई उससे संबंधित संस्थाओं के विवरण के हिस्से का प्रतिनिधित्व करती है
  • ज्ञान मॉडल के अनुसार विविध डेटा सिमेंटिक मेटाडेटा द्वारा जुड़ा और वर्णित है

एक सामान्य अर्थपूर्ण विवरण बनाकर, एक ज्ञान ग्राफ उच्च स्तर के अमूर्तन को सक्षम बनाता है जो डेटा के भौतिक बुनियादी ढांचे या प्रारूप पर निर्भर नहीं करता है। कभी-कभी ए के रूप में संदर्भित किया जाता है डेटा फैब्रिक, यह आंतरिक और बाह्य डेटा तक पहुंचने और एकीकृत करने का एक एकीकृत, मानव-अनुकूल और सार्थक तरीका प्रदान करता है। सिमेंटिक मेटाडेटा का उपयोग करते हुए, ज्ञान ग्राफ़ विविध उद्यम डेटा का एक सुसंगत दृश्य प्रदान करते हैं, जो ज्ञान को आपस में जोड़ते हैं जो विभिन्न प्रणालियों और हितधारकों में बिखरे हुए हैं। 

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) की सहायता से, पाठ दस्तावेज़ों को ज्ञान ग्राफ़ के साथ भी एकीकृत किया जा सकता है। यह देखते हुए कि कई शोधकर्ताओं का कहना है कि किसी संगठन का 75-85% ज्ञान स्थिर दस्तावेजों में बंद है, जबरदस्त मूल्य और ज्ञान की कमी हो रही है। एनएलपी पाइपलाइनों से अत्यधिक लाभ होता है, क्योंकि मशीन लर्निंग को ज्ञान ग्राफ़ के साथ जोड़ते समय परिष्कृत पाठ विश्लेषण विधियों का उपयोग किया जा सकता है। किसी भी सिमेंटिक एआई और व्याख्या योग्य एआई रणनीति के लिए ज्ञान ग्राफ भी आवश्यक हैं।

ontologies समान रूप से महत्वपूर्ण हैं, क्योंकि वे ज्ञान ग्राफ के औपचारिक शब्दार्थ की रीढ़ का प्रतिनिधित्व करते हैं। ग्राफ़ के डेटा स्कीमा के रूप में, वे डेटा के अर्थ के संबंध में ज्ञान ग्राफ़ के डेवलपर्स और उसके उपयोगकर्ताओं के बीच एक अनुबंध के रूप में कार्य करते हैं। एक उपयोगकर्ता कोई अन्य इंसान या सॉफ़्टवेयर एप्लिकेशन हो सकता है जिसे विश्वसनीय और सटीक तरीके से डेटा की व्याख्या करने की आवश्यकता होती है। ओन्टोलॉजी डेटा और उसके अर्थों की साझा समझ सुनिश्चित करती है। जब ज्ञान ग्राफ के डेटा को व्यक्त और व्याख्या करने के लिए औपचारिक शब्दार्थ का उपयोग किया जाता है, तो कई प्रतिनिधित्व और मॉडलिंग उपकरण होते हैं: 

  • वर्ग: अक्सर, एक इकाई विवरण में वर्ग पदानुक्रम से संबंधित इकाई का वर्गीकरण होता है। उदाहरण के लिए, सामान्य समाचार या व्यावसायिक जानकारी से निपटते समय, ऐसे वर्ग हो सकते हैं जिनमें व्यक्ति, संगठन और स्थान शामिल हों। व्यक्तियों और संगठनों के पास एक सामान्य सुपर-क्लास एजेंट हो सकता है। स्थान के आमतौर पर कई उप-वर्ग होते हैं, जैसे, देश, आबादी वाला स्थान, शहर, आदि। 
  • रिश्तों: संस्थाओं के बीच संबंधों को आमतौर पर प्रकारों के साथ टैग किया जाता है, जो रिश्ते की प्रकृति के बारे में जानकारी प्रदान करते हैं, जैसे, मित्र, रिश्तेदार, प्रतिस्पर्धी, आदि। 
  • श्रेणियाँ: एक इकाई को उन श्रेणियों से जोड़ा जा सकता है जो उसके शब्दार्थ के कुछ पहलू का वर्णन करती हैं, उदाहरण के लिए, "बड़े चार सलाहकार" या "XIX सदी के संगीतकार।" एक किताब एक साथ इन सभी श्रेणियों से संबंधित हो सकती है: "अफ्रीका के बारे में किताबें," "बेस्टसेलर," "इतालवी लेखकों की किताबें," "बच्चों के लिए किताबें," आदि। अक्सर श्रेणियों का वर्णन किया जाता है और एक वर्गीकरण में क्रमबद्ध किया जाता है। 
  • फ्री टेक्स्ट: इकाई के लिए डिज़ाइन इरादों को और स्पष्ट करने और खोज में सुधार करने के लिए "मानव-अनुकूल पाठ" जोड़ना संभव है।

संसाधन विवरण ढाँचे में ज्ञान ग्राफ़ (आरडीएफ)

संसाधन विवरण फ्रेमवर्क वेब संसाधनों और डेटा इंटरचेंज का वर्णन करने के लिए एक मानक है, जिसे वर्ल्ड वाइड वेब कंसोर्टियम (W3C) के साथ विकसित और मानकीकृत किया गया है। आरडीएफ के अलावा, लेबल प्रॉपर्टी ग्राफ (एलपीजी) मॉडल ग्राफ डेटा के प्रबंधन के लिए एक हल्का परिचय प्रदान करता है। एलपीजी अक्सर डेवलपर्स का दिल जीत लेते हैं यदि डेटा को तदर्थ एकत्र करने की आवश्यकता होती है और ग्राफ विश्लेषण एक ही परियोजना के दौरान किया जाता है और ग्राफ को बाद में छोड़ दिया जाता है। दुर्भाग्य से, एलपीजी के आसपास प्रौद्योगिकी स्टैक में मानकीकृत स्कीमा या मॉडलिंग भाषाओं और क्वेरी भाषाओं का अभाव है, और औपचारिक शब्दार्थ और अंतरसंचालनीयता विशिष्टताओं के लिए कोई प्रावधान नहीं हैं (उदाहरण के लिए, कोई क्रमबद्धता प्रारूप, फेडरेशन प्रोटोकॉल इत्यादि)।

जबकि आरडीएफ केवल नोड्स के बारे में बयान देने की अनुमति देता है, आरडीएफ-स्टार किसी को अन्य बयानों के बारे में बयान देने की अनुमति देता है और इस तरह स्कोर, वजन, अस्थायी पहलुओं और उत्पत्ति जैसे ग्राफ में किनारे का वर्णन करने के लिए मेटाडेटा संलग्न करता है। कुल मिलाकर, आरडीएफ में दर्शाए गए ज्ञान ग्राफ, डेटा एकीकरण, एकीकरण, लिंकिंग और पुन: उपयोग के लिए सर्वोत्तम रूपरेखा प्रदान करते हैं, क्योंकि वे निम्नलिखित को जोड़ते हैं:

  1. अभिव्यंजना: सिमेंटिक वेब स्टैक में मानक - आरडीएफ (एस) और ओडब्लूएल - विभिन्न प्रकार के डेटा और सामग्री के धाराप्रवाह प्रतिनिधित्व की अनुमति देते हैं: डेटा स्कीमा, टैक्सोनॉमी, शब्दावली, सभी प्रकार के मेटाडेटा, संदर्भ और मास्टर डेटा। आरडीएफ-स्टार एक्सटेंशन उद्गम और अन्य संरचित मेटाडेटा को मॉडल करना आसान बनाता है। 
  2. औपचारिक शब्दार्थ: सिमेंटिक वेब स्टैक में सभी मानक अच्छी तरह से निर्दिष्ट सिमेंटिक्स के साथ आते हैं, जो मनुष्यों और कंप्यूटरों को स्कीमा, ऑन्कोलॉजी और डेटा की स्पष्ट रूप से व्याख्या करने की अनुमति देते हैं। 
  3. प्रदर्शन: अरबों तथ्यों और संपत्तियों के ग्राफ़ के कुशल प्रबंधन की अनुमति देने के लिए सभी विशिष्टताओं पर विचार किया गया है और सिद्ध किया गया है।
  4. अंतर: डेटा क्रमबद्धता, पहुंच (अंतिम बिंदुओं के लिए SPARQL प्रोटोकॉल), प्रबंधन (SPARQL ग्राफ़ स्टोर), और फ़ेडरेशन के लिए विशिष्टताओं की एक श्रृंखला है। विश्व स्तर पर विशिष्ट पहचानकर्ताओं का उपयोग डेटा एकीकरण और प्रकाशन की सुविधा प्रदान करता है। 
  5. मानकीकरण: उपरोक्त सभी को W3C समुदाय प्रक्रिया के माध्यम से मानकीकृत किया गया है, ताकि यह सुनिश्चित किया जा सके कि तर्कशास्त्रियों से लेकर एंटरप्राइज़ डेटा प्रबंधन पेशेवरों और सिस्टम संचालन टीमों तक विभिन्न कलाकारों की आवश्यकताएं संतुष्ट हों। 

हालाँकि, यह ध्यान रखना महत्वपूर्ण है कि प्रत्येक आरडीएफ ग्राफ़ एक ज्ञान ग्राफ़ नहीं है। उदाहरण के लिए, सांख्यिकीय डेटा का एक सेट, उदाहरण के लिए देशों के लिए जीडीपी डेटा, आरडीएफ में दर्शाया गया एक ज्ञान ग्राफ नहीं है। डेटा का ग्राफ़ प्रतिनिधित्व अक्सर उपयोगी होता है, लेकिन डेटा के अर्थ संबंधी ज्ञान को प्राप्त करना अनावश्यक हो सकता है। किसी एप्लिकेशन के लिए स्ट्रिंग "इटली" को "जीडीपी" स्ट्रिंग और संख्या "$1.95 ट्रिलियन" के साथ जोड़ना भी पर्याप्त हो सकता है, बिना यह परिभाषित किए कि देश कौन से हैं या किसी देश का सकल घरेलू उत्पाद क्या है। 

यह कनेक्शन और ग्राफ़ है जो ज्ञान ग्राफ़ बनाते हैं, न कि डेटा का प्रतिनिधित्व करने के लिए उपयोग की जाने वाली भाषा। ज्ञान ग्राफ की एक प्रमुख विशेषता यह है कि इकाई विवरण एक दूसरे से जुड़े होने चाहिए। एक इकाई की परिभाषा में दूसरी इकाई भी शामिल है। इस लिंकिंग से ग्राफ़ बनता है (उदाहरण के लिए, A, B है; B, C है; C में D है; A में D है)। औपचारिक संरचना और शब्दार्थ के बिना ज्ञान का आधार, उदाहरण के लिए, किसी सॉफ़्टवेयर उत्पाद के बारे में प्रश्नोत्तरी "ज्ञान का आधार", भी ज्ञान ग्राफ का प्रतिनिधित्व नहीं करता है। एक विशेषज्ञ प्रणाली का होना संभव है जिसमें डेटा का संग्रह एक ऐसे प्रारूप में व्यवस्थित हो जो एक ग्राफ़ नहीं है लेकिन विश्लेषण की सुविधा के लिए स्वचालित निगमनात्मक प्रक्रियाओं जैसे "यदि-तब" नियमों का एक सेट का उपयोग करता है। 

ज्ञान ग्राफ़ सॉफ़्टवेयर भी नहीं हैं। बल्कि ज्ञान ग्राफ मानदंडों को पूरा करने और विशिष्ट उद्देश्यों को पूरा करने के लिए डेटा और मेटाडेटा को व्यवस्थित और एकत्र करने का एक तरीका है, जो बदले में, विभिन्न सॉफ़्टवेयर द्वारा उपयोग किया जाता है। एक ज्ञान ग्राफ के डेटा का उपयोग विभिन्न उद्देश्यों के लिए कई स्वतंत्र प्रणालियों में किया जा सकता है।

ज्ञान ग्राफ़ और वास्तविक समय डेटा प्रबंधन

हमारे डेटा की माँगों ने डेटा प्रबंधन के पारंपरिक तरीकों को उनकी सीमाओं से परे धकेल दिया है। प्रचुर मात्रा में डेटा है, हर दिन अधिक, और इसे संसाधित करने, समझने और उपयोगी बनाने की आवश्यकता है। इसे विश्वसनीय होना चाहिए और वास्तविक समय में किया जाना चाहिए, भले ही यह आंतरिक या बाहरी स्रोतों से आ रहा हो। आख़िरकार, डेटा का मूल्य पूरी तरह से इसके उपयोग का लाभ उठाने की क्षमता पर निर्भर करता है। यह एक सबक है जिसे संगठन तेजी से सीख रहे हैं क्योंकि वे विकास और रखरखाव की लागत को कम करना चाहते हैं और संगठनात्मक डेटा को बुद्धिमानी से प्रबंधित करने से प्राप्त होने वाले फायदे और राजस्व की सराहना करते हैं। आज का डेटा इकोसिस्टम भी वैश्विक है। 

ज्ञान ग्राफ़ उनकी विविधता और केंद्रीकृत नियंत्रण की कमी से निपट सकते हैं क्योंकि यह वैश्विक डेटा पारिस्थितिकी तंत्र के लिए उपयुक्त प्रतिमान है जिसमें हर संगठन शामिल है। इससे भी बेहतर, जैसे-जैसे जानकारी और उस जानकारी से संगठन की समझ और ज़रूरतें बदलती हैं, वैसे-वैसे ज्ञान का ग्राफ भी बदलता है। ज्ञान ग्राफ़ द्वारा दर्शाए गए डेटा का एक सख्त औपचारिक अर्थ होता है जिसकी व्याख्या मनुष्य और मशीन दोनों कर सकते हैं। यह अर्थ इसे मानव के लिए प्रयोग करने योग्य बनाता है, लेकिन कंप्यूटर को कुछ बोझ कम करने में सक्षम बनाने के लिए स्वचालित तर्क की भी अनुमति देता है। ज्ञान ग्राफ़ के साथ, संगठन डेटा को समान रखते हुए और अधिक अंतर्दृष्टि प्राप्त करने के लिए इसका पुन: उपयोग करते हुए स्कीमा को बदल सकते हैं, काट-छाँट और अनुकूलित कर सकते हैं।

वर्षों पहले, हम बिग डेटा के मूलमंत्र से हटकर स्मार्ट डेटा की ओर बढ़ गए थे। अभूतपूर्व मात्रा में डेटा होने के कारण एक ऐसे डेटा मॉडल की आवश्यकता बढ़ गई जो सूचना की हमारी जटिल समझ को प्रतिबिंबित करता हो। डेटा को स्मार्ट बनाने के लिए, मशीनों को अब अनम्य और भंगुर डेटा स्कीमा से बांधा नहीं जा सकता है। उन्हें डेटा रिपॉजिटरी की आवश्यकता थी जो वास्तविक दुनिया और इससे जुड़े पेचीदा रिश्तों का प्रतिनिधित्व कर सके। यह सब स्वचालित तर्क को सक्षम करने के लिए औपचारिक शब्दार्थ के साथ मशीन-पठनीय तरीके से करने की आवश्यकता है जो मानव विशेषज्ञता और निर्णय लेने को पूरक और सुविधाजनक बनाता है। 

आरडीएफ में व्यक्त ज्ञान ग्राफ इसे और साथ ही डेटा और सूचना-भारी सेवाओं में कई अनुप्रयोग प्रदान करते हैं। उदाहरणों में बुद्धिमान सामग्री, पैकेजिंग और पुन: उपयोग शामिल हैं; प्रतिक्रियाशील और प्रासंगिक रूप से जागरूक सामग्री अनुशंसा; स्वचालित ज्ञान खोज; अर्थ संबंधी खोज; और बुद्धिमान एजेंट। यह कंपनी प्रोफाइलिंग और रैंकिंग जैसी चीज़ों का भी समर्थन कर सकता है; नियामक दस्तावेजों में सूचना की खोज; और फार्माकोविजिलेंस साहित्य निगरानी। 

सीधे शब्दों में कहें तो, ज्ञान ग्राफ़ व्यवसायों को सामंजस्यपूर्ण ज्ञान मॉडल और मौन स्रोत प्रणालियों से प्राप्त डेटा के आधार पर महत्वपूर्ण निर्णय लेने में मदद करते हैं। वे मूल स्केलेबिलिटी और शब्दार्थ भी प्रदान करते हैं जो सुरक्षा और शासन, स्वामित्व प्रबंधन और उद्गम सहित डेटा के लिए एक कुशल, विशिष्ट और उत्तरदायी दृष्टिकोण सक्षम करते हैं। 

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी