जेफिरनेट लोगो

डेटा वर्गीकरण के मूल सिद्धांत - डेटा विविधता

दिनांक:

डेटा वर्गीकरणडेटा वर्गीकरण
क्रेविस/शटरस्टॉक

डेटा वर्गीकरण की प्रक्रिया को मोटे तौर पर प्रासंगिक श्रेणियों में डेटा के संगठन के रूप में वर्णित किया जा सकता है, जिससे इसे अधिक कुशलता से एक्सेस और संरक्षित किया जा सकता है। सरलतम शब्दों में, डेटा वर्गीकरण प्रक्रिया डेटा को उसकी सुरक्षा आवश्यकताओं के आधार पर रैंक करती है और डेटा का पता लगाना और पुनर्प्राप्त करना आसान बनाती है। वर्गीकरण विशेष रूप से बड़ी मात्रा में डेटा संग्रहीत करने वाले संगठनों के लिए उपयोगी है।  

डेटा वर्गीकरण का उपयोग कई उद्देश्यों के लिए किया जा सकता है: डेटा सुरक्षा पहल, नियामक अनुपालन बनाए रखना और अन्य व्यावसायिक उद्देश्यों को पूरा करना। कुछ स्थितियों में, डेटा वर्गीकरण एक नियामक आवश्यकता बन गया है, डेटा सरकारी एजेंसियों को उपलब्ध कराया जा रहा है, जो इसे निर्दिष्ट समय सीमा के भीतर खोजने योग्य और पुनर्प्राप्ति योग्य बनाने की मांग करते हैं। क्योंकि डेटा वर्गीकरण आसान और कुशल खोजों और डेटा संग्रह का समर्थन करता है, डेटा विश्लेषण एक अधिक कुशल प्रक्रिया बन जाता है।

जूलिया डंकन, टोरंटो विश्वविद्यालय की निदेशक, समझाया

“डेटा हमारे चारों ओर है। डेटा वर्गीकरण हमें इसे संभालने और संरक्षित करने के सबसे उपयुक्त तरीकों को समझने में मदद करता है - इसे कौन देख सकता है या उपयोग कर सकता है, इसे कहां संग्रहीत करना है और कितने समय तक, क्या इसे साझा किया जा सकता है और कौन से सुरक्षात्मक उपाय सबसे उपयुक्त हैं। चाहे वह एक अनुसंधान परियोजना के लिए हो, डेटा संग्रह के हिस्से के रूप में, या दैनिक डेटा का उपयोग और शैक्षणिक और प्रशासनिक उद्देश्यों के लिए इसे साझा करना, डेटा वर्गीकरण एक बहुत ही महत्वपूर्ण कदम है क्योंकि हम डेटा सुरक्षा को मजबूत करना जारी रखते हैं।

डेटा वर्गीकरण प्रक्रिया डेटा के दोहराव को भी समाप्त करती है, जो बदले में, डेटा की सटीकता में सुधार करती है (डेटा गुणवत्ता और डेटा अखंडता). 

डेटा वर्गीकरण प्रक्रिया के दौरान डेटा टैगिंग लागू की जाती है। इसे डेटा वर्गीकरण में एक आवश्यक कदम माना जाता है। इन टैगों का उपयोग डेटा की पहचान करने के लिए किया जाता है और सुरक्षा उद्देश्यों के लिए गोपनीयता/संवेदनशीलता के स्तर और डेटा गुणवत्ता के स्तर के बारे में बताया जा सकता है। डेटा की संवेदनशीलता उसकी सुरक्षा रेटिंग निर्धारित करती है।

डेटा टैगिंग

डेटा टैगिंग मेटाडेटा के भीतर टैग को शामिल करके डेटा की पहचान करती है। "टैग" एक कीवर्ड, संख्या या शब्द है जो डेटा फ़ाइल को सौंपा गया है। किसी व्यवसाय में, एक कर्मचारी आईडी व्यक्तिगत कर्मचारियों की पहचान करने का एक अनूठा तरीका प्रदान कर सकता है। जब कर्मचारी संख्या दर्ज की जाती है, तो खोज इंजन एक सामान्य कुंजी शब्द साझा करने वाले कई कर्मचारियों के बजाय एक एकल कर्मचारी को प्रस्तुत करता है। 

इसी तरह, एक सॉकर गेम में, एक सीट नंबर का उपयोग किसी सीट के असाइनमेंट को एक विशिष्ट टिकट पर सूचित करने, अस्थायी स्वामित्व स्थापित करने के लिए किया जा सकता है। मेटाडेटा के भीतर एक टैगिंग प्रणाली डेटा फ़ाइल को जल्दी और आसानी से ढूंढने और उस तक पहुंचने को बढ़ावा देती है, और सीट का "मालिक" कौन है, इसके बारे में किसी भी भ्रम को खत्म कर सकता है।

डेटा टैगिंग दक्षता को बढ़ावा देने के लिए एक विशिष्ट पहचान प्रक्रिया प्रदान करने के लिए मेटाडेटा का उपयोग करती है।

डेटा वर्गीकरण प्रक्रिया में डेटा टैग करना एक आवश्यक कदम है। टैग का उपयोग डेटा के प्रकार, उसकी संवेदनशीलता के स्तर और उसके बारे में संचार करने के लिए किया जाता है डेटा गुणवत्ता का स्तर. संवेदनशीलता आम तौर पर डेटा के महत्व या गोपनीयता पर आधारित होती है, और आवश्यक उचित सुरक्षा उपायों के साथ संरेखित होती है। 

डेटा के सामान्य प्रकार

डेटा वर्गीकरण संगठन के डेटा को बेहतर समझ और पहुंच दोनों प्रदान कर सकता है। यह स्थिति डेटा विश्लेषण और बेहतर डेटा सुरक्षा के उपयोग को बढ़ावा देती है। डेटा वर्गीकरण का प्रभावी उपयोग भारी मात्रा में संग्रहीत डेटा वाले संगठन को अधिक कुशलता से कार्य करने में मदद कर सकता है। 

यह बेहतर ढंग से समझने के लिए कि डेटा वर्गीकरण कैसे काम करता है, सबसे सामान्य प्रकार के डेटा को समझना महत्वपूर्ण है, जो नीचे सूचीबद्ध हैं:

  • सार्वजनिक डेटा: ऐसी जानकारी प्रदान करता है जो आम जनता को पढ़ने, शोध करने और संग्रहीत करने के लिए निःशुल्क उपलब्ध है। यह आम तौर पर न्यूनतम मात्रा का समर्थन करता है डाटा सुरक्षा, क्योंकि इसे आसानी से साझा किया जाता है और इसमें व्यक्तियों या आम जनता को नुकसान पहुंचाने का जोखिम बहुत कम होता है। सार्वजनिक डेटा के उदाहरणों में लोगों के नाम, समाचार और शैक्षिक लेख और कुछ सरकारी वेबसाइटें शामिल हैं।
  • निजी डेटा: ऐसी जानकारी शामिल है जिसे जनता के साथ साझा नहीं किया जाना चाहिए। इस प्रकार की जानकारी साझा करना - पासवर्ड, ब्राउज़िंग/शोध इतिहास, क्रेडिट कार्ड नंबर (पिन नंबर और समाप्ति तिथियों के बिना) - किसी व्यक्ति या संगठन के लिए एक छोटा जोखिम पेश कर सकता है, और आमतौर पर इसे तुरंत ठीक किया जा सकता है।
  • आंतरिक डेटा: आम तौर पर, यह किसी संगठन के भीतर विशेष रूप से उपयोग किए गए डेटा का वर्णन करता है और किसी संगठन के आंतरिक कार्यों से संबंधित होता है। आंतरिक डेटा के उदाहरणों में व्यावसायिक योजनाएँ, कर्मचारियों की व्यक्तिगत जानकारी, ईमेल और मेमो शामिल हैं। आंतरिक डेटा अक्सर सुरक्षा के विभिन्न स्तरों पर फैला हुआ होता है।
  • गोपनीय डेटा: संगठन के भीतर केवल सीमित संख्या में व्यक्ति ही गोपनीय डेटा (कभी-कभी "संवेदनशील डेटा" के रूप में संदर्भित) तक पहुंच सकते हैं। गोपनीय डेटा एक्सेस में सामग्री देखने के लिए विशेष पासवर्ड या रेटिना स्कैन शामिल हो सकते हैं। गोपनीय डेटा के उदाहरण सामाजिक सुरक्षा नंबर, मेडिकल रिकॉर्ड, पिन नंबर और समाप्ति तिथियों के साथ क्रेडिट कार्ड नंबर हैं।
  • प्रतिबंधित डेटा: यह वह डेटा है, जिससे समझौता किए जाने पर बड़े पैमाने पर कानूनी जुर्माना या आपराधिक आरोप लग सकते हैं। इसमें आमतौर पर डेटा तक पहुंच को सीमित करने के लिए बहुत सख्त सुरक्षा नियंत्रण होते हैं, और अक्सर कुछ प्रकार के डेटा एन्क्रिप्शन का उपयोग किया जाता है। यदि इसे दुर्भावनापूर्ण इरादे वाले लोगों द्वारा एक्सेस किया जाता है, तो फिरौती की मांग के साथ किसी संगठन की स्वामित्व जानकारी की प्रतिलिपि बनाई जा सकती है, या पहुंच से बाहर किया जा सकता है। प्रतिबंधित डेटा से आम जनता के स्वास्थ्य को भी ख़तरे में डालने की क्षमता हो सकती है। प्रतिबंधित डेटा के उदाहरणों में बौद्धिक संपदा, संरक्षित स्वास्थ्य जानकारी और कुछ संघीय अनुबंध शामिल हैं। 

डेटा वर्गीकरण के तरीके

डेटा वर्गीकरण की प्रक्रिया में आम तौर पर डेटा के प्रकार, उसके संबंधित सुरक्षा स्तर और उसकी डेटा गुणवत्ता को संप्रेषित करने के लिए टैगिंग शामिल होती है। 

मूल रूप से, तीन प्रकार के डेटा वर्गीकरण विकसित किए गए हैं: 

  • सामग्री-आधारित डेटा वर्गीकरण: यह अक्सर संवेदनशील जानकारी - वित्तीय रिकॉर्ड, व्यक्तिगत पहचान योग्य जानकारी - पर ध्यान केंद्रित करता है और संवेदनशील जानकारी की तलाश करते समय फ़ाइलों का निरीक्षण और व्याख्या करने के लिए सॉफ़्टवेयर का उपयोग करता है।
  • संदर्भ-आधारित डेटा वर्गीकरण: ऐसे सॉफ़्टवेयर का उपयोग करता है जो अपने भंडारण स्थान को निर्धारित करने के लिए संदर्भ-आधारित जानकारी, जैसे एप्लिकेशन, उसके स्रोत स्थान, या निर्माता पर ध्यान केंद्रित करता है। 
  • उपयोगकर्ता-आधारित डेटा वर्गीकरण: एक मैन्युअल प्रक्रिया जिसके लिए कार्य करने वाले व्यक्ति को डेटा वर्गीकरण की समझ होनी आवश्यक है। सॉफ़्टवेयर का उपयोग करने वाली सामग्री और संदर्भ-आधारित डेटा वर्गीकरण प्रणालियों की तुलना में डेटा वर्गीकरण का यह रूप काफी धीमा है, और बहुत अधिक त्रुटि-प्रवण है।

डाटामेशन ने वर्गीकरण की समीक्षा प्रकाशित की है सॉफ्टवेयर उपकरण 2024 के लिए।

अनुपालन मानक और डेटा वर्गीकरण

बढ़ती संख्या में देशों और अमेरिका के कुछ राज्यों ने ऐसे नियम और अनुपालन मानक बनाए हैं जिनके लिए व्यवसायों और संगठनों को डेटा वर्गीकरण प्रणाली स्थापित करने की आवश्यकता होती है। देश, संगठन और उसके द्वारा उपयोग किए जा रहे डेटा के प्रकार के आधार पर आवश्यकताएँ भिन्न हो सकती हैं। नीचे सूचीबद्ध कुछ उदाहरण हैं कि अनुपालन क्यों चिंता का विषय हो सकता है।

  • सामान्य डेटा संरक्षण विनियमन (जीडीपीआर): अपने नागरिकों की गोपनीयता की रक्षा के लिए यूरोप के प्रयासों के परिणामस्वरूप ऐसे नियम बने जिनके तहत व्यवसायों को अपने सभी एकत्रित डेटा को वर्गीकृत करने की आवश्यकता होती है। जीडीपीआर नस्ल, स्वास्थ्य देखभाल, राजनीतिक राय, जातीय मूल और बायोमेट्रिक्स के उपयोग से संबंधित डेटा से संबंधित है। (ऐसे व्यवसाय जो बड़ी मात्रा में डेटा संग्रहीत नहीं कर रहे हैं, वे काफी सरल वर्गीकरण प्रणाली का उपयोग कर सकते हैं - लक्ष्य यूरोपीय संघ के अधिकारियों को अनुरोधित डेटा को तेज़ और कुशल तरीके से प्रदान करना है।)
  • भुगतान कार्ड उद्योग डेटा सुरक्षा मानक (पीसीआई डीएसएस): क्रेडिट कार्ड उद्योग द्वारा बनाई गई, आवश्यकता 9.6.1 यह निर्धारित करती है कि व्यवसायों और संगठनों को "डेटा को वर्गीकृत करना होगा ताकि डेटा की संवेदनशीलता निर्धारित की जा सके।" यह कोई कानून नहीं है, लेकिन एक कानूनी समझौता.
  • स्वास्थ्य बीमा पोर्टेबिलिटी और जवाबदेही अधिनियम (HIPAA): यह एक अमेरिकी संघीय कानून है. यह विचार करता है व्यक्तिगत स्वास्थ्य जानकारी (पीएचआई) गोपनीय जानकारी है, और व्यक्तियों के मेडिकल रिकॉर्ड की सुरक्षा के लिए चिकित्सा सुविधाओं की आवश्यकता होती है। HIPAA गोपनीयता नियम व्यक्तिगत स्वास्थ्य जानकारी के उपयोग और प्रकटीकरण को प्रतिबंधित करता है, और चिकित्सा सुविधाओं और उनके सहयोगियों को एक डेटा वर्गीकरण प्रणाली विकसित करने की आवश्यकता होती है।
  • कैलिफ़ोर्निया उपभोक्ता गोपनीयता अधिनियम (सीसीपीए): RSI सीसीपीए कहा गया है कि “डेटा वर्गीकरण को यह पहचानना चाहिए कि कौन से डेटा प्रकार बेचे जाते हैं, तीसरे पक्ष के साथ साझा किए जाते हैं, या विपणन उद्देश्यों के लिए उपयोग किए जाते हैं। विशिष्ट डेटा प्रकारों के लिए किसी भी अधिकार अनुरोध को डेटा इन्वेंट्री में इस बात के प्रमाण के रूप में दर्ज किया जाना चाहिए कि आप सीसीपीए अनुपालन कर रहे हैं।

संगठनों के लिए यह महत्वपूर्ण है कानूनी चिंताओं पर शोध करें, या इंटरनेट पर व्यवसाय करते समय विशेषज्ञ की सलाह लें। 

डेटा को वर्गीकृत करने की चुनौतियाँ

सुरक्षा और डेटा पुनर्प्राप्ति की दृष्टि से डेटा वर्गीकरण प्रक्रिया बहुत उपयोगी है। हालाँकि, कुछ समस्याएँ हैं जो विकसित हो सकती हैं। कुछ सामान्य चुनौतियाँ हैं:

  • झूठी सकारात्मक: ऐसा तब होता है जब एक ही डेटा अलग-अलग संदर्भों और अलग-अलग प्रारूपों में दिखाई देता है, और सॉफ़्टवेयर इसे डुप्लिकेट के रूप में नहीं पहचानता है। वर्गीकरण सॉफ्टवेयर जो डेटा के संदर्भ और प्रारूप की जांच नहीं करता है, उसमें गलत वर्गीकरण उत्पन्न होने की संभावना अधिक होती है। क्योंकि वर्गीकरण परियोजनाओं में आम तौर पर बड़ी मात्रा में डेटा का उपयोग किया जाता है, यहां तक ​​कि बहुत छोटी झूठी सकारात्मक दरें भी वर्गीकरण प्रक्रिया को विकृत कर सकती हैं।
  • मिथ्या नकारात्मक: ये संदर्भ के संबंध में भ्रम के परिणामस्वरूप घटित होते हैं। उदाहरण के लिए, किसी नाम को सामान्यतः संवेदनशील जानकारी नहीं माना जाएगा। हालाँकि, जब यह मेडिकल रिकॉर्ड का हिस्सा होता है, तो वह नाम संवेदनशील जानकारी बन जाता है। संदर्भ को समझे बिना डेटा को वर्गीकृत करने से डेटा को गलत तरीके से वर्गीकृत किया जा सकता है।
  • लागत: डेटा वर्गीकरण उपकरणों को लागू करने और संचालित करने की कीमत स्थापित नियंत्रणों की संख्या और संसाधित किए जा रहे डेटा की मात्रा पर निर्भर करेगी। डेटा वर्गीकरण काफी महंगा और बोझिल हो सकता है। बड़ी मात्रा में डेटा को वर्गीकृत करने के मैन्युअल प्रयास बेहद महंगे हो सकते हैं, बड़ी मात्रा में डेटा की लागत अधिक होती है।

चैटजीपीटी का प्रयोग डेटा को वर्गीकृत करने के लिए एक उपकरण के रूप में किया जा रहा है, लेकिन सिस्टम के बारे में चिंताएं हैं सुरक्षा की कमी.

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी