विसंगति का पता लगाने के लिए एसवीएम वन-क्लास क्लासिफायर के लिए एक व्यापक गाइड

परिचय

वन-क्लास सपोर्ट वेक्टर मशीन (एसवीएम) पारंपरिक एसवीएम का एक प्रकार है। इसे विशेष रूप से विसंगतियों का पता लगाने के लिए तैयार किया गया है। इसका प्राथमिक उद्देश्य ऐसे उदाहरणों का पता लगाना है जो विशेष रूप से मानक से भिन्न हैं। पारंपरिक के विपरीत मशीन लर्निंग बाइनरी या मल्टीक्लास वर्गीकरण पर केंद्रित मॉडल, वन-क्लास एसवीएम डेटासेट के भीतर बाहरी या नवीनता का पता लगाने में माहिर हैं। इस लेख में, आप सीखेंगे कि वन-क्लास सपोर्ट वेक्टर मशीन (एसवीएम) पारंपरिक एसवीएम से कैसे भिन्न है। आप यह भी सीखेंगे कि ओसी-एसवीएम कैसे काम करता है और इसे कैसे लागू किया जाए। आप इसके हाइपरपैरामीटर्स के बारे में भी जानेंगे।

विसंगति का पता लगाने के लिए एसवीएम वन-क्लास क्लासिफायरियर के लिए एक व्यापक गाइड

सीखने के मकसद

विसंगतियों को समझने के लिए
वन-क्लास एसवीएम के बारे में जानें
समझें कि यह पारंपरिक सपोर्ट वेक्टर मशीन (एसवीएम) से कैसे भिन्न है
स्केलेरन में ओसी-एसवीएम के हाइपरपैरामीटर
OC-SVM का उपयोग करके विसंगतियों का पता कैसे लगाएं
वन-क्लास एसवीएम के मामलों का उपयोग करें

विषय - सूची

विसंगतियों को समझना

विसंगतियाँ ऐसे अवलोकन या उदाहरण हैं जो डेटासेट के सामान्य व्यवहार से महत्वपूर्ण रूप से भिन्न होते हैं। ये विचलन विभिन्न रूपों में प्रकट हो सकते हैं, जैसे आउटलेर, शोर, त्रुटियाँ, या अप्रत्याशित पैटर्न। विसंगतियाँ अक्सर आकर्षक होती हैं क्योंकि वे मूल्यवान अंतर्दृष्टि का प्रतिनिधित्व कर सकती हैं। वे धोखाधड़ी वाले लेनदेन की पहचान करने, उपकरण की खराबी का पता लगाने, या नई घटनाओं को उजागर करने जैसी अंतर्दृष्टि प्रदान कर सकते हैं। बाहरी और नवीनता का पता लगाना विसंगतियों और असामान्य या असामान्य टिप्पणियों की पहचान करता है।

यह भी पढ़ें: विसंगति का पता लगाने पर एक एंड-टू-एंड गाइड

वन क्लास एसवीएम

सपोर्ट वेक्टर मशीनों (एसवीएम) का परिचय

समर्थन वेक्टर मशीनें (एसवीएम) एक लोकप्रिय हैं पर्यवेक्षित शिक्षण एल्गोरिथ्म वर्गीकरण और प्रतिगमन कार्यों के लिए। एसवीएम इष्टतम हाइपरप्लेन ढूंढकर काम करते हैं जो फीचर स्पेस में विभिन्न वर्गों को अलग करते हुए उनके बीच के अंतर को अधिकतम करते हैं। यह हाइपरप्लेन प्रशिक्षण डेटा बिंदुओं के एक सबसेट पर आधारित है जिसे सपोर्ट वैक्टर कहा जाता है।

वन-क्लास एसवीएम बनाम पारंपरिक एसवीएम

वन-क्लास एसवीएम पारंपरिक एसवीएम एल्गोरिथ्म के एक प्रकार का प्रतिनिधित्व करते हैं जो मुख्य रूप से बाहरी और नवीनता का पता लगाने के कार्यों के लिए नियोजित होता है। पारंपरिक एसवीएम के विपरीत, जो बाइनरी वर्गीकरण कार्यों को संभालते हैं, वन-क्लास एसवीएम विशेष रूप से एक ही वर्ग से डेटा बिंदुओं पर प्रशिक्षित होता है, जिसे लक्ष्य वर्ग के रूप में जाना जाता है। वन-क्लास एसवीएम का लक्ष्य एक सीमा या निर्णय फ़ंक्शन को सीखना है जो लक्ष्य वर्ग को फीचर स्पेस में समाहित करता है, डेटा के सामान्य व्यवहार को प्रभावी ढंग से मॉडलिंग करता है।

पारंपरिक एसवीएम का लक्ष्य एक निर्णय सीमा ढूंढना है जो विभिन्न वर्गों के बीच मार्जिन को अधिकतम करता है, जिससे नए डेटा बिंदुओं के इष्टतम वर्गीकरण की अनुमति मिलती है। दूसरी ओर, वन-क्लास एसवीएम एक ऐसी सीमा ढूंढना चाहता है जो इस सीमा के बाहर आउटलेर्स या नए उदाहरणों को शामिल करने के जोखिम को कम करते हुए लक्ष्य वर्ग को घेर ले।

पारंपरिक एसवीएम को कई वर्गों के उदाहरणों के साथ लेबल किए गए डेटा की आवश्यकता होती है, जो उन्हें पर्यवेक्षित वर्गीकरण कार्यों के लिए उपयुक्त बनाता है। इसके विपरीत, वन-क्लास एसवीएम उन परिदृश्यों में एप्लिकेशन की अनुमति देता है जहां केवल लक्ष्य वर्ग से डेटा उपलब्ध है, जो इसे बिना पर्यवेक्षित विसंगति का पता लगाने और नवीनता का पता लगाने के कार्यों के लिए उपयुक्त बनाता है।

अधिक जानें: समर्थन वेक्टर मशीनों का उपयोग करके एक-श्रेणी वर्गीकरण

वे दोनों अपने सॉफ्ट मार्जिन फॉर्मूलेशन और उनके उपयोग के तरीके में भिन्न हैं:

(एसवीएम में सॉफ्ट मार्जिन का उपयोग कुछ हद तक गलत वर्गीकरण की अनुमति देने के लिए किया जाता है)

वन-क्लास एसवीएम का लक्ष्य मैप किए गए डेटा को मूल से अलग करके फीचर स्पेस के भीतर अधिकतम मार्जिन वाले हाइपरप्लेन की खोज करना है। डेटासेट पर Dn = {x1, . . . , xn} xi ∈ X (xi एक विशेषता है) और n आयामों के साथ:

यह समीकरण OC-SVM के लिए प्रारंभिक समस्या सूत्रीकरण का प्रतिनिधित्व करता है, जहां w अलग करने वाला हाइपरप्लेन है, ρ मूल से ऑफसेट है, और ξi सुस्त चर हैं। वे नरम मार्जिन की अनुमति देते हैं लेकिन उल्लंघनों को दंडित करते हैं। एक हाइपरपैरामीटर ν ∈ (0, 1] स्लैक वेरिएबल के प्रभाव को नियंत्रित करता है और इसे आवश्यकता के अनुसार समायोजित किया जाना चाहिए। इसका उद्देश्य मार्जिन से विचलन को दंडित करते हुए w के मानदंड को कम करना है। इसके अलावा, यह डेटा के एक अंश को अनुमति देता है हाशिये के भीतर या हाइपरप्लेन के गलत पक्ष पर गिरना।

WX + b =0 निर्णय सीमा है, और सुस्त चर विचलन को दंडित करते हैं।

पारंपरिक-समर्थन वेक्टर मशीनें (एसवीएम)

पारंपरिक-समर्थन वेक्टर मशीनें (एसवीएम) गलत वर्गीकरण त्रुटियों के लिए सॉफ्ट मार्जिन फॉर्मूलेशन का उपयोग करती हैं। या वे डेटा बिंदुओं का उपयोग करते हैं जो मार्जिन के भीतर या निर्णय सीमा के गलत पक्ष पर आते हैं।

कहा पे:

w भार सदिश है।

बी पूर्वाग्रह शब्द है.

ξi सुस्त चर हैं जो नरम मार्जिन अनुकूलन की अनुमति देते हैं।

सी नियमितीकरण पैरामीटर है जो मार्जिन को अधिकतम करने और वर्गीकरण त्रुटि को कम करने के बीच व्यापार-बंद को नियंत्रित करता है।

ϕ(xi) फीचर मैपिंग फ़ंक्शन का प्रतिनिधित्व करता है।

पारंपरिक एसवीएम में, एक पर्यवेक्षित शिक्षण पद्धति जो पृथक्करण के लिए वर्ग लेबल पर निर्भर करती है, एक निश्चित स्तर के गलत वर्गीकरण की अनुमति देने के लिए सुस्त चर को शामिल करती है। एसवीएम का प्राथमिक उद्देश्य निर्णय सीमा WX + b = 0 का उपयोग करके अलग-अलग वर्गों के डेटा बिंदुओं को अलग करना है। स्लैक वेरिएबल्स का मान डेटा बिंदुओं के स्थान के आधार पर भिन्न होता है: यदि डेटा बिंदु मार्जिन से परे स्थित हैं तो वे 0 पर सेट होते हैं। यदि डेटा बिंदु मार्जिन के भीतर रहता है, तो स्लैक वेरिएबल्स 0 और 1 के बीच होते हैं, 1 से अधिक होने पर विपरीत मार्जिन से आगे बढ़ते हैं।

सॉफ्ट मार्जिन फॉर्मूलेशन वाले पारंपरिक एसवीएम और वन-क्लास एसवीएम दोनों का लक्ष्य वजन वेक्टर के मानदंड को कम करना है। फिर भी, वे अपने उद्देश्यों में भिन्न हैं और वे गलत वर्गीकरण त्रुटियों या निर्णय सीमा से विचलन को कैसे संभालते हैं। पारंपरिक एसवीएम ओवरफिटिंग से बचने के लिए वर्गीकरण सटीकता को अनुकूलित करते हैं, जबकि वन-क्लास एसवीएम लक्ष्य वर्ग को मॉडलिंग करने और आउटलेर्स या उपन्यास उदाहरणों के अनुपात को नियंत्रित करने पर ध्यान केंद्रित करते हैं।

यह भी पढ़ें: वेक्टर मशीन का समर्थन करने के लिए AZ गाइड

वन-क्लास एसवीएम में महत्वपूर्ण हाइपरपैरामीटर

एनयू: यह वन-क्लास एसवीएम में एक महत्वपूर्ण हाइपरपैरामीटर है, जो अनुमत आउटलेर्स के अनुपात को नियंत्रित करता है। यह प्रशिक्षण त्रुटियों के अंश पर ऊपरी सीमा और समर्थन वैक्टर के अंश पर निचली सीमा निर्धारित करता है। यह आम तौर पर 0 और 1 के बीच होता है, जहां कम मान एक सख्त मार्जिन दर्शाते हैं और कम आउटलेर्स को कैप्चर कर सकते हैं, जबकि उच्च मान अधिक अनुमेय होते हैं। डिफ़ॉल्ट मान 0.5 है.
गिरी: कर्नेल फ़ंक्शन एसवीएम द्वारा उपयोग की जाने वाली निर्णय सीमा के प्रकार को निर्धारित करता है। सामान्य विकल्पों में 'रैखिक', 'आरबीएफ' (गॉसियन रेडियल आधार फ़ंक्शन), 'पॉली' (बहुपद), और 'सिग्मॉइड' शामिल हैं। 'आरबीएफ' कर्नेल का उपयोग अक्सर किया जाता है क्योंकि यह जटिल गैर-रेखीय संबंधों को प्रभावी ढंग से पकड़ सकता है।
गामा: यह गैर-रेखीय हाइपरप्लेन के लिए एक पैरामीटर है। यह परिभाषित करता है कि एक एकल प्रशिक्षण उदाहरण का कितना प्रभाव है। गामा मान जितना बड़ा होगा, प्रभावित होने वाले अन्य उदाहरण उतने ही करीब होंगे। यह पैरामीटर आरबीएफ कर्नेल के लिए विशिष्ट है और आम तौर पर 'ऑटो' पर सेट होता है, जो डिफ़ॉल्ट रूप से 1 / n_features पर सेट होता है।
कर्नेल पैरामीटर (डिग्री, coef0): ये पैरामीटर बहुपद और सिग्मॉइड कर्नेल के लिए हैं। 'डिग्री' बहुपद कर्नेल फ़ंक्शन की डिग्री है, और 'coef0' कर्नेल फ़ंक्शन में स्वतंत्र शब्द है। इष्टतम प्रदर्शन प्राप्त करने के लिए इन मापदंडों को ट्यून करना आवश्यक हो सकता है।
टोल: यही रोकने की कसौटी है. जब द्वंद्व का अंतर सहनशीलता से छोटा होता है तो एल्गोरिदम रुक जाता है। यह एक पैरामीटर है जो रुकने की कसौटी के प्रति सहनशीलता को नियंत्रित करता है।

वन-क्लास एसवीएम का कार्य सिद्धांत

वन-क्लास एसवीएम में कर्नेल फ़ंक्शंस

कर्नेल फ़ंक्शंस एल्गोरिदम को परिवर्तनों की स्पष्ट रूप से गणना किए बिना उच्च-आयामी फ़ीचर स्थानों में संचालित करने की अनुमति देकर वन-क्लास एसवीएम में एक महत्वपूर्ण भूमिका निभाते हैं। वन-क्लास एसवीएम में, पारंपरिक एसवीएम की तरह, इनपुट स्पेस में डेटा बिंदुओं के जोड़े के बीच समानता को मापने के लिए कर्नेल फ़ंक्शन का उपयोग किया जाता है। वन-क्लास एसवीएम में उपयोग किए जाने वाले सामान्य कर्नेल फ़ंक्शंस में गॉसियन (आरबीएफ), बहुपद और सिग्मॉइड कर्नेल शामिल हैं। ये कर्नेल मूल इनपुट स्थान को उच्च-आयामी स्थान में मैप करते हैं, जहां डेटा बिंदु रैखिक रूप से अलग हो जाते हैं या अधिक विशिष्ट पैटर्न प्रदर्शित करते हैं, जिससे सीखने की सुविधा मिलती है। एक उपयुक्त कर्नेल फ़ंक्शन को चुनकर और उसके मापदंडों को ट्यून करके, वन-क्लास एसवीएम डेटा में जटिल संबंधों और गैर-रेखीय संरचनाओं को प्रभावी ढंग से कैप्चर कर सकता है, जिससे विसंगतियों या आउटलेर्स का पता लगाने की क्षमता में सुधार होता है।

ऐसे मामलों में जहां डेटा रैखिक रूप से अलग करने योग्य नहीं है, जैसे कि जटिल या ओवरलैपिंग पैटर्न से निपटते समय, सपोर्ट वेक्टर मशीनें (एसवीएम) शेष डेटा से आउटलेर्स को प्रभावी ढंग से अलग करने के लिए रेडियल बेसिस फ़ंक्शन (आरबीएफ) कर्नेल को नियोजित कर सकती हैं। आरबीएफ कर्नेल इनपुट डेटा को उच्च-आयामी फीचर स्पेस में बदल देता है जिसे बेहतर तरीके से अलग किया जा सकता है।

मार्जिन और सपोर्ट वेक्टर

वन-क्लास एसवीएम में मार्जिन और सपोर्ट वैक्टर की अवधारणा पारंपरिक एसवीएम के समान है। मार्जिन निर्णय सीमा (हाइपरप्लेन) और प्रत्येक वर्ग के निकटतम डेटा बिंदुओं के बीच के क्षेत्र को संदर्भित करता है। वन-क्लास एसवीएम में, मार्जिन उस क्षेत्र का प्रतिनिधित्व करता है जहां लक्ष्य वर्ग से संबंधित अधिकांश डेटा बिंदु स्थित हैं। वन-क्लास एसवीएम के लिए मार्जिन को अधिकतम करना महत्वपूर्ण है क्योंकि यह नए डेटा बिंदुओं को अच्छी तरह से सामान्यीकृत करने में मदद करता है और मॉडल की मजबूती में सुधार करता है। सपोर्ट वेक्टर वे डेटा बिंदु हैं जो मार्जिन पर या उसके भीतर स्थित होते हैं और निर्णय सीमा को परिभाषित करने में योगदान करते हैं।

वन-क्लास एसवीएम में, सपोर्ट वैक्टर लक्ष्य वर्ग से निर्णय सीमा के निकटतम डेटा बिंदु हैं। ये समर्थन वैक्टर निर्णय सीमा के आकार और अभिविन्यास को निर्धारित करने में महत्वपूर्ण भूमिका निभाते हैं और इस प्रकार, वन-क्लास एसवीएम मॉडल के समग्र प्रदर्शन में महत्वपूर्ण भूमिका निभाते हैं। सपोर्ट वैक्टर की पहचान करके, वन-क्लास एसवीएम फीचर स्पेस में लक्ष्य वर्ग के प्रतिनिधित्व को प्रभावी ढंग से सीखता है और एक निर्णय सीमा का निर्माण करता है जो आउटलेर्स या नए उदाहरणों को शामिल करने के जोखिम को कम करते हुए अधिकांश डेटा बिंदुओं को समाहित करता है।

वन-क्लास एसवीएम का उपयोग करके विसंगतियों का पता कैसे लगाया जा सकता है?

नवीनता पहचान और बाहरी पहचान तकनीकों दोनों के माध्यम से वन-क्लास एसवीएम (सपोर्ट वेक्टर मशीन) का उपयोग करके विसंगतियों का पता लगाना:

बाहरी पहचान

इसमें प्रशिक्षण डेटा में उन टिप्पणियों की पहचान करना शामिल है जो बाकी हिस्सों से काफी भिन्न हैं, जिन्हें अक्सर आउटलेयर कहा जाता है। के लिए अनुमानक बाहरी पहचान इन विचलित टिप्पणियों की परवाह किए बिना, उन क्षेत्रों को फिट करने का लक्ष्य रखें जहां प्रशिक्षण डेटा सबसे अधिक केंद्रित है।

from sklearn.svm import OneClassSVM

from sklearn.datasets import load_wine

import matplotlib.pyplot as plt

import matplotlib.lines as mlines

from sklearn.inspection import DecisionBoundaryDisplay

# Load data

X = load_wine()["data"][:, [6, 9]]  # "banana"-shaped

# Define estimators (One-Class SVM)

estimators_hard_margin = {

   "Hard Margin OCSVM": OneClassSVM(nu=0.01, gamma=0.35),  # Very small nu for hard margin

}

estimators_soft_margin = {

   "Soft Margin OCSVM": OneClassSVM(nu=0.25, gamma=0.35),  # Nu between 0 and 1 for soft margin

}

# Plotting setup

fig, axs = plt.subplots(1, 2, figsize=(12, 5))

colors = ["tab:blue", "tab:orange", "tab:red"]

legend_lines = []

# Hard Margin OCSVM

ax = axs[0]

for color, (name, estimator) in zip(colors, estimators_hard_margin.items()):

   estimator.fit(X)

   DecisionBoundaryDisplay.from_estimator(

       estimator,

       X,

       response_method="decision_function",

       plot_method="contour",

       levels=[0],

       colors=color,

       ax=ax,

   )

   legend_lines.append(mlines.Line2D([], [], color=color, label=name))

ax.scatter(X[:, 0], X[:, 1], color="black")

ax.legend(handles=legend_lines, loc="upper center")

ax.set(

   xlabel="flavanoids",

   ylabel="color_intensity",

   title="Hard Margin Outlier detection (wine recognition)",

)

# Soft Margin OCSVM

ax = axs[1]

legend_lines = []

for color, (name, estimator) in zip(colors, estimators_soft_margin.items()):

   estimator.fit(X)

   DecisionBoundaryDisplay.from_estimator(

       estimator,

       X,

       response_method="decision_function",

       plot_method="contour",

       levels=[0],

       colors=color,

       ax=ax,

   )

   legend_lines.append(mlines.Line2D([], [], color=color, label=name))

ax.scatter(X[:, 0], X[:, 1], color="black")

ax.legend(handles=legend_lines, loc="upper center")

ax.set(

   xlabel="flavanoids",

   ylabel="color_intensity",

   title="Soft Margin Outlier detection (wine recognition)",

)

plt.tight_layout()

plt.show()

वन-क्लास एसवीएम का उपयोग करके विसंगतियों का पता कैसे लगाया जा सकता है? | बाह्य जांच

प्लॉट हमें वाइन डेटासेट में आउटलेर्स का पता लगाने में वन-क्लास एसवीएम मॉडल के प्रदर्शन का दृश्य निरीक्षण करने की अनुमति देते हैं।

हार्ड मार्जिन और सॉफ्ट मार्जिन वन-क्लास एसवीएम मॉडल के परिणामों की तुलना करके, हम देख सकते हैं कि मार्जिन सेटिंग (एनयू पैरामीटर) का विकल्प बाहरी पहचान को कैसे प्रभावित करता है।

बहुत छोटे एनयू मान (0.01) के साथ हार्ड मार्जिन मॉडल के परिणामस्वरूप अधिक रूढ़िवादी निर्णय सीमा होने की संभावना है। यह अधिकांश डेटा बिंदुओं को कसकर लपेटता है और संभावित रूप से कम बिंदुओं को आउटलेयर के रूप में वर्गीकृत करता है।

इसके विपरीत, बड़े एनयू मान (0.35) के साथ सॉफ्ट मार्जिन मॉडल के परिणामस्वरूप अधिक लचीली निर्णय सीमा होने की संभावना है। इस प्रकार व्यापक मार्जिन की अनुमति मिलती है और संभावित रूप से अधिक आउटलेर्स पर कब्जा होता है।

नवीनता का पता लगाना

दूसरी ओर, हम इसे तब लागू करते हैं जब प्रशिक्षण डेटा आउटलेर्स से मुक्त होता है, और लक्ष्य यह निर्धारित करना है कि क्या नया अवलोकन दुर्लभ है, अर्थात, ज्ञात अवलोकनों से बहुत अलग है। इस नवीनतम अवलोकन को यहाँ नवीनता कहा जाता है।

import numpy as np

from sklearn import svm

# Generate train data

np.random.seed(30)

X = 0.3 * np.random.randn(100, 2)

X_train = np.r_[X + 2, X - 2]

# Generate some regular novel observations

X = 0.3 * np.random.randn(20, 2)

X_test = np.r_[X + 2, X - 2]

# Generate some abnormal novel observations

X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))

# fit the model

clf = svm.OneClassSVM(nu=0.1, kernel="rbf", gamma=0.1)

clf.fit(X_train)

y_pred_train = clf.predict(X_train)

y_pred_test = clf.predict(X_test)

y_pred_outliers = clf.predict(X_outliers)

n_error_train = y_pred_train[y_pred_train == -1].size

n_error_test = y_pred_test[y_pred_test == -1].size

n_error_outliers = y_pred_outliers[y_pred_outliers == 1].size

import matplotlib.font_manager

import matplotlib.lines as mlines

import matplotlib.pyplot as plt

from sklearn.inspection import DecisionBoundaryDisplay

_, ax = plt.subplots()

# generate grid for the boundary display

xx, yy = np.meshgrid(np.linspace(-5, 5, 10), np.linspace(-5, 5, 10))

X = np.concatenate([xx.reshape(-1, 1), yy.reshape(-1, 1)], axis=1)

DecisionBoundaryDisplay.from_estimator(

   clf,

   X,

   response_method="decision_function",

   plot_method="contourf",

   ax=ax,

   cmap="PuBu",

)

DecisionBoundaryDisplay.from_estimator(

   clf,

   X,

   response_method="decision_function",

   plot_method="contourf",

   ax=ax,

   levels=[0, 10000],

   colors="palevioletred",

)

DecisionBoundaryDisplay.from_estimator(

   clf,

   X,

   response_method="decision_function",

   plot_method="contour",

   ax=ax,

   levels=[0],

   colors="darkred",

   linewidths=2,

)

s = 40

b1 = ax.scatter(X_train[:, 0], X_train[:, 1], c="white", s=s, edgecolors="k")

b2 = ax.scatter(X_test[:, 0], X_test[:, 1], c="blueviolet", s=s, edgecolors="k")

c = ax.scatter(X_outliers[:, 0], X_outliers[:, 1], c="gold", s=s, edgecolors="k")

plt.legend(

   [mlines.Line2D([], [], color="darkred"), b1, b2, c],

   [

       "learned frontier",

       "training observations",

       "new regular observations",

       "new abnormal observations",

   ],

   loc="upper left",

   prop=matplotlib.font_manager.FontProperties(size=11),

)

ax.set(

   xlabel=(

       f"error train: {n_error_train}/200 ; errors novel regular: {n_error_test}/40 ;"

       f" errors novel abnormal: {n_error_outliers}/40"

   ),

   title="Novelty Detection",

   xlim=(-5, 5),

   ylim=(-5, 5),

)

plt.show()

वन-क्लास एसवीएम का उपयोग करके विसंगतियों का पता कैसे लगाया जा सकता है? | नवीनता का पता लगाना

डेटा बिंदुओं के दो समूहों के साथ एक सिंथेटिक डेटासेट तैयार करें। ट्रेन और परीक्षण डेटा के लिए उन्हें दो अलग-अलग केंद्रों के आसपास सामान्य वितरण के साथ उत्पन्न करके ऐसा करें: (2, 2) और (-2, -2)। दोनों आयामों के साथ -4 से 4 तक के वर्ग क्षेत्र के भीतर यादृच्छिक रूप से समान रूप से बीस डेटा बिंदु उत्पन्न करें। ये डेटा बिंदु असामान्य अवलोकनों या आउटलेर्स का प्रतिनिधित्व करते हैं जो ट्रेन और परीक्षण डेटा में देखे गए सामान्य व्यवहार से महत्वपूर्ण रूप से भिन्न होते हैं।
सीखी गई सीमा वन-क्लास एसवीएम मॉडल द्वारा सीखी गई निर्णय सीमा को संदर्भित करती है। यह सीमा फीचर स्पेस के उन क्षेत्रों को अलग करती है जहां मॉडल डेटा बिंदुओं को आउटलेर्स से सामान्य मानता है।
आकृति में नीले से सफेद रंग का ग्रेडिएंट विश्वास या निश्चितता की अलग-अलग डिग्री का प्रतिनिधित्व करता है जो वन-क्लास एसवीएम मॉडल फीचर स्पेस में विभिन्न क्षेत्रों को प्रदान करता है, गहरे रंग डेटा बिंदुओं को 'सामान्य' के रूप में वर्गीकृत करने में उच्च आत्मविश्वास का संकेत देते हैं। गहरा नीला मॉडल के निर्णय फ़ंक्शन के अनुसार 'सामान्य' होने के मजबूत संकेत वाले क्षेत्रों को इंगित करता है। जैसे-जैसे समोच्च में रंग हल्का होता जाता है, मॉडल डेटा बिंदुओं को 'सामान्य' के रूप में वर्गीकृत करने के बारे में कम आश्वस्त होता है।
कथानक स्पष्ट रूप से दर्शाता है कि वन-क्लास एसवीएम मॉडल नियमित और असामान्य अवलोकनों के बीच अंतर कैसे कर सकता है। सीखी गई निर्णय सीमा सामान्य और असामान्य अवलोकनों के क्षेत्रों को अलग करती है। नवीनता का पता लगाने के लिए वन-क्लास एसवीएम किसी दिए गए डेटासेट में असामान्य टिप्पणियों की पहचान करने में अपनी प्रभावशीलता साबित करता है।

nu=0.5 के लिए:

वन-क्लास एसवीएम में "एनयू" मान मॉडल द्वारा सहन किए गए आउटलेर्स के अंश को नियंत्रित करने में महत्वपूर्ण भूमिका निभाता है। यह सीधे मॉडल की विसंगतियों की पहचान करने की क्षमता को प्रभावित करता है और इस प्रकार भविष्यवाणी को प्रभावित करता है। हम देख सकते हैं कि मॉडल 100 प्रशिक्षण बिंदुओं को गलत वर्गीकृत करने की अनुमति दे रहा है। एनयू का कम मूल्य आउटलेर्स के अनुमत अंश पर एक सख्त बाधा का तात्पर्य है। एनयू का चुनाव विसंगतियों का पता लगाने में मॉडल के प्रदर्शन को प्रभावित करता है। इसमें एप्लिकेशन की विशिष्ट आवश्यकताओं और डेटासेट की विशेषताओं के आधार पर सावधानीपूर्वक ट्यूनिंग की भी आवश्यकता होती है।

गामा=0.5 और nu=0.5 के लिए

वन-क्लास एसवीएम में, गामा हाइपरपैरामीटर 'आरबीएफ' कर्नेल के लिए कर्नेल गुणांक का प्रतिनिधित्व करता है। यह हाइपरपैरामीटर निर्णय सीमा के आकार को प्रभावित करता है और परिणामस्वरूप, मॉडल के पूर्वानुमानित प्रदर्शन को प्रभावित करता है।

जब गामा उच्च होता है, तो एक एकल प्रशिक्षण उदाहरण इसके प्रभाव को इसके तत्काल आसपास तक सीमित कर देता है। यह अधिक स्थानीयकृत निर्णय सीमा बनाता है। इसलिए, एक ही वर्ग से संबंधित होने के लिए डेटा बिंदुओं को समर्थन वैक्टर के करीब होना चाहिए।

निष्कर्ष

विसंगति का पता लगाने के लिए वन-क्लास एसवीएम का उपयोग, बाह्य और नवीनता का पता लगाने का उपयोग विभिन्न डोमेन में एक मजबूत समाधान प्रदान करता है। यह उन परिदृश्यों में मदद करता है जहां लेबल किया गया विसंगति डेटा दुर्लभ या अनुपलब्ध है। इस प्रकार यह वास्तविक दुनिया के अनुप्रयोगों में विशेष रूप से मूल्यवान है जहां विसंगतियां दुर्लभ हैं और स्पष्ट रूप से परिभाषित करना चुनौतीपूर्ण है। इसके उपयोग के मामले साइबर सुरक्षा और दोष निदान जैसे विविध डोमेन तक फैले हुए हैं, जहां विसंगतियों के परिणाम होते हैं। हालाँकि, जबकि वन-क्लास एसवीएम कई लाभ प्रस्तुत करता है, बेहतर परिणाम प्राप्त करने के लिए डेटा के अनुसार हाइपरपैरामीटर सेट करना आवश्यक है, जो कभी-कभी कठिन हो सकता है।

आम सवाल-जवाब

Q1. विसंगति का पता लगाने के लिए वन-क्लास एसवीएम कैसे काम करता है?

A. वन-क्लास एसवीएम एक हाइपरप्लेन (या उच्च आयामों में हाइपरस्फेयर) का निर्माण करता है जो सामान्य डेटा बिंदुओं को समाहित करता है। यह हाइपरप्लेन सामान्य डेटा और निर्णय सीमा के बीच अंतर को अधिकतम करने के लिए स्थित है। परीक्षण या अनुमान के दौरान डेटा बिंदुओं को सामान्य (सीमा के अंदर) या विसंगतियों (सीमा के बाहर) के रूप में वर्गीकृत किया जाता है।

Q2. विसंगति का पता लगाने के लिए वन-क्लास एसवीएम का उपयोग करने के क्या फायदे हैं?

A. वन-क्लास एसवीएम फायदेमंद है क्योंकि इसमें प्रशिक्षण के दौरान विसंगतियों के लिए लेबल किए गए डेटा की आवश्यकता नहीं होती है। यह केवल नियमित उदाहरणों वाले डेटासेट से सीख सकता है, जिससे यह उन परिदृश्यों के लिए उपयुक्त हो जाता है जहां विसंगतियां दुर्लभ होती हैं और प्रशिक्षण के लिए लेबल किए गए उदाहरण प्राप्त करना चुनौतीपूर्ण होता है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://www.analyticsvidhya.com/blog/2024/03/one-class-svm-for-anomaly-detection/

जनरेटिव डेटा इंटेलिजेंस

विसंगति का पता लगाने के लिए एसवीएम वन-क्लास क्लासिफायरियर के लिए एक व्यापक गाइड