जेफिरनेट लोगो

YoucanBook.me अमेज़ॅन कोडगुरु के लिए आपके एप्लिकेशन का अनुकूलन करता है

दिनांक:

यह पोस्ट फेबी ओलुमोफिन द्वारा सह-लिखित है, जो इन्फोब्लोक्स के एक एनालिटिक्स आर्किटेक्ट हैं।

उसी तरह जिसे आप सरकार द्वारा जारी आईडी या टेलीफोन नंबर के बजाय किसी के नाम से आसानी से पहचान सकते हैं, डोमेन नेम सिस्टम (DNS) आईपी पते के पीछे इंटरनेट सेवाओं या संसाधनों के नामकरण और पहुंचने के लिए एक सुविधाजनक साधन प्रदान करता है। डीएनएस की व्यापकता, नेटवर्क कनेक्टिविटी के लिए उसकी मिशन-महत्वपूर्ण भूमिका, और यह तथ्य कि अधिकांश नेटवर्क सुरक्षा नीतियां अक्सर यूडीपी पोर्ट 53 का उपयोग करके नेटवर्क ट्रैफ़िक की निगरानी करने में विफल रहती हैं, डीएनएस को दुर्भावनापूर्ण अभिनेताओं के लिए आकर्षक बनाती हैं। सबसे प्रसिद्ध डीएनएस-आधारित सुरक्षा खतरों में से कुछ मालवेयर कमांड और कंट्रोल कम्युनिकेशंस (C & C), डेटा एक्सफिलिएशन, फास्ट फ्लक्स और डोमेन जेनरेट किए गए एल्गोरिदम को लागू करते हैं, यह जानकर कि पारंपरिक सुरक्षा समाधान उनका पता नहीं लगा सकते हैं।

दो दशकों से अधिक के लिए, इन्फोब्लॉक्स डीएनएस, डीएचसीपी और आईपी एड्रेस मैनेजमेंट (सामूहिक रूप से DDI के रूप में जाना जाता है) नेटवर्किंग नेटवर्किंग और प्रबंधन और सुरक्षित करने के लिए एक अग्रणी प्रदाता के रूप में संचालित है। फॉर्च्यून 8,000 के एक तिहाई से अधिक सहित 500 से अधिक ग्राहक, अपने ऑन-प्रिमाइसेस, क्लाउड और हाइब्रिड नेटवर्क को सुरक्षित रूप से स्वचालित, प्रबंधित और सुरक्षित करने के लिए इन्फोब्लो पर निर्भर हैं।

पिछले 5 वर्षों में, Infoblox ने अपनी SaaS सेवाओं के निर्माण के लिए AWS का उपयोग किया है और ग्राहकों को भौतिक ऑन-प्रिमाइसेस उपकरणों से क्लाउड तक अपनी DDI सेवाओं का विस्तार करने में मदद करता है। इस पोस्ट का फ़ोकस यह है कि Infoblox कैसे उपयोग किया जाता है अमेज़न SageMaker और अन्य AWS सेवाओं का निर्माण करने के लिए एक डीएनएस सुरक्षा विश्लेषिकी सेवा का निर्माण दुरुपयोग, दलबदल, और ग्राहक ब्रांडों के प्रतिरूपण का पता लगाने के लिए।

सामाजिक रूप से इंजीनियर हमलों द्वारा लक्षित ग्राहक ब्रांडों या डोमेन नामों का पता लगाना ग्राहकों को दी जाने वाली सुरक्षा विश्लेषणात्मक सेवाओं के लिए एक महत्वपूर्ण आवश्यकता के रूप में उभरा है। डीएनएस संदर्भ में, ए होमोग्रफ़ एक डोमेन नाम है जो नेत्रहीन अन्य डोमेन नाम के समान है, को फ़ोन किया लक्ष्य। दुर्भावनापूर्ण अभिनेता अत्यधिक मूल्यवान डोमेन नाम लक्ष्यों को प्रतिरूपित करने के लिए होमोग्राफ़ बनाते हैं और उनका उपयोग मालवेयर छोड़ने, उपयोगकर्ता जानकारी प्राप्त करने, किसी ब्रांड की प्रतिष्ठा पर हमला करने, आदि के लिए करते हैं। अनसुना करने वाले उपयोगकर्ता वैध डोमेन से होमोग्राफ को आसानी से अलग नहीं कर सकते हैं। कुछ मामलों में, होमोग्राफ और लक्ष्य डोमेन केवल दृश्य तुलना से अप्रभेद्य हैं।

Infoblox की चुनौती

एक पारंपरिक डोमेन नाम अंक, अक्षर, और ASCII वर्ण एन्कोडिंग योजना से हाइफ़न वर्ण से बना है, जिसमें 128 कोड बिंदु (या संभव वर्ण), या विस्तारित ASCII शामिल हैं, जिसमें 256 कोड बिंदु शामिल हैं। अंतर्राष्ट्रीयकृत डोमेन नाम (IDN) डोमेन नाम हैं जो यूनिकोड वर्णों के उपयोग को भी सक्षम करते हैं, या उन भाषाओं में लिखे जा सकते हैं जो या तो लैटिन अक्षरों का उपयोग लिगॉरेट्स या डायक्रिटिक्स (जैसे é या ü) के साथ करते हैं, या लैटिन वर्णमाला का उपयोग नहीं करते हैं सब। IDN अधिकांश लेखन प्रणालियों और भाषाओं के लिए व्यापक अक्षर प्रदान करते हैं, और आपको अपनी भाषा में इंटरनेट का उपयोग करने की अनुमति देते हैं। इसी तरह, क्योंकि दुनिया भर में इंटरनेट का उपयोग बढ़ रहा है, आईडीएन किसी को भी अपने लक्षित बाजार से जुड़ने के लिए एक शानदार तरीका प्रदान करता है, चाहे वह कोई भी भाषा बोलता हो। यह सुनिश्चित करने के लिए कि ASCII वर्णों के एक समूह से मिलकर कई भाषाओं में, हर IDN को Punycode में दर्शाया गया है। उदाहरण के लिए, amāzon.com xn--amzon-gwa.com बन जाएगा। इसके बाद, DNS के साथ संगतता के लिए प्रत्येक IDN डोमेन का ASCII में अनुवाद किया जाता है, जो यह निर्धारित करता है कि डोमेन नाम IP पतों में कैसे बदले जाते हैं।

IDN, संक्षेप में, इंटरनेट को सभी के लिए अधिक सुलभ बनाते हैं। हालांकि, वे धोखेबाजों को आकर्षित करते हैं जो समान दिखने वाली नकल के साथ उन पात्रों में से कुछ को बदलने की कोशिश करते हैं और हमें नकली डोमेन पर पुनर्निर्देशित करते हैं। प्रक्रिया के रूप में जाना जाता है होमोग्राफ पर हमला, जो नकली डोमेन बनाने के लिए यूनिकोड वर्णों का उपयोग करता है जो कि लक्ष्य से अप्रभेद्य होते हैं, जैसे कि pɑypal.com for paypal.com (लैटिन लघु पत्र अल्फा 'ɑ' [U + 0251])। ये पहली नज़र में एक जैसे लगते हैं; हालाँकि, एक नज़दीकी निरीक्षण में, आप अंतर देख सकते हैं: pɑp के लिए ypal.comaypal.com।

सबसे आम होमोग्राफ डोमेन निर्माण विधियां हैं:

  • यूनिकोड वर्णों का उपयोग कर IDN होमोग्राफ (जैसे "" "" के साथ "ए" को बदलना)
  • बहु-अक्षर समरूप (जैसे "r" के साथ "m" को बदलना)
  • चरित्र प्रतिस्थापन (जैसे "एल" के साथ "आई" को बदलना)
  • Punycode स्पूफिंग (उदाहरण के लिए, ode 㿙 㿗। [।] Com को xn - किंडल []। Com के रूप में एन्कोड किया जाता है, और 䕮 䕵 䕶 䕱 [।] को xn - google [। Com के रूप में देखा जाता है।

दिलचस्प बात यह है कि होमोग्राफ हमले डीएनएस हमलों से आगे बढ़ते हैं, और वर्तमान में ऑपरेटिंग सिस्टम पर प्रक्रिया के नामों को बाधित करने के लिए उपयोग किया जाता है, या साहित्यिक चोरी का पता लगाने और फ़िशिंग सिस्टम को बायपास किया जाता है। यह देखते हुए कि इन्फोब्लोक्स के कई ग्राहक होमोग्राफ हमलों के बारे में चिंतित थे, टीम ने अमेज़ॅन सैजमेकर के साथ मशीन लर्निंग (एमएल) आधारित समाधान बनाने की शुरुआत की।

व्यवसाय के दृष्टिकोण से, होमोग्राफ हमलों से निपटना एक संगठन से कीमती संसाधनों को मोड़ सकता है। डोमेन नाम प्रतिरूपण और होमोग्राफ हमलों से निपटने के लिए एक सामान्य तरीका है सैकड़ों डोमेन के पूर्व-पंजीकृत करके दुर्भावनापूर्ण अभिनेताओं को हरा देना जो उनके ब्रांडों के संभावित होमोग्राफ हैं। दुर्भाग्य से, इस तरह का शमन केवल सीमित हमलावरों के लिए ही प्रभावी हो सकता है क्योंकि बहुत अधिक संख्या में प्रशंसनीय दिखने वाले होमोग्राफ अभी भी एक हमले के लिए उपलब्ध हैं। Infoblox IDN होमोग्राफर्स डिटेक्टर के साथ, हमने एलेक्सा के शीर्ष 43 डोमेन नामों में से 50 और वित्तीय सेवाओं और क्रिप्टोक्यूरेंसी डोमेन नामों के लिए IDN होमोग्राफ देखे हैं। निम्न तालिका कुछ उदाहरण दिखाती है।

उपाय

होमोग्राफ हमले की समस्या के पारंपरिक दृष्टिकोण पर आधारित हैं स्ट्रिंग दूरी की संगणना, और जब कुछ गहरे सीखने वाले दिखाई देने लगे हैं, तो वे मुख्य रूप से पूरे डोमेन नामों को वर्गीकृत करने का लक्ष्य रखते हैं। Infoblox ने इस चुनौती को डोमेन के प्रति चरित्र पहचान के दृष्टिकोण से लक्ष्य करके हल किया। प्रत्येक वर्ण को तब छवि पहचान तकनीकों का उपयोग करके संसाधित किया जाता है, जिसने इन्फोबॉक्स को यूनिकोड वर्णों के ग्लिफ़ (या दृश्य आकार) का उपयोग करने की अनुमति दी, बजाय इसके कोड बिंदुओं पर निर्भर होने के, जो कि संख्यात्मक मान हैं जो वर्ण एन्कोडिंग शब्दावली में कोड स्थान बनाते हैं। ।

इस दृष्टिकोण के बाद, इन्फोसिस ने यूनीकोड ​​वर्णों का पता लगाने वाले क्लासिफायर के लिए 96.9% सटीकता दर पर पहुंच गया जो एएससीआईआई पात्रों की तरह दिखता है। पता लगाने की प्रक्रिया को मौजूदा ऑफ़लाइन सीखने के दृष्टिकोणों के विपरीत एकल ऑफ़लाइन पूर्वानुमान की आवश्यकता होती है, जिसे बार-बार ऑनलाइन भविष्यवाणी की आवश्यकता होती है। स्ट्रिंग्स के बीच दूरी की गणना पर निर्भर करने वाले तरीकों के साथ तुलना करने पर इसकी झूठी सकारात्मकता कम होती है।

Infoblox ने दो घटक बनाने के लिए Amazon SageMaker का उपयोग किया:

  • An ऑफ़लाइन पहचान यूनिकोड चरित्र होमोग्राफ एक के आधार पर सीएनएन वर्गीकृत। यह मॉडल रुचि के ASCII वर्णों (जैसे डोमेन नाम के लिए सबसेट) के रूप में छवियां और लेबल लेता है और उन्हें एक यूनिकोड मानचित्र पर आउटपुट करता है, जिसे यूनिकोड मानक के प्रत्येक नए रिलीज के बाद हर बार फिर से बनाया जाता है।
  • An ऑनलाइन पहचान डोमेन नाम होमोग्राफ को एक लक्ष्य डोमेन सूची और एक इनपुट डीएनएस स्ट्रीम लेने और होमोग्राफ को उत्पन्न करने के लिए।

निम्न आरेख बताता है कि समग्र पहचान प्रक्रिया इन दो घटकों का उपयोग कैसे करती है।

इस चित्र में, प्रत्येक वर्ण को 28 x 28 पिक्सेल के साथ प्रस्तुत किया गया है की छवि। इसके अलावा, ट्रेन और परीक्षण सेट से प्रत्येक चरित्र निकटतम दिखने वाले ASCII चरित्र (जो कि इसका है) से जुड़ा हुआ है लेबल).

इस पोस्ट के शेष समाधान पर चर्चा करने के लिए गहराई से गोताखोरी करता है:

  • वर्गीकरणकर्ता के लिए प्रशिक्षण डेटा का निर्माण
  • क्लासिफायर का CNN आर्किटेक्चर
  • मॉडल मूल्यांकन
  • ऑनलाइन डिटेक्शन मॉडल

वर्गीकरणकर्ता के लिए प्रशिक्षण डेटा का निर्माण

क्लासिफायर बनाने के लिए, इंफोब्लॉक्स ने एमएनआईएसटी जैसे प्रारूप में प्रशिक्षण डेटा को इकट्ठा करने के लिए कुछ कोड लिखे। संशोधित राष्ट्रीय मानक और प्रौद्योगिकी संस्थान (MNIST) ने एक बड़ा हस्तलिखित अंक चित्र डेटाबेस जारी किया, जिसका उपयोग किया गया है नमस्ते विश्व किसी भी गहरी सीखने कंप्यूटर दृष्टि व्यवसायी के लिए। प्रत्येक छवि का आयाम 28 x 28 पिक्सेल है। Infoblox के कोड ने प्रत्येक वर्ण के रूपांतर बनाने के लिए निम्नलिखित संपत्तियों का उपयोग किया:

  • नेत्रहीन भ्रमित पात्रों की यूनिकोड मानक सूची (नवीनतम संस्करण है 13.0.0), उनके साथ सुरक्षा के विचार, जो डेवलपर्स को उचित रूप से कार्य करने और दृश्य स्पूफिंग हमलों से दूर चलाने की अनुमति देते हैं।
  • यूनिकोड मानक ब्लॉक जिसमें एक विशिष्ट चिह्न ब्लॉक में सबसे आम संयोजन वर्ण शामिल हैं। उदाहरण के लिए, विकिपीडिया प्रविष्टि से निम्नलिखित चार्ट में Diacritical मार्क्स का संयोजन, आप U + 300 ब्लॉक को पा सकते हैं जहां U + 030x पंक्ति 0 कॉलम पार करती है; U + 300 गंभीर उच्चारण प्रतीत होता है, क्योंकि आप फ्रेंच भाषा में "è" वर्ण में भी पा सकते हैं। प्रशिक्षण संयोजन के निर्माण के लिए कुछ संयोजन डायक्टिक्स को एक तरफ छोड़ दिया गया था क्योंकि वे एक होमोग्राफ हमले के दृष्टिकोण से कम विशिष्ट थे (उदाहरण के लिए, यू + 0363)। अधिक जानकारी के लिए देखें Diacritical मार्क्स का संयोजन यूनिकोड की वेबसाइट पर।
  • कई फ़ॉन्ट टाइपफेस, जो हमलावर दुर्भावनापूर्ण प्रतिपादन के लिए और पात्रों के आकार को मौलिक रूप से बदलने के लिए उपयोग कर सकते हैं। उदाहरण के लिए, Infoblox ने एक स्थानीय सिस्टम से कई फोंट का उपयोग किया, लेकिन तीसरे पक्ष के फोंट (जैसे कि) भी जोड़ सकते हैं गूगल फ़ॉन्ट्स) चेतावनी के साथ कि स्क्रिप्ट फोंट को बाहर रखा जाना चाहिए। प्रत्येक वर्ण के कई रूपों को उत्पन्न करने के लिए अलग-अलग फोंट का उपयोग करना इस उपयोग के मामले के लिए एक शक्तिशाली छवि वृद्धि तकनीक के रूप में कार्य करता है: इस स्तर पर, इन्फोबॉक्स ने प्रशिक्षण सेट उत्पन्न करने के लिए 65 फोंट के लिए समझौता किया। फोंट की यह संख्या एक सुसंगत प्रशिक्षण सेट बनाने के लिए पर्याप्त है जो एक सभ्य सटीकता प्राप्त करता है। कम फोंट का उपयोग करने से प्रत्येक चरित्र के लिए पर्याप्त प्रतिनिधित्व नहीं बना, और इन 65 से अधिक फोंट का उपयोग करने से मॉडल की सटीकता में काफी सुधार नहीं हुआ।

भविष्य में, Infoblox अपने एमएल मॉडल की मजबूती को और बेहतर बनाने के लिए कुछ डेटा संवर्द्धन तकनीकों (उदाहरण के लिए, अनुवाद, स्केल और कतरनी संचालन) का उपयोग करने का इरादा रखता है। दरअसल, प्रत्येक डीप लर्निंग फ्रेमवर्क SDK रिच डेटा संवर्द्धन सुविधाएँ प्रदान करता है जिन्हें डेटा तैयारी पाइपलाइन में शामिल किया जा सकता है।

क्लासिफायरियर का CNN आर्किटेक्चर

जब प्रशिक्षण सेट तैयार था और अमेज़ॅन सैजमेकर पर एक मॉडल को प्रशिक्षित करने के लिए बहुत कम सीखने की अवस्था के साथ, इन्फोब्लोक्स ने निम्नलिखित सीएनएन वास्तुकला के आधार पर एक क्लासिफायर का निर्माण शुरू किया।

यह CNN न्यूरल नेटवर्क क्लासिफायर के बाद लगातार दो CONV-POOL कोशिकाओं के लिए बनाया गया है। सजा अनुभाग स्वचालित रूप से इनपुट छवियों से सुविधाओं को निकालता है, और वर्गीकरण अनुभाग ASCII चरित्र मानचित्र में इनपुट छवियों को मैप (वर्गीकृत) करने के लिए इन सुविधाओं का उपयोग करता है। अंतिम परत इनपुट में वर्गीकरण नेटवर्क के आउटपुट को प्रत्येक वर्ग (जैसे ASCII वर्ण) के लिए संभावनाओं की एक वेक्टर में परिवर्तित करती है।

Infoblox ने पहले से ही TensorFlow मॉडल बनाना शुरू कर दिया था और इसे Amazon SageMaker में लाने में सक्षम था। वहां से, उन्होंने मॉडल के विकास में तेजी लाने या इसे सुविधाजनक बनाने के लिए कई अमेज़ॅन सैजमेकर सुविधाओं का उपयोग किया:

  • सीपीयू और GPU उदाहरणों के साथ वितरित प्रशिक्षण के लिए समर्थन - Infoblox ने मुख्य रूप से ml.c4.xlarge (कंप्यूट) और ml.p2.xlarge (GPU) इंस्टेंसेस का उपयोग किया। हालांकि प्रत्येक प्रशिक्षण लंबे समय तक नहीं रहा (लगभग 20 मिनट), प्रत्येक हाइपरपैरेट ट्यूनिंग जॉब मापदंडों की संख्या और उनके खोज स्थान की बारीकियों के कारण 7 घंटे से अधिक समय तक हो सकता है। किसी भी बुनियादी ढांचे पर ध्यान दिए बिना पृष्ठभूमि में कई उदाहरणों पर कार्यभार वितरित करना महत्वपूर्ण था।
  • नोटबुक वातावरण से ही भविष्यवाणियों को प्रशिक्षित करने, तैनात करने और परीक्षण करने की क्षमता - डेटा का पता लगाने और तैयार करने के लिए उपयोग किए जाने वाले उसी वातावरण से, इन्फोब्लोक्स ने अमेज़ॅन सैजमेकर का इस्तेमाल पारदर्शी रूप से प्रशिक्षण समूहों और अनुमान समापन बिंदुओं को लॉन्च करने और प्रबंधित करने के लिए किया। ये इन्फ्रास्ट्रक्चर अमेज़ॅन सैजमेकर नोटबुक उदाहरण से स्वतंत्र हैं और सेवा द्वारा पूरी तरह से प्रबंधित हैं।

आरंभ करना मौजूदा दस्तावेज़ों के लिए आसान था और AWS द्वारा उनके सार्वजनिक रूप से उपलब्ध कराए गए कई उदाहरण नोटबुक गीथहब रेपो या सीधे अमेज़न SageMaker नोटबुक वातावरण के भीतर से।

उन्होंने कोड की कुछ पंक्तियों के साथ अमेज़न SageMaker में स्थानीय स्तर पर एक TensorFlow प्रशिक्षण स्क्रिप्ट का परीक्षण करना शुरू कर दिया। स्थानीय मोड में प्रशिक्षण के निम्नलिखित लाभ थे:

  • Infoblox आसानी से मेट्रिक्स (जैसे GPU खपत) की निगरानी कर सकता है, और यह सुनिश्चित कर सकता है कि लिखा गया कोड वास्तव में हार्डवेयर का लाभ ले रहा है जो वे प्रशिक्षण नौकरियों के लिए उपयोग करेंगे
  • डिबगिंग करते समय, प्रशिक्षण में बदलाव और इंट्रेंस स्क्रिप्ट्स को तुरंत ध्यान में रखा गया, जिससे कोड पर चलना बहुत आसान हो गया
  • प्रशिक्षण क्लस्टर का प्रावधान करने के लिए अमेज़ॅन सैजमेकर की प्रतीक्षा करने की आवश्यकता नहीं थी, और स्क्रिप्ट तुरंत चल सकती थी

अमेज़ॅन सैजमेकर में स्थानीय मोड में काम करने की लचीलापन होने के कारण मौजूदा काम को आसानी से क्लाउड में पोर्ट करना महत्वपूर्ण था। आप स्थानीय उदाहरण पर अमेज़ॅन सैजमेकर टेन्सरफ्लो सेवारत कंटेनर को तैनात करके अपने इंजेक्शन कोड को स्थानीय रूप से संरक्षित कर सकते हैं। जब आप मॉडल और प्रशिक्षण व्यवहार से खुश होते हैं, तो आप कोड के कुछ ही लाइनों को बदलकर एक वितरित प्रशिक्षण और प्रवेश पर स्विच कर सकते हैं ताकि आप एक नया अनुमानक बना सकें, मॉडल का अनुकूलन कर सकें या प्रशिक्षित कलाकृतियों को लगातार अंतिम बिंदु पर तैनात कर सकें। ।

स्थानीय मोड का उपयोग करके डेटा की तैयारी और प्रशिक्षण प्रक्रिया को पूरा करने के बाद, इन्फोब्लोक्स ने मॉडल को क्लाउड में ट्यून करना शुरू कर दिया। यह चरण मापदंडों के मोटे सेट के साथ शुरू हुआ जो धीरे-धीरे कई ट्यूनिंग नौकरियों के माध्यम से परिष्कृत किया गया था। इस चरण के दौरान, Infoblox का उपयोग किया गया अमेज़ॅन सैजमेकर हाइपरपैरेट ट्यूनिंग मदद करने के लिए उन्हें सबसे अच्छा हाइपरपरमीटर मान का चयन करें। निम्नलिखित हाइपरपैरमीटर मॉडल के प्रदर्शन पर सबसे अधिक प्रभाव डालते हैं:

  • सीखने की दर
  • ड्रॉपआउट दर (नियमितीकरण)
  • सजा परतों के कर्नेल आयाम

जब मॉडल को अनुकूलित किया गया और आवश्यक सटीकता और एफ 1-स्कोर प्रदर्शन तक पहुंच गया, तो इन्फोब्लोक्स टीम ने कलाकृतियों को अमेज़ॅन सैजमेकर एंडपॉइंट पर तैनात किया। अतिरिक्त सुरक्षा के लिए, अमेज़ॅन सैजमेकर एंडपॉइंट्स को अलग-अलग समर्पित उदाहरणों में तैनात किया गया है, और इस तरह, उन्हें प्रावधान किए जाने की आवश्यकता है और कुछ मिनटों के बाद नई भविष्यवाणियां करने के लिए तैयार हैं।

एक सही सटीकता के साथ पहुंचने की कोशिश करते समय सही या साफ़ की गई ट्रेन, सत्यापन और परीक्षण सेट का होना सबसे महत्वपूर्ण था। उदाहरण के लिए, प्रशिक्षण सेटों के 65 फोंट का चयन करने के लिए, इन्फोब्लोक्स टीम ने अपने कार्य केंद्र पर उपलब्ध फोंट को प्रिंट किया और सबसे अधिक प्रासंगिक फोंट का चयन करने के लिए मैन्युअल रूप से उनकी समीक्षा की।

मॉडल मूल्यांकन

Infoblox ने CNN क्लासिफायर के प्रदर्शन का मूल्यांकन करने के लिए मुख्य मैट्रिक्स के रूप में सटीकता और F1-स्कोर का उपयोग किया।

शुद्धता मॉडल ठीक है मिल गया है अंश का अंश। यह सही अनुमानों की संख्या के रूप में परिभाषित किया गया है जो मॉडल की कुल भविष्यवाणियों की संख्या से पता चला है। Infoblox ने 96.9% से अधिक सटीकता प्राप्त की (इसे दूसरे तरीके से डालने के लिए, मॉडल द्वारा किए गए 1000 पूर्वानुमानों में से 969 को या तो होमोग्राफ के रूप में वर्गीकृत किया गया था या नहीं)।

एक वर्गीकरण समस्या के लिए दो अन्य महत्वपूर्ण मैट्रिक्स सटीक और याद करते हैं।

शुद्धता सही सकारात्मक की संख्या और वास्तविक सकारात्मक और झूठी सकारात्मक की कुल संख्या के बीच अनुपात के रूप में परिभाषित किया गया है:

वापस बुलाना सही सकारात्मक और झूठे नकारात्मक के कुल पर वास्तविक सकारात्मक की संख्या के बीच अनुपात के रूप में परिभाषित किया गया है:

Infoblox एक संयुक्त मीट्रिक का उपयोग करता है, एफ 1-स्कोर, जो सटीक और याद के बीच एक हार्मोनिक मतलब लेता है। इससे मॉडल को इन दो मैट्रिक्स के बीच एक अच्छा संतुलन बनाने में मदद मिलती है।

व्यवसाय प्रभाव के नजरिए से, वरीयता गलत सकारात्मक पर गलत नकारात्मक को कम करने के लिए है। एक झूठी नकारात्मक का प्रभाव चूक जाता है, जिसे आप सहपाठियों के एक समूह के साथ कम कर सकते हैं। गलत पॉजिटिव्स का एंड-यूजर्स पर सीधा नकारात्मक प्रभाव पड़ता है, खासकर जब आप डिटेक्टर परिणामों में होमोग्राफ के DNS रिज़ॉल्यूशन के लिए ब्लॉक प्रतिक्रिया नीति कार्रवाई को कॉन्फ़िगर करते हैं।

ऑनलाइन डिटेक्शन मॉडल

निम्नलिखित आरेख ऑनलाइन डिटेक्शन मॉडल की वास्तुकला को दर्शाता है।

ऑनलाइन मॉडल निम्नलिखित AWS घटकों का उपयोग करता है:

  • अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस 3) ट्रेन और टेस्ट सेट (1), यूनिकोड ग्लिफ़ (1), निष्क्रिय डेटासेट, ऐतिहासिक डेटा और मॉडल कलाकृतियों (3) को संग्रहीत करता है।
  • अमेज़ॅन सैजमेकर सीएनएन मॉडल (2) को प्रशिक्षित करता है और होमोग्राफ क्लासिफायर (4) के साथ ऑफ़लाइन निष्कर्ष निकालता है। आउटपुट ASCII से यूनिकोड मानचित्र (5) है।
  • AWS डेटा पाइपलाइन बैच डिटेक्शन पाइपलाइन (6) चलाता है और प्रबंधन करता है अमेज़ॅन ईएमआर क्लस्टर (उन्हें बनाने और शटडाउन तक प्रसंस्करण के विभिन्न चरणों को सबमिट करना)।
  • अमेज़ॅन ईएमआर ईटीएल नौकरियों को बैच और स्ट्रीमिंग पाइपलाइन दोनों के लिए चलाता है।
    • RSI बैच पाइपलाइन अमेज़ॅन S3 से इनपुट डेटा पढ़ता है (लक्ष्य की सूची लोड करना और निष्क्रिय DNS डेटा (7) पढ़ना), कुछ ईटीएल (8) लागू करता है, और उन्हें ऑनलाइन डिटेक्शन सिस्टम (10) के लिए उपलब्ध कराता है।
    • ऑनलाइन पहचान प्रणाली एक है स्ट्रीमिंग पाइपलाइन एक ही तरह का परिवर्तन (10) लागू करना, लेकिन अपाचे काफ्का ब्रोकर (11) की सदस्यता लेने से अतिरिक्त डेटा प्राप्त होता है।
  • अमेज़ॅन डायनेमोडीबी (एक NoSQL डेटाबेस) बहुत विस्तृत पहचान डेटा (12) का पता लगाने एल्गोरिथ्म (ऑनलाइन सिस्टम) से आता है। भारी लेखन मुख्य उपयोग पैटर्न है जिसका उपयोग यहां किया गया है (बड़े डेटासेट और अनिरक्षित पढ़ने की आवश्यकता)।
  • PostgreSQL के लिए अमेज़न आरडीएस परिणामों के संक्षिप्त विवरण (13) के साथ उच्च स्तर पर खोज परिणामों का एक सबसेट संग्रहीत करता है। Infoblox ने पाया कि नियंत्रण के लिए लागत को नियंत्रित करते हुए अपने उपयोग के मामले के लिए उच्च आवृत्ति रीड एक्सेस की आवश्यकता वाले पहचान परिणामों के सबसेट को संग्रहीत करने के लिए Amazon RDS बहुत उपयुक्त है।
  • AWS लाम्बा कार्य आर्केस्ट्रा और वास्तुकला के विभिन्न घटकों को जोड़ते हैं।

समग्र वास्तुकला भी AWS सर्वोत्तम प्रथाओं का अनुसरण करती है अमेज़ॅन वर्चुअल प्राइवेट क्लाउड (अमेज़न VPC), लोचदार लोड संतुलन, तथा अमेज़न इलास्टिक ब्लॉक स्टोर (अमेज़न ईबीएस)।

निष्कर्ष

Infoblox टीम ने अमेज़ॅन सैजमेकर का उपयोग एक गहरे CNN मॉडल को प्रशिक्षित करने के लिए किया जो यूनिकोड वर्णों की पहचान करता है जो नेत्रहीन DNS डोमेन के ASCII वर्णों के समान हैं। मॉडल को बाद में यूनिकोड मानक से होमोग्राफ वर्णों की पहचान करने के लिए 0.969 सत्यापन सटीकता और 0.969 परीक्षण एफ 1 स्कोर के साथ उपयोग किया गया था। फिर उन्होंने ऑनलाइन इमेज डिजिटलीकरण या भविष्यवाणी के बिना निष्क्रिय DNS ट्रैफ़िक पर IDN होमोग्राफ का पता लगाने के लिए मॉडल भविष्यवाणियों का उपयोग करने के लिए एक डिटेक्टर लिखा। इस लेखन के रूप में, डिटेक्टर ने होमोग्राफ डोमेन के 60 मिलियन से अधिक प्रस्तावों की पहचान की है, जिनमें से कुछ लोकप्रिय ऑनलाइन ब्रांडों के दुरुपयोग के लिए ऑनलाइन अभियानों से संबंधित हैं। 500 हजार अलग-अलग ब्रांडों के बीच 60 हजार से अधिक अनोखे होमोग्राफ हैं। इसने 100 उद्योगों में हमलों की पहचान की है, जिनमें से अधिकांश (लगभग 49%) वित्तीय सेवाओं के डोमेन पर लक्षित हैं।

आईडीएन अनजाने में हमलावरों को अधिक रचनात्मक तरीके से होमोग्राफ डोमेन बनाने की अनुमति देता है, जो ब्रांड के मालिकों का अनुमान लगा सकता है। संगठनों को होमोग्राफ के लिए डीएनएस गतिविधियों की निगरानी पर विचार करना चाहिए और ब्रांड संरक्षण के लिए होमोग्राफ डोमेन की शॉर्टलिस्ट्री पर पहले से ही भरोसा नहीं करना चाहिए।

निम्नलिखित स्क्रीनशॉट होममोन डोमेन वेबपेज सामग्री के उदाहरण दिखाते हैं, जिस डोमेन को वे लगाने का प्रयास करते हैं। हम बाईं ओर एक होमोग्राफ डोमेन की सामग्री और दाईं ओर वास्तविक डोमेन दिखाते हैं।

अमेज़ॅन: xn--amzon-hra.de => amäzon.de बनाम amazon.de। होमोग्राफ डोमेन पृष्ठ पर खाली क्षेत्र देखें।

Google: xn--goog-8va3s.com => goog vs..com बनाम google.com। होमोग्राफ डोमेन पेज पर एक टॉप मेनू बार है।

फेसबुक: xn--faebook-35a.com => fa.comebook.com बनाम facebook.com। जब तक हम उन्हें साइड-बाय-साइड नहीं देखते, लॉगिन पेज के बीच अंतर आसानी से स्पष्ट नहीं है।


लेखक के बारे में

फेमी ओलुमोफिन Infoblox में एक एनालिटिक्स आर्किटेक्ट है, जहां वह अनुसंधान से लेकर उत्पादन तक AI / ML मॉडल लाने के लिए कंपनी के व्यापक प्रयास का नेतृत्व करता है। उनकी विशेषज्ञता सुरक्षा विश्लेषिकी और बड़े डेटा पाइपलाइन वास्तुकला और कार्यान्वयन, मशीन लर्निंग मॉडल अन्वेषण और वितरण और गोपनीयता बढ़ाने वाली प्रौद्योगिकियों में है। उन्होंने अपनी पीएच.डी. कनाडा में वाटरलू विश्वविद्यालय से कंप्यूटर साइंस में। अपने खाली समय में, फेमी को साइकिल चलाना, लंबी पैदल यात्रा और पढ़ना पसंद है।

मिशैल होराउ AWS में एक AI / ML स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो डेटा साइंटिस्ट और मशीन लर्निंग आर्किटेक्ट के बीच बारी-बारी से निर्भर करता है। उन्होंने एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला पर काम किया है, जिसमें विसंगति का पता लगाने से लेकर भविष्य के उत्पाद की गुणवत्ता या विनिर्माण अनुकूलन तक शामिल है। जब ग्राहकों को अगले सर्वोत्तम मशीन सीखने के अनुभवों को विकसित करने में मदद नहीं मिलती है, तो उन्हें सितारों को देखने, यात्रा करने या पियानो बजाने में आनंद मिलता है।

कोस्टि वासिलककिस अमेज़ॅन सैजमेकर के लिए एक सीनियर बिजनेस डेवलपमेंट मैनेजर है, एंड-टू-एंड मशीन सीखने के लिए एडब्ल्यूएस की पूरी तरह से प्रबंधित सेवा है, और वह एमएल के साथ वित्तीय सेवाओं और प्रौद्योगिकी कंपनियों को अधिक मदद करने पर ध्यान केंद्रित करता है। वह क्यूरेटेड वर्कशॉप, हैंड्स-ऑन गाइडेंस सेशन, और प्री-पैकेज्ड ओपन-सोर्स सॉल्यूशंस की कद्र करता है ताकि यह सुनिश्चित किया जा सके कि ग्राहक बेहतर एमएल मॉडल जल्दी और सुरक्षित बना सकें। काम के बाहर, वह दुनिया की यात्रा, दार्शनिकता और टेनिस खेलने का आनंद लेता है।

स्रोत: https://aws.amazon.com/blogs/machine-learning/infoblox-inc-built-a-patent-pending-homograph-attack-detection-model-for-dns-with-amazon-sagemaker/

स्रोत: https://plato-ai.network/youcanbook-me-optimizes-your-apps-thanks-to-amazon-codeguru/

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी