जेफिरनेट लोगो

इंटेलीजेंट सर्च के साथ अपने Amazon S3 डेटा से इनसाइट अनलॉक करें | अमेज़न वेब सेवाएँ

दिनांक:

अमेज़ॅन केंद्र मशीन लर्निंग (एमएल) द्वारा संचालित एक बुद्धिमान खोज सेवा है। अमेज़ॅन केंद्र आपकी वेबसाइटों और एप्लिकेशन के लिए एंटरप्राइज़ खोज की पुनर्कल्पना करता है ताकि आपके कर्मचारी और ग्राहक आसानी से उस सामग्री को ढूंढ सकें, जिसे वे ढूंढ रहे हैं, भले ही वह आपके संगठन के भीतर कई स्थानों और सामग्री रिपॉजिटरी में बिखरी हुई हो। उत्तर देने और दस्तावेजों को रैंक करने के लिए एमएल द्वारा संचालित सबसे प्रासंगिक दस्तावेजों को खोजने के लिए कीवर्ड या प्राकृतिक भाषा के प्रश्नों का उपयोग किया जा सकता है। Amazon Kendra से डेटा इंडेक्स कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3) या किसी तृतीय-पक्ष दस्तावेज़ रिपॉजिटरी से। Amazon S3 एक ऑब्जेक्ट स्टोरेज सेवा है जो स्केलेबिलिटी और उपलब्धता प्रदान करती है जहां आप बड़ी मात्रा में डेटा स्टोर कर सकते हैं, जिसमें उत्पाद मैनुअल, प्रोजेक्ट और शोध दस्तावेज़ और बहुत कुछ शामिल है।

इस पोस्ट में, आप सीख सकते हैं कि किसी दिए गए को कैसे तैनात किया जाए एडब्ल्यूएस CloudFormation Amazon S3 बकेट में अपने दस्तावेज़ों को अनुक्रमित करने के लिए टेम्प्लेट। टेम्पलेट इंडेक्स के लिए एक अमेज़ॅन केंद्र डेटा स्रोत बनाता है और आपकी आवश्यकताओं के अनुसार आपके डेटा स्रोत को सिंक्रनाइज़ करता है: ऑन-डिमांड, प्रति घंटा, दैनिक, साप्ताहिक या मासिक। AWS CloudFormation हमें बुनियादी ढांचे को कोड (IaC) के रूप में प्रावधान करने की अनुमति देता है ताकि आप संसाधनों के प्रबंधन में कम समय व्यतीत कर सकें, अपने बुनियादी ढांचे को जल्दी से दोहरा सकें, और बुनियादी ढांचे में परिवर्तनों को नियंत्रित और ट्रैक कर सकें।

समाधान का अवलोकन

CloudFormation टेम्प्लेट Amazon S3 के कनेक्शन के साथ Amazon Kendra डेटा स्रोत सेट करता है। टेम्प्लेट Amazon Kendra डेटा स्रोत सेवा के लिए भी एक भूमिका बनाता है। आप एक S3 बकेट, सिंक्रोनाइज़ेशन शेड्यूल और समावेशन/बहिष्करण पैटर्न निर्दिष्ट कर सकते हैं। जब तुल्यकालन कार्य समाप्त हो जाता है, तो आप खोज कंसोल के माध्यम से अनुक्रमित सामग्री खोज सकते हैं। निम्न आरेख इस वर्कफ़्लो को दिखाता है।

यह पोस्ट आपको निम्न चरणों के लिए मार्गदर्शन करती है:

  1. प्रदान किए गए टेम्पलेट को तैनात करें।
  2. आपके द्वारा बनाए गए S3 बकेट में दस्तावेज़ अपलोड करें। यदि आप दस्तावेज़ों के साथ एक बकेट प्रदान करते हैं, तो आप इस चरण को छोड़ सकते हैं।
  3. इंडेक्स द्वारा डेटा स्रोत को क्रॉल करना समाप्त होने तक प्रतीक्षा करें।

.. पूर्वापेक्षाएँ

इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:

  • An AWS खाता जहां प्रस्तावित समाधान तैनात किया जा सकता है।
  • स्टैक में डेटा स्रोत संलग्न करने के लिए Amazon Kendra इंडेक्स।
  • अमेज़ॅन केंद्र इंडेक्स बनाने के लिए उपयोग किए जाने वाले दस्तावेज़ों का सेट। इस समाधान में, आप की एक संपीड़ित फ़ाइल का उपयोग कर रहे हैं एडब्ल्यूएस श्वेतपत्र.

एडब्ल्यूएस क्लाउडफॉर्मेशन के साथ समाधान तैनात करें

CloudFormation टेम्पलेट को परिनियोजित करने के लिए, निम्न चरणों को पूरा करें:

  1. चुनें

आपको AWS CloudFormation कंसोल पर पुनर्निर्देशित किया गया है।

  1. आप मापदंडों को संशोधित कर सकते हैं या डिफ़ॉल्ट मानों का उपयोग कर सकते हैं:
    • अमेज़ॅन केंद्र डेटा स्रोत का नाम स्वचालित रूप से स्टैक नाम और संबद्ध बकेट नाम का उपयोग करके सेट किया गया है।
    • के लिए केंद्र इंडेक्सआईडी, अमेज़ॅन केंद्र इंडेक्स आईडी दर्ज करें जहां आप डेटा स्रोत संलग्न करेंगे।
    • आप यह भी चुन सकते हैं कि आप डेटा स्रोत सिंक्रनाइज़ेशन का उपयोग करके कब चलाना चाहते हैं केंद्रसिंक शेड्यूल। डिफ़ॉल्ट रूप से, यह पर सेट है मांग पर.
    • के लिए S3बकेटनाम, आप या तो एक बाल्टी दर्ज कर सकते हैं जिसे आपने पहले ही बना लिया है या इसे खाली छोड़ दें। यदि आप इसे खाली छोड़ देते हैं, तो आपके लिए एक बाल्टी बन जाएगी। किसी भी तरह से, बकेट का उपयोग Amazon Kendra डेटा स्रोत के रूप में किया जाता है। इस पोस्ट के लिए हम इसे खाली छोड़ देते हैं।

Amazon Kendra इंडेक्स से जुड़े Amazon Kendra डेटा स्रोत को तैनात करने में स्टैक को लगभग 5 मिनट लगते हैं।

  1. पर आउटपुट CloudFormation स्टैक का टैब, बनाई गई बकेट का नाम, डेटा स्रोत का नाम और आईडी कॉपी करें।

निर्मित स्टैक एक भूमिका को दर्शाता है: <stack-name>-KendraDataSourceRole. आपके द्वारा बनाए गए प्रत्येक डेटा स्रोत के लिए एक भूमिका परिनियोजित करना सबसे अच्छा अभ्यास है। यह भूमिका Amazon S3 बकेट से ऑब्जेक्ट प्राप्त करने के लिए Amazon Kendra इंडेक्स से फ़ाइलों को जोड़ने या निकालने के लिए Amazon Kendra डेटा स्रोत देती है।

S3 बकेट में फ़ाइलें अपलोड करें

Amazon Kendra कई दस्तावेज़ प्रकारों को संभाल सकता है, जैसे .html, .pdf, .csv, .json, .docx, और .ppt। आपके पास एकल इंडेक्स पर दस्तावेज़ों का संयोजन भी हो सकता है। उन दस्तावेज़ों में निहित पाठ को प्रदान किए गए Amazon Kendra इंडेक्स में अनुक्रमित किया गया है। आप 60 से अधिक पीडीएफ फाइलों का उपयोग करके सर्वोत्तम प्रथाओं, डेटाबेस, मशीन लर्निंग, सुरक्षा, और अधिक पर AWS विषयों पर कीवर्ड खोज सकते हैं। डाउनलोड. उदाहरण के लिए, यदि आप जानना चाहते हैं कि आप AWS श्वेतपत्र में कैशिंग के बारे में अधिक जानकारी कहाँ से प्राप्त कर सकते हैं, तो Amazon Kendra आपको डेटाबेस और सर्वोत्तम प्रथाओं से संबंधित दस्तावेज़ खोजने में मदद कर सकता है।

जब आप डाउनलोड करते हैं एडब्ल्यूएस श्वेतपत्र.ज़िप फ़ाइल और फ़ाइल को असम्पीडित करें, आप इन छह फ़ोल्डरों को देखते हैं: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. इन फ़ोल्डरों को अपने S3 बकेट में अपलोड करें।

Amazon Kendra डेटा स्रोत को सिंक्रोनाइज़ करें

अमेज़ॅन केंद्र डेटा स्रोत डेटा पूर्व-कॉन्फ़िगर किए गए शेड्यूल के आधार पर आपके डेटा को सिंक्रनाइज़ कर सकता है या मैन्युअल रूप से ऑन-डिमांड ट्रिगर किया जा सकता है। डिफ़ॉल्ट रूप से, CloudFormation टेम्प्लेट डेटा स्रोत को ऑन-डिमांड सिंक्रोनाइज़ेशन शेड्यूल को आवश्यकता के अनुसार मैन्युअल रूप से ट्रिगर करने के लिए कॉन्फ़िगर करता है।

AWS Amazon Kendra कंसोल से सिंक्रोनाइज़ेशन जॉब को मैन्युअल रूप से ट्रिगर करने के लिए, CloudFormation स्टैक परिनियोजन के भाग के रूप में उपयोग किए जाने वाले Amazon Kendra इंडेक्स पर नेविगेट करें, के तहत आँकड़ा प्रबंधन नेविगेशन फलक में, चुनें डाटा के स्रोत और फिर चुनें अभी सिंक करें. यह S3 बकेट को डेटा स्रोत के साथ सिंक्रनाइज़ करता है।

जब अमेज़ॅन केंद्र डेटा स्रोत सिंक करना शुरू करता है, तो आपको यह देखना चाहिए वर्तमान सिंक स्थिति as सिंक्रनाइज़ किए जा रहे.

जब डेटा स्रोत समाप्त हो जाता है, तो अंतिम सिंक स्थिति के रूप में प्रकट होता है सफल हुए और वर्तमान सिंक स्थिति as निष्क्रिय. अब आप अनुक्रमित सामग्री खोज सकते हैं।

सिंक्रनाइज़ेशन शेड्यूल कॉन्फ़िगर करें

टेम्प्लेट आपको हर घंटे मिनट 0 पर शेड्यूल चलाने की अनुमति देता है, उदाहरण के लिए, 13:00, 14:00, या 15:00। आपके पास इसे प्रतिदिन 00:00 UTC पर चलाने का विकल्प भी है। साप्ताहिक सेटिंग सोमवार को 00:00 UTC पर चलती है, और मासिक सेटिंग महीने के पहले दिन 00:00 UTC पर चलती है।

Amazon Kendra डेटा स्रोत बनने के बाद शेड्यूल बदलने के लिए, पर क्रियाएँ मेनू, चुनें संपादित करें। के अंतर्गत सिंक सेटिंग्स कॉन्फ़िगर करें, आप पाते हैं सिंक नियम शेड्यूल अनुभाग।

के अंतर्गत आवृत्ति, आप चुन सकते हैं घंटेवार, दैनिक, साप्ताहिक, मासिकया, रिवाज, जिनमें से सभी आपको अपने सिंक को मिनट तक शेड्यूल करने की अनुमति देते हैं।

बहिष्करण पैटर्न जोड़ें

प्रदान किया गया CloudFormation टेम्प्लेट आपको बहिष्करण पैटर्न जोड़ने की अनुमति देता है। डिफ़ॉल्ट रूप से, .png और .jpg फ़ाइलें इसमें जोड़ी जाएंगी बहिष्करण पैटर्न पैरामीटर। अतिरिक्त फ़ाइल स्वरूपों को अल्पविराम से अलग सूची के रूप में बहिष्करण पैटर्न में जोड़ा जा सकता है। इसी प्रकार, समावेशन पैटर्न एक समावेशन पैटर्न सेट करने के लिए पैरामीटर का उपयोग अल्पविराम सूची फ़ाइल स्वरूपों में किया जा सकता है। यदि आप एक समावेशन प्रतिमान प्रदान नहीं करते हैं, तो बहिष्करण पैरामीटर में शामिल फ़ाइलों को छोड़कर सभी फ़ाइलों को अनुक्रमित किया जाता है।

क्लीन अप

लागत से बचने के लिए, आप AWS CloudFormation कंसोल से स्टैक को हटा सकते हैं। पर ढेर पेज, आपके द्वारा बनाए गए स्टैक का चयन करें, चुनें मिटाना, और स्टैक को हटाने की पुष्टि करें।

यदि आपने S3 बकेट प्रदान नहीं किया है, तो स्टैक एक बकेट बनाता है। यदि बाल्टी खाली है, तो यह स्वचालित रूप से हटा दी जाती है। अन्यथा, आपको फ़ोल्डर को खाली करना होगा और इसे मैन्युअल रूप से हटाना होगा। यदि आपने कोई बकेट प्रदान किया है, भले ही वह खाली हो, तो उसे हटाया नहीं जाएगा. Amazon Kendra इंडेक्स को हटाया नहीं जाएगा। स्टैक द्वारा बनाए गए केवल Amazon Kendra डेटा स्रोत को हटा दिया जाएगा।

निष्कर्ष

इस पोस्ट में, हमने आपके टेक्स्ट दस्तावेज़ों को S3 बकेट पर आपके Amazon Kendra इंडेक्स में आसानी से सिंक्रोनाइज़ करने के लिए एक CloudFormation टेम्प्लेट प्रदान किया है। यदि आपके पास कई S3 बकेट हैं जिन्हें आप अनुक्रमित करना चाहते हैं तो यह समाधान मददगार है क्योंकि आप कुछ क्लिक के साथ एक सुसंगत और दोहराए जाने वाले तरीके से दस्तावेज़ों को क्वेरी करने के लिए सभी आवश्यक घटक बना सकते हैं। आप यह भी देख सकते हैं कि Amazon Kendra में इमेज-आधारित टेक्स्ट दस्तावेज़ों को कैसे हैंडल किया जा सकता है। विशिष्ट शेड्यूल पैटर्न के बारे में अधिक जानने के लिए देखें नियमों के लिए अनुसूची अभिव्यक्तियाँ.

एक टिप्पणी छोड़ें और निम्नलिखित में Amazon Kendra इंडेक्स निर्माण के बारे में और जानें अमेज़न केंद्र अनिवार्य + कार्यशाला.

इस पोस्ट के लिए उदाहरण कोड बनाने और सामग्री को संकलित करने में मदद के लिए जोस मौरिसियो मणि यानेज़ का विशेष धन्यवाद।


लेखक के बारे में

राजेश कुमार रवि Amazon Web Services में एक AI/ML स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जिसे Amazon Kendra और जनरेटिव AI के साथ इंटेलिजेंट डॉक्यूमेंट सर्च में विशेषज्ञता हासिल है। वह एक निर्माता और समस्या समाधानकर्ता है, और नए विचारों के विकास में योगदान देता है। वह घूमने का आनंद लेता है और काम के बाहर छोटी लंबी पैदल यात्रा पर जाना पसंद करता है।

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी