अमेज़ॅन टेक्स्टट्रैक्ट के साथ दस्तावेज़ों से बड़े पैमाने पर टेक्स्ट निष्कर्षण का उपयोग करके एक दस्तावेज़ झील बनाएं | अमेज़ॅन वेब सेवाएँ

स्वास्थ्य सेवा, वित्तीय सेवाओं, सार्वजनिक क्षेत्र और अन्य उद्योगों में AWS ग्राहक अरबों दस्तावेज़ों को छवियों या पीडीएफ के रूप में संग्रहीत करते हैं अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस3)। हालाँकि, वे बड़े भाषा मॉडल (एलएलएम) के लिए दस्तावेज़ों में बंद जानकारी का उपयोग करने या पाठ, प्रपत्र, तालिकाओं और अन्य संरचित डेटा निकालने तक खोज करने जैसी अंतर्दृष्टि प्राप्त करने में असमर्थ हैं। AWS इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग (IDP) के साथ AI सेवाओं का उपयोग करना अमेज़न टेक्सट्रेक, आप पीडीएफ या दस्तावेज़ छवियों (टीआईएफएफ, जेपीईजी, पीएनजी) से डेटा को त्वरित और सटीक रूप से संसाधित करने के लिए उद्योग की अग्रणी मशीन लर्निंग (एमएल) तकनीक का लाभ उठा सकते हैं। दस्तावेज़ों से पाठ निकाले जाने के बाद, आप इसका उपयोग फाउंडेशन मॉडल को बेहतर बनाने के लिए कर सकते हैं, फाउंडेशन मॉडल का उपयोग करके डेटा को सारांशित करें, या इसे डेटाबेस पर भेजें।

इस पोस्ट में, हम दस्तावेज़ों के एक बड़े संग्रह को कच्ची टेक्स्ट फ़ाइलों में संसाधित करने और उन्हें अमेज़ॅन S3 में संग्रहीत करने पर ध्यान केंद्रित करते हैं। हम आपको इस उपयोग के मामले के लिए दो अलग-अलग समाधान प्रदान करते हैं। पहला आपको ज्यूपिटर नोटबुक सहित किसी भी सर्वर या इंस्टेंस से पायथन स्क्रिप्ट चलाने की अनुमति देता है; आरंभ करने का यह सबसे तेज़ तरीका है. दूसरा दृष्टिकोण विभिन्न बुनियादी ढांचे के घटकों का टर्नकी परिनियोजन है AWS क्लाउड डेवलपमेंट किट (एडब्ल्यूएस सीडीके) constructs. AWS CDK निर्माण आपके दस्तावेज़ों को संसाधित करने और एंड-टू-एंड IDP पाइपलाइन बनाने के लिए एक लचीला और लचीला ढांचा प्रदान करता है। AWS CDK के उपयोग के माध्यम से, आप रिडक्शन को शामिल करने के लिए इसकी कार्यक्षमता बढ़ा सकते हैं, आउटपुट को Amazon OpenSearch में संग्रहीत करें, या एक कस्टम जोड़ें AWS लाम्बा अपने स्वयं के व्यावसायिक तर्क के साथ कार्य करें।

ये दोनों समाधान आपको लाखों पृष्ठों को शीघ्रता से संसाधित करने की अनुमति देते हैं। इनमें से किसी भी समाधान को बड़े पैमाने पर चलाने से पहले, हम यह सुनिश्चित करने के लिए आपके दस्तावेज़ों के सबसेट के साथ परीक्षण करने की सलाह देते हैं कि परिणाम आपकी अपेक्षाओं को पूरा करते हैं। निम्नलिखित अनुभागों में, हम पहले स्क्रिप्ट समाधान का वर्णन करते हैं, उसके बाद AWS CDK निर्माण समाधान का वर्णन करते हैं।

समाधान 1: पायथन स्क्रिप्ट का उपयोग करें

यह समाधान अमेज़ॅन टेक्स्टट्रैक्ट के माध्यम से कच्चे पाठ के लिए दस्तावेज़ों को संसाधित करता है जितनी जल्दी सेवा इस उम्मीद के साथ अनुमति देगी कि यदि स्क्रिप्ट में कोई विफलता है, तो प्रक्रिया वहीं से शुरू हो जाएगी जहां इसे छोड़ा गया था। समाधान तीन अलग-अलग सेवाओं का उपयोग करता है: अमेज़ॅन S3, अमेज़ॅन डायनेमोडीबी, और अमेज़ॅन टेक्स्टट्रैक्ट।

निम्नलिखित चित्र स्क्रिप्ट के भीतर घटनाओं के अनुक्रम को दर्शाता है। जब स्क्रिप्ट समाप्त हो जाती है, तो सेजमेकर स्टूडियो कंसोल पर लगने वाले समय के साथ पूर्णता स्थिति वापस कर दी जाएगी।

हमने इस समाधान को एक में पैक किया है .ipynb स्क्रिप्ट और .py स्क्रिप्ट. आप अपनी आवश्यकताओं के अनुसार किसी भी तैनाती योग्य समाधान का उपयोग कर सकते हैं।

.. पूर्वापेक्षाएँ

इस स्क्रिप्ट को ज्यूपिटर नोटबुक से चलाने के लिए, AWS पहचान और अभिगम प्रबंधन नोटबुक को सौंपी गई (IAM) भूमिका में ऐसी अनुमतियाँ होनी चाहिए जो इसे DynamoDB, Amazon S3 और Amazon Texttract के साथ इंटरैक्ट करने की अनुमति दें। सामान्य मार्गदर्शन आपके लिए इनमें से प्रत्येक सेवा के लिए न्यूनतम-विशेषाधिकार वाली अनुमतियाँ प्रदान करना है AmazonSageMaker-ExecutionRole भूमिका। अधिक जानने के लिए, देखें AWS प्रबंधित नीतियों के साथ शुरुआत करें और कम-विशेषाधिकार वाली अनुमतियों की ओर बढ़ें.

वैकल्पिक रूप से, आप इस स्क्रिप्ट को अन्य परिवेशों जैसे कि से चला सकते हैं अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन EC2) इंस्टेंस या कंटेनर जिसे आप प्रबंधित करेंगे, बशर्ते कि Python, Pip3, और अजगर के लिए AWS SDK (Boto3) स्थापित हैं. फिर से, उसी आईएएम नीतियों को लागू करने की आवश्यकता है जो स्क्रिप्ट को विभिन्न प्रबंधित सेवाओं के साथ बातचीत करने की अनुमति देती है।

Walkthrough

इस समाधान को लागू करने के लिए, आपको सबसे पहले रिपॉजिटरी को क्लोन करना होगा GitHub.

इसे चलाने से पहले आपको स्क्रिप्ट में निम्नलिखित वेरिएबल सेट करने होंगे:

ट्रैकिंग_टेबल - यह DynamoDB तालिका का नाम है जो बनाई जाएगी।
इनपुट_बकेट - यह अमेज़ॅन S3 में आपका स्रोत स्थान है जिसमें वे दस्तावेज़ शामिल हैं जिन्हें आप टेक्स्ट पहचान के लिए अमेज़ॅन टेक्स्टट्रैक्ट पर भेजना चाहते हैं। इस वेरिएबल के लिए, बकेट का नाम प्रदान करें, जैसे mybucket.
आउटपुट_बकेट - यह उस स्थान को संग्रहीत करने के लिए है जहां आप अमेज़ॅन टेक्स्टट्रैक्ट पर परिणाम लिखना चाहते हैं। इस वेरिएबल के लिए, बकेट का नाम प्रदान करें, जैसे myoutputbucket.
_इनपुट_उपसर्ग (वैकल्पिक) - यदि आप अपने S3 बकेट में किसी फ़ोल्डर के भीतर से कुछ फ़ाइलों का चयन करना चाहते हैं, तो आप इस फ़ोल्डर नाम को इनपुट उपसर्ग के रूप में निर्दिष्ट कर सकते हैं। अन्यथा, सभी का चयन करने के लिए डिफ़ॉल्ट को खाली छोड़ दें।

स्क्रिप्ट इस प्रकार है:

_tracking_table = "Table_Name_for_storing_s3ObjectNames"
_input_bucket = "your_files_are_here"
_output_bucket = "Amazon Textract_writes_JSON_containing_raw_text_to_here"

स्क्रिप्ट चलने पर निम्नलिखित DynamoDB तालिका स्कीमा बन जाती है:

Table              Table_Name_for_storing_s3ObjectNames
Partition Key       objectName (String)
                    bucketName (String)
                    createdDate (Decimal)
                    outputbucketName (String)
                    txJobId (String)

जब स्क्रिप्ट पहली बार चलाई जाती है, तो यह जांच करेगी कि क्या DynamoDB तालिका मौजूद है और यदि आवश्यक हो तो स्वचालित रूप से इसे बनाएगी। तालिका बनने के बाद, हमें इसे अमेज़ॅन S3 से दस्तावेज़ ऑब्जेक्ट संदर्भों की एक सूची से भरना होगा जिसे हम संसाधित करना चाहते हैं। डिज़ाइन द्वारा स्क्रिप्ट निर्दिष्ट वस्तुओं पर गणना करेगी input_bucket और चलने पर स्वचालित रूप से हमारी तालिका उनके नामों से भर जाती है। 10 से अधिक दस्तावेज़ों की गणना करने और स्क्रिप्ट से उन नामों को डायनेमोडीबी तालिका में डालने में लगभग 100,000 मिनट लगते हैं। यदि आपके पास एक बाल्टी में लाखों ऑब्जेक्ट हैं, तो आप वैकल्पिक रूप से अमेज़ॅन एस 3 की इन्वेंट्री सुविधा का उपयोग कर सकते हैं जो नामों की एक सीएसवी फ़ाइल उत्पन्न करती है, फिर इस सूची से डायनेमोडीबी तालिका को अपनी स्क्रिप्ट के साथ पहले से पॉप्युलेट करें और नामक फ़ंक्शन का उपयोग न करें fetchAllObjectsInBucketandStoreName इसे टिप्पणी करके. अधिक जानने के लिए, देखें Amazon S3 इन्वेंटरी को कॉन्फ़िगर करना.

जैसा कि पहले उल्लेख किया गया है, एक नोटबुक संस्करण और एक पायथन स्क्रिप्ट संस्करण दोनों हैं। नोटबुक आरंभ करने का सबसे सरल तरीका है; बस प्रत्येक सेल को शुरू से अंत तक चलाएँ।

यदि आप सीएलआई से पायथन स्क्रिप्ट चलाने का निर्णय लेते हैं, तो यह अनुशंसा की जाती है कि आप tmux जैसे टर्मिनल मल्टीप्लेक्सर का उपयोग करें। यह आपके SSH सत्र के समाप्त होने पर स्क्रिप्ट को रुकने से रोकने के लिए है। उदाहरण के लिए: tmux new -d ‘python3 textractFeeder.py’.

निम्नलिखित है स्क्रिप्ट का प्रवेश बिंदु; यहां से आप उन तरीकों पर टिप्पणी कर सकते हैं जिनकी आवश्यकता नहीं है:

"""Main entry point into script --- Start Here"""
if __name__ == "__main__":    
    now = time.perf_counter()
    print("started")

जब स्क्रिप्ट DynamoDB तालिका को पॉप्युलेट कर रही हो तो निम्नलिखित फ़ील्ड सेट किए जाते हैं:

वस्तु का नाम - Amazon S3 में स्थित दस्तावेज़ का नाम जिसे Amazon Texttract पर भेजा जाएगा
बाल्टीनाम - वह बकेट जहां दस्तावेज़ ऑब्जेक्ट संग्रहीत है

यदि आप S3 इन्वेंट्री रिपोर्ट से CSV फ़ाइल का उपयोग करने का निर्णय लेते हैं और स्क्रिप्ट के भीतर होने वाली ऑटो पॉप्युलेटिंग को छोड़ देते हैं, तो इन दो फ़ील्ड को पॉप्युलेट किया जाना चाहिए।

अब जब तालिका बनाई गई है और दस्तावेज़ ऑब्जेक्ट संदर्भों से भरी हुई है, तो स्क्रिप्ट अमेज़ॅन टेक्स्टट्रैक्ट को कॉल करना शुरू करने के लिए तैयार है StartDocumentTextDetection एपीआई. अन्य प्रबंधित सेवाओं के समान, अमेज़ॅन टेक्स्टट्रैक्ट में एक है डिफ़ॉल्ट सीमा एपीआई पर जिसे लेनदेन प्रति सेकंड (टीपीएस) कहा जाता है। यदि आवश्यक हो, तो आप अमेज़ॅन टेक्स्टट्रैक्ट कंसोल से कोटा वृद्धि का अनुरोध कर सकते हैं। सेवा के साथ थ्रूपुट को अधिकतम करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट को कॉल करते समय कोड को एक साथ कई थ्रेड्स का उपयोग करने के लिए डिज़ाइन किया गया है। आप इसे कोड के भीतर संशोधित करके बदल सकते हैं threadCountforTextractAPICall चर। डिफ़ॉल्ट रूप से, यह 20 थ्रेड पर सेट है। स्क्रिप्ट प्रारंभ में DynamoDB तालिका से 200 पंक्तियों को पढ़ेगी और इन्हें इन-मेमोरी सूची में संग्रहीत करेगी जो थ्रेड सुरक्षा के लिए एक वर्ग के साथ लिपटी हुई है। फिर प्रत्येक कॉलर थ्रेड शुरू हो जाता है और अपनी स्विम लेन के भीतर चलता है। मूल रूप से, अमेज़ॅन टेक्सट्रैक्ट कॉलर थ्रेड इन-मेमोरी सूची से एक आइटम पुनर्प्राप्त करेगा जिसमें हमारा ऑब्जेक्ट संदर्भ शामिल है। इसके बाद यह एसिंक्रोनस को कॉल करेगा start_document_text_detection एपीआई और जॉब आईडी के साथ पावती की प्रतीक्षा करें। फिर जॉब आईडी को उस ऑब्जेक्ट के लिए डायनेमोडीबी पंक्ति में वापस अपडेट किया जाता है, और सूची से अगला आइटम पुनर्प्राप्त करके थ्रेड दोहराया जाएगा।

निम्नलिखित मुख्य ऑर्केस्ट्रेशन कोड है लिपि:

while len(results) > 0:
        for record in results: # put these records into our thread safe list
            fileList.append(record)    
        """create our threads for processing Amazon Textract"""
        	  threadsforTextractAPI=threading.Thread(name="Thread - " + str(i), target=procestTextractFunction, args=(fileList,))

कॉलर थ्रेड तब तक दोहराते रहेंगे जब तक कि सूची में कोई आइटम न रह जाए, जिस बिंदु पर प्रत्येक थ्रेड बंद हो जाएगा। जब उनके स्विम लेन के भीतर काम करने वाले सभी थ्रेड बंद हो जाते हैं, तो DynamoDB से अगली 200 पंक्तियाँ पुनर्प्राप्त की जाती हैं और 20 थ्रेड का एक नया सेट शुरू किया जाता है, और पूरी प्रक्रिया तब तक दोहराई जाती है जब तक कि प्रत्येक पंक्ति जिसमें जॉब आईडी नहीं होती है, DynamoDB से पुनर्प्राप्त हो जाती है और अद्यतन किया गया। यदि किसी अप्रत्याशित समस्या के कारण स्क्रिप्ट क्रैश हो जाती है, तो स्क्रिप्ट को फिर से चलाया जा सकता है orchestrate() तरीका। यह सुनिश्चित करता है कि थ्रेड उन पंक्तियों को संसाधित करना जारी रखेंगे जिनमें खाली जॉब आईडी हैं। ध्यान दें कि पुन: चलाते समय orchestrate() स्क्रिप्ट बंद होने के बाद विधि, ऐसी संभावना है कि कुछ दस्तावेज़ फिर से अमेज़ॅन टेक्स्टट्रैक्ट को भेजे जाएंगे। यह संख्या क्रैश के समय चल रहे थ्रेड्स की संख्या के बराबर या उससे कम होगी।

जब DynamoDB तालिका में रिक्त जॉब आईडी वाली कोई और पंक्तियाँ नहीं होंगी, तो स्क्रिप्ट बंद हो जाएगी। सभी ऑब्जेक्ट के लिए Amazon Texttract से सभी JSON आउटपुट इसमें मिलेंगे output_bucket के अंतर्गत डिफ़ॉल्ट रूप से textract_output फ़ोल्डर. प्रत्येक सबफ़ोल्डर के भीतर textract_output उस जॉब आईडी के साथ नामित किया जाएगा जो उस ऑब्जेक्ट के लिए डायनेमोडीबी तालिका में संग्रहीत जॉब आईडी से मेल खाती है। जॉब आईडी फ़ोल्डर के भीतर, आपको JSON मिलेगा, जिसे संख्यात्मक रूप से 1 से शुरू करके नाम दिया जाएगा और संभावित रूप से अतिरिक्त JSON फ़ाइलों को फैलाया जा सकता है, जिन्हें 2, 3 और इसी तरह लेबल किया जाएगा। JSON फ़ाइलों को फैलाना घने या बहु-पृष्ठ दस्तावेज़ों का परिणाम है, जहां निकाली गई सामग्री की मात्रा अमेज़ॅन टेक्स्टट्रैक्ट डिफ़ॉल्ट JSON आकार 1,000 ब्लॉक से अधिक है। को देखें खंड ब्लॉकों पर अधिक जानकारी के लिए. इन JSON फ़ाइलों में सभी अमेज़ॅन टेक्स्टट्रैक्ट मेटाडेटा शामिल होंगे, जिसमें दस्तावेज़ों के भीतर से निकाला गया टेक्स्ट भी शामिल होगा।

आप इस समाधान के लिए पायथन कोड नोटबुक संस्करण और स्क्रिप्ट यहां पा सकते हैं GitHub.

क्लीन अप

जब पायथन स्क्रिप्ट पूरी हो जाती है, तो आप इसे बंद करके या रोककर लागत बचा सकते हैं अमेज़ॅन सैजमेकर स्टूडियो नोटबुक या कंटेनर जिसे आपने खोला है।

अब बड़े पैमाने पर दस्तावेज़ों के लिए हमारे दूसरे समाधान पर आते हैं।

समाधान 2: सर्वर रहित AWS CDK निर्माण का उपयोग करें

इस समाधान का उपयोग करता है AWS स्टेप फ़ंक्शंस और लैम्ब्डा आईडीपी पाइपलाइन को व्यवस्थित करने का कार्य करता है। हम उपयोग करते हैं आईडीपी एडब्ल्यूएस सीडीके निर्माण, जो बड़े पैमाने पर अमेज़ॅन टेक्स्टट्रैक्ट के साथ काम करना आसान बनाता है। इसके अतिरिक्त, हम a का उपयोग करते हैं स्टेप फ़ंक्शंस वितरित मानचित्र S3 बकेट में सभी फ़ाइलों को पुनरावृत्त करने और प्रसंस्करण आरंभ करने के लिए। पहला लैम्ब्डा फ़ंक्शन यह निर्धारित करता है कि आपके दस्तावेज़ों में कितने पृष्ठ हैं। यह पाइपलाइन को स्वचालित रूप से सिंक्रोनस (एकल-पृष्ठ दस्तावेज़ों के लिए) या एसिंक्रोनस (बहु-पृष्ठ दस्तावेज़ों के लिए) एपीआई का उपयोग करने में सक्षम बनाता है। एसिंक्रोनस एपीआई का उपयोग करते समय, सभी JSON फ़ाइलों के लिए एक अतिरिक्त लैम्ब्डा फ़ंक्शन को कॉल किया जाता है, जिसे अमेज़ॅन टेक्स्टट्रैक्ट आपके सभी पेजों के लिए एक JSON फ़ाइल में तैयार करेगा ताकि आपके डाउनस्ट्रीम एप्लिकेशन के लिए जानकारी के साथ काम करना आसान हो सके।

इस समाधान में दो अतिरिक्त लैम्ब्डा फ़ंक्शन भी शामिल हैं। पहला फ़ंक्शन JSON से टेक्स्ट को पार्स करता है और इसे Amazon S3 में टेक्स्ट फ़ाइल के रूप में सहेजता है। दूसरा फ़ंक्शन JSON का विश्लेषण करता है और उसे कार्यभार पर मेट्रिक्स के लिए संग्रहीत करता है।

निम्न आरेख स्टेप फ़ंक्शंस वर्कफ़्लो दिखाता है।

.. पूर्वापेक्षाएँ

यह कोड आधार AWS CDK का उपयोग करता है और इसके लिए डॉकर की आवश्यकता होती है। आप इसे एक से तैनात कर सकते हैं AWS क्लाउड 9 उदाहरण, जिसमें AWS CDK और Docker पहले से ही स्थापित है।

Walkthrough

इस समाधान को लागू करने के लिए, आपको सबसे पहले क्लोन करना होगा भंडार।

रिपॉजिटरी को क्लोन करने के बाद, निर्भरताएँ स्थापित करें:

pip install -r requirements.txt

फिर AWS CDK स्टैक को तैनात करने के लिए निम्नलिखित कोड का उपयोग करें:

cdk bootstrap
cdk deploy --parameters SourceBucket=<Source Bucket> SourcePrefix=<Source Prefix>

आपको इस समाधान के लिए स्रोत बकेट और स्रोत उपसर्ग (उन फ़ाइलों का स्थान जिन्हें आप संसाधित करना चाहते हैं) दोनों प्रदान करना होगा।

जब परिनियोजन पूरा हो जाए, तो स्टेप फ़ंक्शंस कंसोल पर जाएँ, जहाँ आपको स्टेट मशीन देखनी चाहिए ServerlessIDPArchivePipeline.

राज्य मशीन विवरण पृष्ठ खोलें और पर फांसी टैब चुनें अमल शुरू करो.

चुनें अमल शुरू करो फिर से राज्य मशीन चलाने के लिए।

स्टेट मशीन शुरू करने के बाद, आप मैप रन को देखकर पाइपलाइन की निगरानी कर सकते हैं। आप एक देखेंगे आइटम प्रसंस्करण स्थिति निम्नलिखित स्क्रीनशॉट की तरह अनुभाग। जैसा कि आप देख सकते हैं, इसे चलाने और ट्रैक करने के लिए बनाया गया है कि क्या सफल रहा और क्या विफल रहा। यह प्रक्रिया तब तक चलती रहेगी जब तक सभी दस्तावेज़ पढ़ नहीं लिए जाते।

इस समाधान के साथ, आपको अपने AWS खाते में लाखों फ़ाइलों को संसाधित करने में सक्षम होना चाहिए, इस बात की चिंता किए बिना कि किस एपीआई को कौन सी फ़ाइलें भेजनी हैं या आपकी पाइपलाइन में विफल होने वाली भ्रष्ट फ़ाइलें कैसे ठीक से निर्धारित की जाएं। स्टेप फ़ंक्शंस कंसोल के माध्यम से, आप वास्तविक समय में अपनी फ़ाइलों को देख और मॉनिटर कर पाएंगे।

क्लीन अप

आपकी पाइपलाइन का काम पूरा होने के बाद, सफाई के लिए, आप अपने प्रोजेक्ट में वापस जा सकते हैं और निम्नलिखित कमांड दर्ज कर सकते हैं:

cdk destroy

यह इस परियोजना के लिए तैनात की गई सभी सेवाओं को हटा देगा।

निष्कर्ष

इस पोस्ट में, हमने एक समाधान प्रस्तुत किया है जो आपके दस्तावेज़ छवियों और पीडीएफ को टेक्स्ट फ़ाइलों में परिवर्तित करना आसान बनाता है। जेनरेटिव एआई और खोज के लिए अपने दस्तावेज़ों का उपयोग करने के लिए यह एक महत्वपूर्ण शर्त है। अपने फाउंडेशन मॉडल को प्रशिक्षित या बेहतर बनाने के लिए टेक्स्ट का उपयोग करने के बारे में अधिक जानने के लिए, देखें अमेज़ॅन सेजमेकर जम्पस्टार्ट पर टेक्स्ट जेनरेशन के लिए लामा 2 को फाइन-ट्यून करें. खोज के साथ उपयोग करने के लिए, देखें Amazon Texttract और Amazon OpenSearch के साथ स्मार्ट दस्तावेज़ खोज सूचकांक लागू करें. AWS AI सेवाओं द्वारा प्रदान की जाने वाली उन्नत दस्तावेज़ प्रसंस्करण क्षमताओं के बारे में अधिक जानने के लिए, देखें AWS पर इंटेलिजेंट दस्तावेज़ प्रसंस्करण के लिए मार्गदर्शन.

लेखक के बारे में

टिम कोंडेलो अमेज़ॅन वेब सर्विसेज (एडब्ल्यूएस) में एक वरिष्ठ कृत्रिम बुद्धिमत्ता (एआई) और मशीन लर्निंग (एमएल) विशेषज्ञ समाधान वास्तुकार हैं। उनका ध्यान प्राकृतिक भाषा प्रसंस्करण और कंप्यूटर विज़न पर है। टिम को ग्राहकों के विचार लेने और उन्हें स्केलेबल समाधानों में बदलने में आनंद आता है।

डेविड गर्लिंग एक वरिष्ठ एआई/एमएल समाधान वास्तुकार हैं जिनके पास एंटरप्राइज सिस्टम को डिजाइन करने, नेतृत्व करने और विकसित करने में बीस वर्षों से अधिक का अनुभव है। डेविड एक विशेषज्ञ टीम का हिस्सा है जो ग्राहकों को उनके उपयोग के मामलों के लिए अपने डेटा के साथ इन अत्यधिक सक्षम सेवाओं को सीखने, नवाचार करने और उपयोग करने में मदद करने पर ध्यान केंद्रित करता है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/create-a-document-lake-using-large-scale-text-extraction-from-documents-with-amazon-textract/

जनरेटिव डेटा इंटेलिजेंस

समाधान 1: पायथन स्क्रिप्ट का उपयोग करें

.. पूर्वापेक्षाएँ

Walkthrough

क्लीन अप

समाधान 2: सर्वर रहित AWS CDK निर्माण का उपयोग करें

.. पूर्वापेक्षाएँ

Walkthrough

क्लीन अप

निष्कर्ष

लेखक के बारे में

Google Play Store से अब एक साथ कई Android ऐप्स डाउनलोड किए जा सकेंगे

🔴एथेरियम ईटीएफ विलंबित | क्रिप्टो में यह सप्ताह - मार्च 11, 2024

नवीनतम खुफिया

2024 में अधिकतम लाभ: वैल्यूज़ोन.एआई पर एक व्यापक नज़र

ब्रिटेन के रक्षा सचिव ने यूक्रेन को स्टॉर्म शैडो मिसाइलों की इतालवी आपूर्ति का खुलासा किया

लाइव कवरेज: स्पेसएक्स केप कैनावेरल से फाल्कन 23 उड़ान पर 9 स्टारलिंक उपग्रह लॉन्च करेगा

द्वीपवासियों के लिए गेम फाइव जीतने की तीन कुंजी