जेफिरनेट लोगो

बड़े भाषा मॉडल के साथ संवादी एआई को फिर से परिभाषित करना

दिनांक:

स्रोत: rawpixel.com

कन्वर्सेशनल एआई एलएलएम का एक अनुप्रयोग है जिसने कई उद्योगों और उपयोग के मामलों में अपनी स्केलेबिलिटी के कारण बहुत अधिक चर्चा और ध्यान आकर्षित किया है। जबकि संवादी प्रणालियाँ दशकों से अस्तित्व में हैं, एलएलएम ने वह गुणवत्तापूर्ण प्रोत्साहन लाया है जो उनके बड़े पैमाने पर अपनाने के लिए आवश्यक था। इस लेख में, हम संवादात्मक एआई अनुप्रयोगों (सीएफ) का विश्लेषण करने के लिए चित्र 1 में दिखाए गए मानसिक मॉडल का उपयोग करेंगे। समग्र मानसिक मॉडल के साथ एआई उत्पादों का निर्माण मानसिक मॉडल के परिचय के लिए)। बाजार के अवसरों और संवादी एआई सिस्टम के व्यावसायिक मूल्य पर विचार करने के बाद, हम डेटा, एलएलएम फाइन-ट्यूनिंग और संवादी डिजाइन के संदर्भ में अतिरिक्त "मशीनरी" की व्याख्या करेंगे, जिसे बातचीत को न केवल संभव बनाने के लिए बल्कि उपयोगी बनाने के लिए स्थापित करने की आवश्यकता है। और आनंददायक.

1. अवसर, मूल्य और सीमाएँ

पारंपरिक यूएक्स डिज़ाइन कई कृत्रिम यूएक्स तत्वों, स्वाइप, टैप और क्लिक के आसपास बनाया गया है, जिसके लिए प्रत्येक नए ऐप के लिए सीखने की अवस्था की आवश्यकता होती है। संवादात्मक एआई का उपयोग करके, हम इस व्यस्तता को दूर कर सकते हैं, इसे स्वाभाविक रूप से बहने वाली बातचीत के शानदार अनुभव के साथ प्रतिस्थापित कर सकते हैं जिसमें हम विभिन्न ऐप्स, विंडोज़ और उपकरणों के बीच बदलाव के बारे में भूल सकते हैं। हम विभिन्न आभासी सहायकों (वीए) के साथ बातचीत करने और अपने कार्यों को पूरा करने के लिए संचार के लिए भाषा, हमारे सार्वभौमिक और परिचित प्रोटोकॉल का उपयोग करते हैं।

संवादी यूआई बिल्कुल नई हॉट सामग्री नहीं हैं। इंटरएक्टिव वॉयस रिस्पांस सिस्टम (आईवीआर) और चैटबॉट 1990 के दशक से मौजूद हैं, और एनएलपी में प्रमुख प्रगति के बाद वॉयस और चैट इंटरफेस के लिए आशा और विकास की लहरें आई हैं। हालाँकि, एलएलएम के समय से पहले, अधिकांश प्रणालियाँ नियमों, कीवर्ड और वार्तालाप पैटर्न पर भरोसा करते हुए, प्रतीकात्मक प्रतिमान में लागू की जाती थीं। वे "क्षमता" के एक विशिष्ट, पूर्व-निर्धारित डोमेन तक ही सीमित थे, और इनके बाहर उद्यम करने वाले उपयोगकर्ताओं को जल्द ही एक गतिरोध का सामना करना पड़ेगा। कुल मिलाकर, इन प्रणालियों में विफलता के संभावित बिंदु थे, और कुछ निराशाजनक प्रयासों के बाद, कई उपयोगकर्ता कभी भी उनके पास वापस नहीं आए। निम्नलिखित चित्र एक उदाहरण संवाद दिखाता है। एक उपयोगकर्ता जो किसी विशिष्ट संगीत कार्यक्रम के लिए टिकट ऑर्डर करना चाहता है, वह धैर्यपूर्वक विस्तृत पूछताछ प्रक्रिया से गुजरता है, लेकिन अंत में पता चलता है कि संगीत कार्यक्रम बिक चुका है।

एलएलएम के साथ संवादी एआई
चित्र 2: ख़राब वार्तालाप प्रवाह का उदाहरण

एक सक्षम तकनीक के रूप में, एलएलएम संवादात्मक इंटरफेस को गुणवत्ता और उपयोगकर्ता संतुष्टि के नए स्तरों पर ले जा सकते हैं। संवादी प्रणालियाँ अब व्यापक विश्व ज्ञान, भाषाई क्षमता और बातचीत की क्षमता प्रदर्शित कर सकती हैं। पूर्व-प्रशिक्षित मॉडलों का लाभ उठाते हुए, उन्हें बहुत कम समय में भी विकसित किया जा सकता है क्योंकि नियमों, कीवर्ड और संवाद प्रवाह को संकलित करने का कठिन काम अब एलएलएम के सांख्यिकीय ज्ञान द्वारा बदल दिया गया है। आइए दो प्रमुख अनुप्रयोगों पर नजर डालें जहां संवादात्मक एआई बड़े पैमाने पर मूल्य प्रदान कर सकता है:

  • ग्राहक सेवा और, अधिक सामान्यतः, ऐसे एप्लिकेशन जिनका उपयोग बड़ी संख्या में उपयोगकर्ताओं द्वारा किया जाता है जो अक्सर समान अनुरोध करते हैं। यहां, ग्राहक सहायता प्रदान करने वाली कंपनी के पास उपयोगकर्ता पर स्पष्ट सूचना लाभ है और वह अधिक सहज और सुखद उपयोगकर्ता अनुभव बनाने के लिए इसका लाभ उठा सकती है। किसी उड़ान की दोबारा बुकिंग के मामले पर विचार करें। मेरे लिए, जो अक्सर उड़ता रहता हूँ, यह कुछ ऐसा है जो प्रति वर्ष 1-2 बार होता है। बीच-बीच में, मैं प्रक्रिया का विवरण भूल जाता हूं, किसी विशिष्ट एयरलाइन के उपयोगकर्ता इंटरफ़ेस के बारे में तो बात ही छोड़ दीजिए। इसके विपरीत, एयरलाइन के ग्राहक सहायता के पास अपने परिचालन के सामने और केंद्र पर पुन: बुकिंग अनुरोध हैं। एक जटिल ग्राफिकल इंटरफ़ेस के माध्यम से रीबुकिंग प्रक्रिया को उजागर करने के बजाय, इसका तर्क उन ग्राहकों से "छिपाया" जा सकता है जो समर्थन से संपर्क करते हैं, और वे अपनी रीबुकिंग करने के लिए एक प्राकृतिक चैनल के रूप में भाषा का उपयोग कर सकते हैं। बेशक, कम परिचित अनुरोधों की एक "लंबी पूंछ" अभी भी बनी रहेगी। उदाहरण के लिए, एक सहज मनोदशा परिवर्तन की कल्पना करें जो एक व्यावसायिक ग्राहक को अपने प्यारे कुत्ते को बुक की गई उड़ान में अतिरिक्त सामान के रूप में जोड़ने के लिए प्रेरित करता है। इन अधिक व्यक्तिगत अनुरोधों को मानव एजेंटों को भेजा जा सकता है या वर्चुअल असिस्टेंट से जुड़े आंतरिक ज्ञान प्रबंधन प्रणाली के माध्यम से कवर किया जा सकता है।
  • ज्ञान प्रबंधन जो बड़ी मात्रा में डेटा पर आधारित है। कई आधुनिक कंपनियों के लिए, संचालन, पुनरावृत्ति और सीखने के वर्षों में वे जो आंतरिक ज्ञान जमा करते हैं, वह एक मुख्य संपत्ति और विभेदक है - अगर इसे कुशल तरीके से संग्रहीत, प्रबंधित और एक्सेस किया जाता है। सहयोग उपकरण, आंतरिक विकी, ज्ञानकोष आदि में छिपे डेटा के भंडार पर बैठकर, वे अक्सर इसे क्रियाशील ज्ञान में बदलने में विफल रहते हैं। जैसे ही कर्मचारी चले जाते हैं, नए कर्मचारी शामिल हो जाते हैं, और आप कभी भी उस दस्तावेज़ीकरण पृष्ठ को अंतिम रूप देने नहीं आते हैं जिसे आपने तीन महीने पहले शुरू किया था, मूल्यवान ज्ञान एन्ट्रापी का शिकार हो जाता है। आंतरिक डेटा भूलभुलैया के माध्यम से रास्ता खोजना और किसी विशिष्ट व्यावसायिक स्थिति में आवश्यक जानकारी के टुकड़े प्राप्त करना अधिक कठिन हो जाता है। इससे ज्ञान कर्मियों की कार्यकुशलता में भारी हानि होती है। इस समस्या के समाधान के लिए, हम आंतरिक डेटा स्रोतों पर सिमेंटिक खोज के साथ एलएलएम को बढ़ा सकते हैं। एलएलएम इस डेटाबेस के विरुद्ध प्रश्न पूछने के लिए जटिल औपचारिक प्रश्नों के बजाय प्राकृतिक भाषा के प्रश्नों का उपयोग करने की अनुमति देते हैं। इस प्रकार उपयोगकर्ता ज्ञान आधार की संरचना या SQL जैसी क्वेरी भाषा के सिंटैक्स के बजाय अपनी सूचना आवश्यकताओं पर ध्यान केंद्रित कर सकते हैं। पाठ-आधारित होने के कारण, ये सिस्टम एक समृद्ध अर्थपूर्ण स्थान में डेटा के साथ काम करते हैं, जिससे "हुड के नीचे" सार्थक संबंध बनते हैं।

इन प्रमुख अनुप्रयोग क्षेत्रों के अलावा, टेलीहेल्थ, मानसिक स्वास्थ्य सहायक और शैक्षिक चैटबॉट जैसे कई अन्य अनुप्रयोग हैं, जो यूएक्स को सुव्यवस्थित कर सकते हैं और अपने उपयोगकर्ताओं के लिए तेज़ और अधिक कुशल तरीके से मूल्य ला सकते हैं।

यदि यह गहन शैक्षिक सामग्री आपके लिए उपयोगी है, तो आप कर सकते हैं हमारी AI रिसर्च मेलिंग लिस्ट को सब्सक्राइब करें जब हम नई सामग्री जारी करते हैं तो सतर्क रहें। 

2। डेटा

एलएलएम को मूल रूप से धाराप्रवाह छोटी बातचीत या अधिक महत्वपूर्ण बातचीत में शामिल होने के लिए प्रशिक्षित नहीं किया जाता है। बल्कि, वे प्रत्येक अनुमान चरण पर निम्नलिखित टोकन उत्पन्न करना सीखते हैं, जिसके परिणामस्वरूप अंततः एक सुसंगत पाठ प्राप्त होता है। यह निम्न-स्तरीय उद्देश्य मानवीय वार्तालाप की चुनौती से भिन्न है। मनुष्यों के लिए बातचीत अविश्वसनीय रूप से सहज है, लेकिन जब आप किसी मशीन को यह करना सिखाना चाहते हैं तो यह अविश्वसनीय रूप से जटिल और सूक्ष्म हो जाती है। उदाहरण के लिए, आइए इरादों की मूलभूत धारणा को देखें। जब हम भाषा का उपयोग करते हैं, तो हम ऐसा एक विशिष्ट उद्देश्य के लिए करते हैं, जो कि हमारा संचारी इरादा है - यह जानकारी देना, मेलजोल बढ़ाना या किसी से कुछ करने के लिए कहना हो सकता है। जबकि पहले दो एलएलएम के लिए काफी सरल हैं (जब तक इसमें डेटा में आवश्यक जानकारी देखी गई है), बाद वाला पहले से ही अधिक चुनौतीपूर्ण है। एलएलएम को न केवल संबंधित जानकारी को सुसंगत तरीके से संयोजित और संरचित करने की आवश्यकता है, बल्कि इसे औपचारिकता, रचनात्मकता, हास्य इत्यादि जैसे नरम मानदंडों के संदर्भ में सही भावनात्मक स्वर सेट करने की भी आवश्यकता है। यह वार्तालाप डिजाइन के लिए एक चुनौती है (सीएफ. धारा 5), जो डेटा को फाइन-ट्यूनिंग बनाने के कार्य के साथ निकटता से जुड़ा हुआ है।

विशिष्ट संचार उद्देश्यों को पहचानने और प्रतिक्रिया देने के लिए शास्त्रीय भाषा पीढ़ी से परिवर्तन करना, संवादी प्रणालियों की बेहतर उपयोगिता और स्वीकृति की दिशा में एक महत्वपूर्ण कदम है। जहाँ तक सभी फाइन-ट्यूनिंग प्रयासों की बात है, यह एक उपयुक्त डेटासेट के संकलन से शुरू होता है।

फाइन-ट्यूनिंग डेटा को (भविष्य के) वास्तविक दुनिया के डेटा वितरण के जितना संभव हो उतना करीब आना चाहिए। सबसे पहले, यह कन्वर्सेशनल (संवाद) डेटा होना चाहिए। दूसरा, यदि आपका वर्चुअल असिस्टेंट किसी विशिष्ट डोमेन में विशेषज्ञ होगा, तो आपको फाइन-ट्यूनिंग डेटा इकट्ठा करने का प्रयास करना चाहिए जो आवश्यक डोमेन ज्ञान को दर्शाता है। तीसरा, यदि ऐसे विशिष्ट प्रवाह और अनुरोध हैं जो आपके एप्लिकेशन में बार-बार आवर्ती होंगे, जैसे कि ग्राहक सहायता के मामले में, तो अपने प्रशिक्षण डेटा में इनके विभिन्न उदाहरणों को शामिल करने का प्रयास करें। निम्न तालिका संवादात्मक फ़ाइन-ट्यूनिंग डेटा का एक नमूना दिखाती है चैटबॉट के लिए 3K वार्तालाप डेटासेट, जो कागल पर निःशुल्क उपलब्ध है:

संवादात्मक डेटा को मैन्युअल रूप से बनाना एक महंगा उपक्रम बन सकता है - डेटा उत्पन्न करने में मदद करने के लिए क्राउडसोर्सिंग और एलएलएम का उपयोग करना पैमाने बढ़ाने के दो तरीके हैं। एक बार संवाद डेटा एकत्र हो जाने के बाद, बातचीत का मूल्यांकन और व्याख्या करने की आवश्यकता होती है। यह आपको अपने मॉडल को सकारात्मक और नकारात्मक दोनों उदाहरण दिखाने और उसे "सही" बातचीत की विशेषताओं को चुनने की ओर प्रेरित करने की अनुमति देता है। मूल्यांकन या तो पूर्ण अंकों के साथ या एक दूसरे के बीच विभिन्न विकल्पों की रैंकिंग के साथ हो सकता है। बाद वाला दृष्टिकोण अधिक सटीक फाइन-ट्यूनिंग डेटा की ओर ले जाता है क्योंकि मनुष्य आम तौर पर कई विकल्पों को अलग-अलग मूल्यांकन करने की तुलना में रैंकिंग करने में बेहतर होते हैं।

अपने डेटा के साथ, आप अपने मॉडल को बेहतर बनाने और उसे अतिरिक्त क्षमताओं से समृद्ध करने के लिए तैयार हैं। अगले भाग में, हम फाइन-ट्यूनिंग, मेमोरी और सिमेंटिक सर्च से अतिरिक्त जानकारी को एकीकृत करने और विशिष्ट कार्यों को निष्पादित करने के लिए इसे सशक्त बनाने के लिए एजेंटों को आपके संवादी सिस्टम से जोड़ने पर गौर करेंगे।

3. वार्तालाप प्रणाली को असेंबल करना

एक विशिष्ट वार्तालाप प्रणाली एक वार्तालाप एजेंट के साथ बनाई गई है जो सिस्टम के घटकों और क्षमताओं, जैसे एलएलएम, मेमोरी और बाहरी डेटा स्रोतों को व्यवस्थित और समन्वयित करती है। संवादी एआई सिस्टम का विकास एक अत्यधिक प्रयोगात्मक और अनुभवजन्य कार्य है, और आपके डेवलपर्स आपके डेटा को अनुकूलित करने, फाइन-ट्यूनिंग रणनीति में सुधार करने, अतिरिक्त घटकों और संवर्द्धन के साथ खेलने और परिणामों का परीक्षण करने के बीच लगातार आगे-पीछे होते रहेंगे। . उत्पाद प्रबंधकों और यूएक्स डिजाइनरों सहित गैर-तकनीकी टीम के सदस्य भी लगातार उत्पाद का परीक्षण करेंगे। अपनी ग्राहक खोज गतिविधियों के आधार पर, वे भविष्य के उपयोगकर्ताओं की बातचीत शैली और सामग्री का अनुमान लगाने की अच्छी स्थिति में हैं और उन्हें इस ज्ञान में सक्रिय रूप से योगदान देना चाहिए।

3.1 आपके एलएलएम को वार्तालाप कौशल सिखाना

फ़ाइन-ट्यूनिंग के लिए, आपको अपने फ़ाइन-ट्यूनिंग डेटा (सीएफ. अनुभाग 2) और एक पूर्व-प्रशिक्षित एलएलएम की आवश्यकता है। एलएलएम पहले से ही भाषा और दुनिया के बारे में बहुत कुछ जानते हैं, और हमारी चुनौती उन्हें बातचीत के सिद्धांत सिखाना है। फाइन-ट्यूनिंग में, लक्ष्य आउटपुट टेक्स्ट होते हैं, और मॉडल को ऐसे टेक्स्ट उत्पन्न करने के लिए अनुकूलित किया जाएगा जो लक्ष्य के जितना संभव हो उतना समान हो। पर्यवेक्षित फाइन-ट्यूनिंग के लिए, आपको सबसे पहले उस संवादात्मक एआई कार्य को स्पष्ट रूप से परिभाषित करना होगा जिसे आप मॉडल से कराना चाहते हैं, डेटा इकट्ठा करना और फाइन-ट्यूनिंग प्रक्रिया को चलाना और पुनरावृत्त करना होगा।

एलएलएम के प्रचार-प्रसार के साथ, विभिन्न प्रकार की फाइन-ट्यूनिंग विधियां सामने आई हैं। बातचीत के लिए फ़ाइन-ट्यूनिंग के पारंपरिक उदाहरण के लिए, आप LaMDA मॉडल के विवरण का उल्लेख कर सकते हैं।[1] LaMDA को दो चरणों में ठीक किया गया था। सबसे पहले, संवाद डेटा का उपयोग मॉडल वार्तालाप कौशल ("जेनरेटिव" फ़ाइन-ट्यूनिंग) सिखाने के लिए किया जाता है। फिर, डेटा के मूल्यांकन के दौरान एनोटेटर्स द्वारा उत्पादित लेबल का उपयोग क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है जो वांछित विशेषताओं के साथ मॉडल के आउटपुट का आकलन कर सकता है, जिसमें संवेदनशीलता, विशिष्टता, रोचकता और सुरक्षा ("भेदभावपूर्ण" फाइन-ट्यूनिंग) शामिल है। फिर इन क्लासिफायर का उपयोग मॉडल के व्यवहार को इन विशेषताओं के प्रति निर्देशित करने के लिए किया जाता है।

चित्र 3: LaMDA को दो चरणों में ठीक किया गया है

इसके अतिरिक्त, तथ्यात्मक आधारशीलता - विश्वसनीय बाहरी जानकारी में उनके आउटपुट को ग्राउंड करने की क्षमता - एलएलएम का एक महत्वपूर्ण गुण है। तथ्यात्मक आधार सुनिश्चित करने और मतिभ्रम को कम करने के लिए, LaMDA को एक डेटासेट के साथ ठीक किया गया था जिसमें बाहरी ज्ञान की आवश्यकता होने पर बाहरी सूचना पुनर्प्राप्ति प्रणाली पर कॉल शामिल होती है। इस प्रकार, जब भी उपयोगकर्ता कोई प्रश्न पूछता है जिसके लिए नए ज्ञान की आवश्यकता होती है, तो मॉडल ने सबसे पहले तथ्यात्मक जानकारी प्राप्त करना सीखा।

एक अन्य लोकप्रिय फाइन-ट्यूनिंग तकनीक है ह्यूमन फीडबैक से रीइनफोर्समेंट लर्निंग (आरएलएचएफ)[2]। आरएलएचएफ किसी दिए गए संचार स्थिति में मानवीय प्राथमिकताओं को सीखने की दिशा में सीधे लेकिन कृत्रिम अगले-टोकन भविष्यवाणी कार्य से एलएलएम की सीखने की प्रक्रिया को "पुनर्निर्देशित" करता है। ये मानवीय प्राथमिकताएँ सीधे प्रशिक्षण डेटा में एन्कोडेड हैं। एनोटेशन प्रक्रिया के दौरान, मनुष्यों को संकेत दिए जाते हैं और वे या तो वांछित प्रतिक्रिया लिखते हैं या मौजूदा प्रतिक्रियाओं की एक श्रृंखला को रैंक करते हैं। फिर एलएलएम के व्यवहार को मानवीय प्राथमिकता को प्रतिबिंबित करने के लिए अनुकूलित किया जाता है।

3.2 बाहरी डेटा और सिमेंटिक खोज जोड़ना

मॉडल को बेहतर बनाने के लिए वार्तालापों को संकलित करने के अलावा, आप अपने सिस्टम को विशेष डेटा के साथ बढ़ाना चाह सकते हैं जिसका उपयोग वार्तालाप के दौरान किया जा सकता है। उदाहरण के लिए, आपके सिस्टम को बाहरी डेटा, जैसे पेटेंट या वैज्ञानिक दस्तावेज़, या आंतरिक डेटा, जैसे ग्राहक प्रोफ़ाइल या आपके तकनीकी दस्तावेज़ तक पहुंच की आवश्यकता हो सकती है। यह आम तौर पर सिमेंटिक खोज (जिसे पुनर्प्राप्ति-संवर्धित पीढ़ी, या आरएजी के रूप में भी जाना जाता है) के माध्यम से किया जाता है [3]। अतिरिक्त डेटा को डेटाबेस में सिमेंटिक एम्बेडिंग (सीएफ) के रूप में सहेजा जाता है। इस लेख एम्बेडिंग और आगे के संदर्भों की व्याख्या के लिए)। जब उपयोगकर्ता का अनुरोध आता है, तो इसे पूर्व-संसाधित किया जाता है और सिमेंटिक एम्बेडिंग में बदल दिया जाता है। सिमेंटिक खोज तब उन दस्तावेज़ों की पहचान करती है जो अनुरोध के लिए सबसे अधिक प्रासंगिक हैं और उन्हें संकेत के लिए संदर्भ के रूप में उपयोग करता है। सिमेंटिक खोज के साथ अतिरिक्त डेटा को एकीकृत करके, आप मतिभ्रम को कम कर सकते हैं और अधिक उपयोगी, तथ्यात्मक रूप से आधारित प्रतिक्रियाएँ प्रदान कर सकते हैं। एम्बेडिंग डेटाबेस को लगातार अपडेट करके, आप अपनी फ़ाइन-ट्यूनिंग प्रक्रिया को लगातार दोहराए बिना भी अपने सिस्टम के ज्ञान और प्रतिक्रियाओं को अद्यतन रख सकते हैं।

3.3 स्मृति और संदर्भ जागरूकता

कल्पना कीजिए कि आप किसी पार्टी में जा रहे हैं और एक वकील पीटर से मिल रहे हैं। आप उत्साहित हो जाते हैं और उस कानूनी चैटबॉट को पेश करना शुरू कर देते हैं जिसे आप वर्तमान में बनाने की योजना बना रहे हैं। पीटर दिलचस्पी दिखाता है, आपकी ओर झुकता है, उह करता है और सिर हिलाता है। किसी बिंदु पर, आप उसकी राय चाहते हैं कि क्या वह आपके ऐप का उपयोग करना चाहेगा। एक सूचनात्मक कथन के बजाय जो आपकी वाक्पटुता की भरपाई करेगा, आप सुनते हैं: "उह... यह ऐप फिर से क्या कर रहा था?"

मनुष्यों के बीच संचार का अलिखित अनुबंध यह मानता है कि हम अपने वार्तालाप साझेदारों को सुन रहे हैं और बातचीत के दौरान जिस संदर्भ का सह-निर्माण कर रहे हैं, उस पर अपने स्वयं के भाषण कृत्यों का निर्माण कर रहे हैं। सामाजिक परिवेश में, इस संयुक्त समझ का उद्भव एक उपयोगी, समृद्ध बातचीत की विशेषता है। किसी रेस्तरां की मेज आरक्षित करना या ट्रेन टिकट खरीदना जैसी अधिक सांसारिक सेटिंग्स में, कार्य को पूरा करने और उपयोगकर्ता को अपेक्षित मूल्य प्रदान करने के लिए यह एक परम आवश्यकता है। इसके लिए आपके सहायक को वर्तमान बातचीत के इतिहास के साथ-साथ पिछली बातचीत का भी पता होना आवश्यक है - उदाहरण के लिए, जब भी वह बातचीत शुरू करता है तो उसे किसी उपयोगकर्ता का नाम और अन्य व्यक्तिगत विवरण बार-बार नहीं पूछना चाहिए।

संदर्भ जागरूकता बनाए रखने की चुनौतियों में से एक कोररेफ़रेंस रिज़ॉल्यूशन है, यानी यह समझना कि सर्वनाम द्वारा किन वस्तुओं को संदर्भित किया जाता है। भाषा की व्याख्या करते समय मनुष्य सहजता से बहुत सारे प्रासंगिक संकेतों का उपयोग करते हैं - उदाहरण के लिए, आप एक छोटे बच्चे से पूछ सकते हैं, "कृपया लाल बॉक्स से हरी गेंद निकालो और मेरे पास लाओ," और बच्चे को पता चल जाएगा कि आपका मतलब गेंद से है , बॉक्स नहीं. आभासी सहायकों के लिए, यह कार्य काफी चुनौतीपूर्ण हो सकता है, जैसा कि निम्नलिखित संवाद से पता चलता है:

सहायक: धन्यवाद, मैं अब आपकी फ्लाइट बुक कर दूंगा। क्या आप भी अपनी उड़ान के लिए भोजन का ऑर्डर देना चाहेंगे?

उपयोगकर्ता: उह... क्या मैं बाद में निर्णय ले सकता हूं कि मुझे यह चाहिए या नहीं?

सहायक: क्षमा करें, इस उड़ान को बाद में बदला या रद्द नहीं किया जा सकता।

यहां, सहायक यह पहचानने में विफल रहता है कि सर्वनाम it उपयोगकर्ता का संदर्भ उड़ान से नहीं, बल्कि भोजन से है, इस प्रकार इस गलतफहमी को ठीक करने के लिए एक और पुनरावृत्ति की आवश्यकता है।

3.4 अतिरिक्त रेलिंग

समय-समय पर, यहां तक ​​कि सबसे अच्छा एलएलएम भी दुर्व्यवहार और मतिभ्रम करेगा। कई मामलों में, मतिभ्रम स्पष्ट सटीकता के मुद्दे हैं - और, ठीक है, आपको यह स्वीकार करना होगा कि कोई भी एआई 100% सटीक नहीं है। अन्य एआई प्रणालियों की तुलना में, उपयोगकर्ता और एआई के बीच "दूरी" उपयोगकर्ता और एआई के बीच काफी कम है। एक सामान्य सटीकता का मुद्दा जल्दी ही ऐसी चीज़ में बदल सकता है जिसे विषाक्त, भेदभावपूर्ण या आम तौर पर हानिकारक माना जाता है। इसके अतिरिक्त, चूंकि एलएलएम में गोपनीयता की अंतर्निहित समझ नहीं होती है, इसलिए वे व्यक्तिगत पहचान योग्य जानकारी (पीआईआई) जैसे संवेदनशील डेटा को भी प्रकट कर सकते हैं। आप अतिरिक्त रेलिंग का उपयोग करके इन व्यवहारों के विरुद्ध काम कर सकते हैं। गार्डरेल्स एआई, रिबफ, नेमो गार्डरेल्स और माइक्रोसॉफ्ट गाइडेंस जैसे उपकरण आपको एलएलएम आउटपुट पर अतिरिक्त आवश्यकताएं तैयार करके और अवांछित आउटपुट को अवरुद्ध करके अपने सिस्टम को जोखिम से मुक्त करने की अनुमति देते हैं।

संवादी एआई में एकाधिक आर्किटेक्चर संभव हैं। निम्नलिखित स्कीमा एक सरल उदाहरण दिखाती है कि कैसे सुव्यवस्थित एलएलएम, बाहरी डेटा और मेमोरी को एक संवादी एजेंट द्वारा एकीकृत किया जा सकता है, जो शीघ्र निर्माण और रेलिंग के लिए भी जिम्मेदार है।

चित्र 4: एक बेहतर ट्यून किए गए एलएलएम, सिमेंटिक खोज के लिए एक डेटाबेस और एक मेमोरी घटक सहित एक संवादात्मक एआई प्रणाली की स्कीमा

4. उपयोगकर्ता अनुभव और संवादी डिज़ाइन

संवादात्मक इंटरफेस का आकर्षण विभिन्न अनुप्रयोगों में उनकी सादगी और एकरूपता में निहित है। यदि यूजर इंटरफेस का भविष्य यह है कि सभी ऐप्स कमोबेश एक जैसे दिखते हैं, तो क्या यूएक्स डिजाइनर का काम बर्बाद हो गया है? निश्चित रूप से नहीं - बातचीत आपके एलएलएम को सिखाई जाने वाली एक कला है ताकि यह ऐसी बातचीत कर सके जो आपके उपयोगकर्ताओं के लिए उपयोगी, स्वाभाविक और आरामदायक हो। जब हम मानव मनोविज्ञान, भाषाविज्ञान और यूएक्स डिज़ाइन के अपने ज्ञान को जोड़ते हैं तो अच्छा संवादी डिज़ाइन उभर कर आता है। निम्नलिखित में, वार्तालाप प्रणाली बनाते समय हम पहले दो बुनियादी विकल्पों पर विचार करेंगे, अर्थात् क्या आप आवाज और/या चैट का उपयोग करेंगे, साथ ही साथ आपके सिस्टम का बड़ा संदर्भ भी। फिर, हम स्वयं वार्तालापों को देखेंगे, और देखेंगे कि आप अपने सहायक को सहायक और सहयोगात्मक वार्तालापों में शामिल होना सिखाते हुए उसके व्यक्तित्व को कैसे डिज़ाइन कर सकते हैं।

4.1 आवाज बनाम चैट

संवादात्मक इंटरफेस को चैट या आवाज का उपयोग करके कार्यान्वित किया जा सकता है। संक्षेप में, आवाज तेज़ है जबकि चैट उपयोगकर्ताओं को निजी रहने और समृद्ध यूआई कार्यक्षमता से लाभ उठाने की अनुमति देती है। आइए दो विकल्पों पर थोड़ा गहराई से विचार करें क्योंकि यह पहला और सबसे महत्वपूर्ण निर्णयों में से एक है जिसका सामना आपको एक संवादी ऐप बनाते समय करना होगा।

दो विकल्पों के बीच चयन करने के लिए, उस भौतिक सेटिंग पर विचार करके शुरुआत करें जिसमें आपके ऐप का उपयोग किया जाएगा। उदाहरण के लिए, कारों में लगभग सभी वार्तालाप प्रणालियाँ, जैसे कि नुअंस कम्युनिकेशंस द्वारा पेश की गई, आवाज पर आधारित क्यों हैं? क्योंकि ड्राइवर के हाथ पहले से ही व्यस्त हैं और वे लगातार स्टीयरिंग व्हील और कीबोर्ड के बीच स्विच नहीं कर सकते हैं। यह खाना पकाने जैसी अन्य गतिविधियों पर भी लागू होता है, जहां उपयोगकर्ता आपके ऐप का उपयोग करते समय अपनी गतिविधि के प्रवाह में बने रहना चाहते हैं। कारें और रसोई ज्यादातर निजी सेटिंग्स हैं, इसलिए उपयोगकर्ता गोपनीयता की चिंता किए बिना या दूसरों को परेशान किए बिना आवाज के साथ बातचीत का आनंद अनुभव कर सकते हैं। इसके विपरीत, यदि आपके ऐप का उपयोग कार्यालय, लाइब्रेरी या ट्रेन स्टेशन जैसी सार्वजनिक सेटिंग में किया जाना है, तो आवाज़ आपकी पहली पसंद नहीं हो सकती है।

भौतिक परिवेश को समझने के बाद भावनात्मक पक्ष पर विचार करें। स्वर, मनोदशा और व्यक्तित्व को प्रसारित करने के लिए आवाज का जानबूझकर उपयोग किया जा सकता है - क्या यह आपके संदर्भ में मूल्य जोड़ता है? यदि आप फुरसत के लिए अपना ऐप बना रहे हैं, तो आवाज़ मज़ेदार कारक को बढ़ा सकती है, जबकि मानसिक स्वास्थ्य के लिए एक सहायक अधिक सहानुभूति को समायोजित कर सकता है और संभावित रूप से परेशान उपयोगकर्ता को अभिव्यक्ति का एक बड़ा आयाम दे सकता है। इसके विपरीत, यदि आपका ऐप उपयोगकर्ताओं को व्यापार या ग्राहक सेवा जैसी पेशेवर सेटिंग में सहायता करेगा, तो अधिक गुमनाम, टेक्स्ट-आधारित इंटरैक्शन अधिक उद्देश्यपूर्ण निर्णयों में योगदान दे सकता है और आपको अत्यधिक भावनात्मक अनुभव डिजाइन करने की परेशानी से बचा सकता है।

अगले चरण के रूप में, कार्यक्षमता के बारे में सोचें। टेक्स्ट-आधारित इंटरफ़ेस आपको अन्य मीडिया जैसे छवियों और ग्राफिकल यूआई तत्वों जैसे बटन के साथ बातचीत को समृद्ध करने की अनुमति देता है। उदाहरण के लिए, एक ई-कॉमर्स सहायक में, एक ऐप जो उत्पादों की तस्वीरें और संरचित विवरण पोस्ट करके सुझाव देता है, वह उस ऐप की तुलना में अधिक उपयोगकर्ता-अनुकूल होगा जो आवाज के माध्यम से उत्पादों का वर्णन करता है और संभावित रूप से उनके पहचानकर्ता प्रदान करता है।

अंत में, आइए वॉयस यूआई के निर्माण की अतिरिक्त डिजाइन और विकास चुनौतियों के बारे में बात करें:

  • वाक् पहचान का एक अतिरिक्त चरण है जो उपयोगकर्ता इनपुट को एलएलएम और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के साथ संसाधित करने से पहले होता है।
  • आवाज संचार का एक अधिक व्यक्तिगत और भावनात्मक माध्यम है - इस प्रकार, आपके आभासी सहायक के पीछे एक सुसंगत, उपयुक्त और आनंददायक व्यक्तित्व को डिजाइन करने की आवश्यकताएं अधिक हैं, और आपको "आवाज डिजाइन" के अतिरिक्त कारकों जैसे कि समय को ध्यान में रखना होगा। , तनाव, स्वर और बोलने की गति।
  • उपयोगकर्ता उम्मीद करते हैं कि आपकी ध्वनि बातचीत मानवीय बातचीत के समान गति से आगे बढ़े। आवाज के माध्यम से स्वाभाविक बातचीत की पेशकश करने के लिए, आपको चैट की तुलना में बहुत कम विलंबता की आवश्यकता होती है। मानवीय वार्तालापों में, घुमावों के बीच सामान्य अंतर 200 मिलीसेकेंड का होता है - यह त्वरित प्रतिक्रिया इसलिए संभव है क्योंकि हम अपने साथी के भाषण को सुनते हुए अपने घुमावों का निर्माण शुरू करते हैं। आपके वॉयस असिस्टेंट को बातचीत में प्रवाह की इस डिग्री के साथ मेल खाना होगा। इसके विपरीत, चैटबॉट्स के लिए, आप सेकंड के समय अंतराल के साथ प्रतिस्पर्धा करते हैं, और कुछ डेवलपर्स बातचीत को मनुष्यों के बीच टाइप की गई चैट की तरह महसूस कराने के लिए अतिरिक्त देरी भी पेश करते हैं।
  • आवाज के माध्यम से संचार एक रैखिक, एकबारगी उद्यम है - यदि आपके उपयोगकर्ता को आपने जो कहा वह समझ में नहीं आया, तो आप एक थकाऊ, त्रुटि-प्रवण स्पष्टीकरण चक्र में हैं। इस प्रकार, आपकी बारी यथासंभव संक्षिप्त, स्पष्ट और जानकारीपूर्ण होनी चाहिए।

यदि आप ध्वनि समाधान चुनते हैं, तो सुनिश्चित करें कि आप न केवल चैट की तुलना में इसके फायदों को स्पष्ट रूप से समझते हैं, बल्कि आपके पास इन अतिरिक्त चुनौतियों का समाधान करने के लिए कौशल और संसाधन भी हैं।

4.2 आपका संवादात्मक एआई कहां रहेगा?

अब, आइए उस बड़े संदर्भ पर विचार करें जिसमें आप संवादात्मक एआई को एकीकृत कर सकते हैं। हम सभी कंपनी की वेबसाइटों पर चैटबॉट्स से परिचित हैं - आपकी स्क्रीन के दाईं ओर वे विजेट जो किसी व्यवसाय की वेबसाइट खोलने पर पॉप अप होते हैं। व्यक्तिगत रूप से, अक्सर मेरी सहज प्रतिक्रिया बंद करें बटन की तलाश करने की होती है। ऐसा क्यों? इन बॉट्स के साथ "बातचीत" करने के शुरुआती प्रयासों के माध्यम से, मैंने सीखा है कि वे अधिक विशिष्ट जानकारी आवश्यकताओं को पूरा नहीं कर सकते हैं, और अंत में, मुझे अभी भी वेबसाइट को खंगालना होगा। कहानी का नैतिक पहलू है? एक चैटबॉट न बनाएं क्योंकि यह अच्छा और ट्रेंडी है - बल्कि, इसे इसलिए बनाएं क्योंकि आप आश्वस्त हैं कि यह आपके उपयोगकर्ताओं के लिए अतिरिक्त मूल्य बना सकता है।

कंपनी की वेबसाइट पर विवादास्पद विजेट के अलावा, उन अधिक सामान्य चैटबॉट्स को एकीकृत करने के लिए कई रोमांचक संदर्भ हैं जो एलएलएम के साथ संभव हो गए हैं:

  • सहपायलट: ये सहायक प्रोग्रामिंग के लिए GitHub CoPilot जैसी विशिष्ट प्रक्रियाओं और कार्यों के माध्यम से आपका मार्गदर्शन और सलाह देते हैं। आम तौर पर, सह-पायलट एक विशिष्ट एप्लिकेशन (या संबंधित अनुप्रयोगों के एक छोटे सूट) से "बंधे" होते हैं।
  • कृत्रिम मनुष्य (डिजिटल मानव भी): ये जीव डिजिटल दुनिया में वास्तविक मनुष्यों का "अनुकरण" करते हैं। वे इंसानों की तरह दिखते हैं, कार्य करते हैं और बात करते हैं और इसलिए उन्हें बातचीत करने की समृद्ध क्षमता की भी आवश्यकता होती है। सिंथेटिक मनुष्यों का उपयोग अक्सर गेमिंग, और संवर्धित और आभासी वास्तविकता जैसे इमर्सिव अनुप्रयोगों में किया जाता है।
  • डिजिटल जुड़वाँ: डिजिटल जुड़वाँ वास्तविक दुनिया की प्रक्रियाओं और वस्तुओं, जैसे कारखानों, कारों या इंजनों की डिजिटल "प्रतियाँ" हैं। इनका उपयोग वास्तविक वस्तु के डिज़ाइन और व्यवहार का अनुकरण, विश्लेषण और अनुकूलन करने के लिए किया जाता है। डिजिटल जुड़वाँ के साथ प्राकृतिक भाषा की बातचीत डेटा और मॉडलों तक आसान और अधिक बहुमुखी पहुंच की अनुमति देती है।
  • डेटाबेस: आजकल, किसी भी विषय पर डेटा उपलब्ध है, चाहे वह निवेश अनुशंसाएं हों, कोड स्निपेट हों, या शैक्षिक सामग्री हों। जो बात अक्सर कठिन होती है वह है उस विशिष्ट डेटा को ढूंढना जिसकी उपयोगकर्ताओं को किसी विशिष्ट स्थिति में आवश्यकता होती है। डेटाबेस के लिए ग्राफ़िकल इंटरफ़ेस या तो बहुत मोटे हैं या अंतहीन खोज और फ़िल्टर विजेट से ढके हुए हैं। SQL और GraphQL जैसी बहुमुखी क्वेरी भाषाएं केवल संबंधित कौशल वाले उपयोगकर्ताओं के लिए ही पहुंच योग्य हैं। संवादी समाधान उपयोगकर्ताओं को प्राकृतिक भाषा में डेटा को क्वेरी करने की अनुमति देते हैं, जबकि एलएलएम जो अनुरोधों को संसाधित करता है, स्वचालित रूप से उन्हें संबंधित क्वेरी भाषा में परिवर्तित करता है (सीएफ)। इस लेख Text2SQL की व्याख्या के लिए)।

4.3 अपने सहायक पर एक व्यक्तित्व अंकित करना

मनुष्य के रूप में, हम मानवरूपीकरण करने के लिए प्रतिबद्ध हैं, अर्थात जब हम कोई ऐसी चीज देखते हैं जो अस्पष्ट रूप से मानव जैसी दिखती है तो हम उसमें अतिरिक्त मानवीय गुण उत्पन्न करते हैं। भाषा मानव जाति की सबसे अनोखी और आकर्षक क्षमताओं में से एक है, और बातचीत के उत्पाद स्वचालित रूप से मनुष्यों से जुड़े होंगे। लोग अपनी स्क्रीन या डिवाइस के पीछे एक व्यक्ति की कल्पना करेंगे - और यह अच्छा अभ्यास है कि इस विशिष्ट व्यक्ति को अपने उपयोगकर्ताओं की कल्पना के भरोसे न छोड़ें, बल्कि इसे एक सुसंगत व्यक्तित्व प्रदान करें जो आपके उत्पाद और ब्रांड के साथ संरेखित हो। इस प्रक्रिया को "व्यक्तित्व डिज़ाइन" कहा जाता है।

व्यक्तित्व डिज़ाइन का पहला चरण उन चरित्र लक्षणों को समझना है जिन्हें आप अपने व्यक्तित्व में प्रदर्शित करना चाहते हैं। आदर्श रूप से, यह पहले से ही प्रशिक्षण डेटा के स्तर पर किया जाता है - उदाहरण के लिए, आरएलएचएफ का उपयोग करते समय, आप मॉडल को पूर्वाग्रहित करने के लिए अपने एनोटेटर्स को सहायकता, विनम्रता, मजेदार इत्यादि जैसी विशेषताओं के अनुसार डेटा को रैंक करने के लिए कह सकते हैं। वांछित विशेषताएँ. इन विशेषताओं को आपके ब्रांड विशेषताओं के साथ मिलान करके एक सुसंगत छवि बनाई जा सकती है जो उत्पाद अनुभव के माध्यम से आपकी ब्रांडिंग को लगातार बढ़ावा देती है।

सामान्य विशेषताओं से परे, आपको यह भी सोचना चाहिए कि आपका आभासी सहायक "खुशहाल पथ" से परे विशिष्ट स्थितियों से कैसे निपटेगा। उदाहरण के लिए, यह अपने दायरे से परे उपयोगकर्ता के अनुरोधों का जवाब कैसे देगा, अपने बारे में सवालों का जवाब कैसे देगा और अपमानजनक या अश्लील भाषा से कैसे निपटेगा?

आपके व्यक्तित्व पर स्पष्ट आंतरिक दिशानिर्देश विकसित करना महत्वपूर्ण है जिसका उपयोग डेटा एनोटेटर्स और वार्तालाप डिजाइनरों द्वारा किया जा सकता है। यह आपको अपने व्यक्तित्व को उद्देश्यपूर्ण तरीके से डिजाइन करने और इसे अपनी टीम में और समय के साथ सुसंगत बनाए रखने की अनुमति देगा, क्योंकि आपका एप्लिकेशन कई पुनरावृत्तियों और परिशोधन से गुजरता है।

4.4 "सहयोग के सिद्धांत" के साथ बातचीत को उपयोगी बनाना

क्या आपको कभी यह आभास हुआ है कि जब आप वास्तव में किसी इंसान से बात कर रहे हों तो आप किसी ईंट की दीवार से बात कर रहे हों? कभी-कभी, हम पाते हैं कि हमारे वार्तालाप साझेदार बातचीत को सफल बनाने में रुचि नहीं रखते हैं। सौभाग्य से, ज्यादातर मामलों में, चीजें सहज हैं, और मनुष्य सहजता से "सहयोग के सिद्धांत" का पालन करेंगे जो भाषा दार्शनिक पॉल ग्राइस द्वारा पेश किया गया था। इस सिद्धांत के अनुसार, जो मनुष्य एक-दूसरे के साथ सफलतापूर्वक संवाद करते हैं, वे चार सिद्धांतों का पालन करते हैं, अर्थात् मात्रा, गुणवत्ता, प्रासंगिकता और ढंग।

मात्रा की अधिकतमता

मात्रा का सिद्धांत वक्ता को जानकारीपूर्ण होने और आवश्यकतानुसार जानकारीपूर्ण योगदान देने के लिए कहता है। आभासी सहायक की ओर से, इसका अर्थ सक्रिय रूप से बातचीत को आगे बढ़ाना भी है। उदाहरण के लिए, ई-कॉमर्स फ़ैशन ऐप के इस स्निपेट पर विचार करें:

सहायक: आप किस प्रकार के कपड़ों की तलाश में हैं?

उपयोगकर्ता: मैं नारंगी रंग की एक पोशाक की तलाश में हूं।

सहायक: मत करो: क्षमा करें, इस समय हमारे पास नारंगी पोशाकें नहीं हैं।

करें: क्षमा करें, हमारे पास नारंगी रंग की पोशाकें नहीं हैं, लेकिन हमारे पास पीले रंग की यह शानदार और बहुत आरामदायक पोशाक है: ...

उपयोगकर्ता को उम्मीद है कि वह आपके ऐप को एक उपयुक्त वस्तु के साथ छोड़ देगा। बातचीत को रोकना क्योंकि आपके पास सटीक विवरण में फिट होने वाली चीजें नहीं हैं, सफलता की संभावना खत्म हो जाती है। हालाँकि, यदि आपका ऐप वैकल्पिक वस्तुओं के बारे में सुझाव देता है, तो यह अधिक उपयोगी दिखाई देगा और एक सफल इंटरैक्शन का विकल्प खुला छोड़ देगा।

विशेष रूप से ध्वनि इंटरैक्शन में, उपयोगकर्ता को सफलता के लिए आवश्यक सभी जानकारी प्रदान करने के बीच सही संतुलन ढूंढना महत्वपूर्ण है, जबकि उन्हें अनावश्यक जानकारी से अभिभूत न करें जो इंटरैक्शन को बाधित कर सकती है।

गुणवत्ता की अधिकतम सीमा

गुणवत्ता का सिद्धांत वक्ताओं से सच्चा होने को कहता है और ऐसी बातें नहीं कहने को कहता है जो उनके अनुसार झूठी हैं या जिनके लिए उनके पास पर्याप्त सबूत नहीं हैं। यहां बहुत अधिक व्यक्तिपरकता और व्यक्तिगत विश्वास शामिल है - इस प्रकार, इस कहावत को सीधे एलएलएम पर प्रक्षेपित नहीं किया जा सकता है। जैसा कि हमने देखा है, एलएलएम मतिभ्रम की प्रवृत्ति रखते हैं, और यह जोखिम विशेष रूप से तब अधिक होता है जब बातचीत कम परिचित क्षेत्रों में चली जाती है। भ्रामक बयानों से बचने और बातचीत को पटरी पर लाने के लिए अतिरिक्त रेलिंग का उपयोग किया जा सकता है।

प्रासंगिकता की अधिकतम सीमा

प्रासंगिकता का सिद्धांत हमें - अच्छा, प्रासंगिक होने के लिए कहता है। एक पूर्व शर्त के रूप में, वर्चुअल असिस्टेंट को उपयोगकर्ता के वास्तविक इरादे को समझना होगा। यहां एक एयरलाइन सहायक का उदाहरण दिया गया है जो इस नियम का उल्लंघन करता है:

उपयोगकर्ता: मुझे कल सुबह बर्लिन से ज्यूरिख के लिए उड़ान चाहिए।

सहायक: ठीक है, मुझे कल सुबह के लिए बर्लिन से ज्यूरिख के लिए निम्नलिखित उड़ानें मिलीं। उड़ान BZ36294 बर्लिन से सुबह 6.30 बजे रवाना होती है और सुबह 8 बजे ज्यूरिख पहुंचती है। उड़ान BZ96294 बर्लिन से सुबह 8 बजे रवाना होती है और 9.30 बजे पहुंचती है। उड़ान BZ96294 सुबह 8 बजे बर्लिन से रवाना होती है और 9.30 बजे ज्यूरिख पहुंचती है। उड़ान BZ95614 बर्लिन से सुबह 11 बजे रवाना होती है और दोपहर 12.30 बजे ज्यूरिख पहुंचती है। कनेक्टिंग फ्लाइट की भी संभावना है, ऐसी स्थिति में आप सुबह 11.45 बजे बर्लिन से प्रस्थान करेंगे और दोपहर 3 बजे ज्यूरिख पहुंचेंगे।

उपयोगकर्ता: क्षमा करें... क्या आप इसे दोबारा दोहरा सकते हैं?

सहायक उपयोगकर्ता को विस्तृत जानकारी प्रदान कर रहा है जो प्रासंगिक नहीं हो सकती है। इसे तोड़कर और उपयोगकर्ता को अपने खोज स्थान को सीमित करने के लिए मार्गदर्शन करने से, संवाद को पचाना बहुत आसान हो जाता है:

उपयोगकर्ता: मुझे कल सुबह बर्लिन से ज्यूरिख के लिए उड़ान चाहिए।

सहायक: ठीक है, मुझे सुबह 6.30, 8, और 11 बजे जाने वाली उड़ानें मिलीं। आप किस समय जाना चाहेंगे?

उपयोगकर्ता: मुझे सुबह 9 बजे से पहले ज्यूरिख में रहना होगा।

सहायक: ठीक है, तो आप उड़ान BZ36294 ले सकते हैं। यह सुबह 6.30 बजे निकलती है और सुबह 8 बजे आती है। क्या मुझे आपके लिए टिकट खरीदना चाहिए?

उपयोगकर्ता: जी धन्यवाद।

ढंग की कहावत

अंत में, शिष्टाचार का सिद्धांत कहता है कि हमारा भाषण स्पष्ट, संक्षिप्त और व्यवस्थित होना चाहिए, अभिव्यक्ति की अस्पष्टता और अस्पष्टता से बचना चाहिए। आपके आभासी सहायक को तकनीकी या आंतरिक शब्दजाल से बचना चाहिए और सरल, सार्वभौमिक रूप से समझने योग्य फॉर्मूलेशन को प्राथमिकता देनी चाहिए।

जबकि ग्राइस के सिद्धांत एक विशिष्ट डोमेन से स्वतंत्र रूप से सभी वार्तालापों के लिए मान्य हैं, वार्तालाप के लिए विशेष रूप से प्रशिक्षित नहीं किए गए एलएलएम अक्सर उन्हें पूरा करने में विफल रहते हैं। इस प्रकार, अपने प्रशिक्षण डेटा को संकलित करते समय, पर्याप्त संवाद नमूने होना महत्वपूर्ण है जो आपके मॉडल को इन सिद्धांतों को सीखने की अनुमति दें।

संवादी डिज़ाइन का क्षेत्र काफ़ी तेज़ी से विकसित हो रहा है। चाहे आप पहले से ही एआई उत्पाद बना रहे हों या एआई में अपने करियर पथ के बारे में सोच रहे हों, मैं आपको इस विषय पर गहराई से विचार करने के लिए प्रोत्साहित करता हूं ([5] और [6] में उत्कृष्ट परिचय की तुलना करें)। जैसे-जैसे एआई एक कमोडिटी में बदल रहा है, एक रक्षात्मक डेटा रणनीति के साथ अच्छा डिज़ाइन एआई उत्पादों के लिए दो महत्वपूर्ण विभेदक बन जाएगा।

सारांश

आइए लेख के मुख्य अंशों को संक्षेप में प्रस्तुत करें। इसके अतिरिक्त, चित्र 5 मुख्य बिंदुओं के साथ एक "चीट शीट" प्रदान करता है जिसे आप संदर्भ के रूप में डाउनलोड कर सकते हैं।

  • एलएलएम संवादात्मक एआई को बढ़ाते हैं: बड़े भाषा मॉडल (एलएलएम) ने विभिन्न उद्योगों और उपयोग के मामलों में संवादात्मक एआई अनुप्रयोगों की गुणवत्ता और स्केलेबिलिटी में काफी सुधार किया है।
  • संवादी एआई बहुत सारे समान उपयोगकर्ता अनुरोधों (उदाहरण के लिए, ग्राहक सेवा) या बड़ी मात्रा में असंरचित डेटा (उदाहरण के लिए ज्ञान प्रबंधन) तक पहुंचने की आवश्यकता वाले अनुप्रयोगों में बहुत अधिक मूल्य जोड़ सकता है।
  • डेटा: बातचीत संबंधी कार्यों के लिए एलएलएम को फाइन-ट्यूनिंग करने के लिए उच्च गुणवत्ता वाले बातचीत संबंधी डेटा की आवश्यकता होती है जो वास्तविक दुनिया की बातचीत को बारीकी से दर्शाता है। क्राउडसोर्सिंग और एलएलएम-जनित डेटा डेटा संग्रह को बढ़ाने के लिए मूल्यवान संसाधन हो सकते हैं।
  • सिस्टम को एक साथ रखना: संवादी एआई सिस्टम विकसित करना एक पुनरावृत्तीय और प्रयोगात्मक प्रक्रिया है जिसमें डेटा का निरंतर अनुकूलन, फाइन-ट्यूनिंग रणनीतियों और घटक एकीकरण शामिल है।
  • एलएलएम को वार्तालाप कौशल सिखाना: एलएलएम को फाइन-ट्यूनिंग करने में उन्हें विशिष्ट संचार इरादों और स्थितियों को पहचानने और प्रतिक्रिया देने के लिए प्रशिक्षित करना शामिल है।
  • सिमेंटिक खोज के साथ बाहरी डेटा जोड़ना: सिमेंटिक खोज का उपयोग करके बाहरी और आंतरिक डेटा स्रोतों को एकीकृत करना अधिक प्रासंगिक रूप से प्रासंगिक जानकारी प्रदान करके एआई की प्रतिक्रियाओं को बढ़ाता है।
  • स्मृति और संदर्भ जागरूकता: प्रभावी वार्तालाप प्रणालियों को सार्थक और सुसंगत प्रतिक्रियाएँ प्रदान करने के लिए वर्तमान वार्तालाप और पिछली बातचीत के इतिहास पर नज़र रखने सहित संदर्भ जागरूकता बनाए रखनी चाहिए।
  • रेलिंग स्थापित करना: जिम्मेदार व्यवहार सुनिश्चित करने के लिए, संवादात्मक एआई सिस्टम को अशुद्धियों, मतिभ्रम और गोपनीयता के उल्लंघन को रोकने के लिए रेलिंग का उपयोग करना चाहिए।
  • व्यक्तित्व डिज़ाइन: एक सामंजस्यपूर्ण और ब्रांडेड उपयोगकर्ता अनुभव बनाने के लिए अपने वार्तालाप सहायक के लिए एक सुसंगत व्यक्तित्व डिज़ाइन करना आवश्यक है। व्यक्तित्व विशेषताएँ आपके उत्पाद और ब्रांड विशेषताओं के अनुरूप होनी चाहिए।
  • आवाज बनाम चैट: आवाज और चैट इंटरफेस के बीच चयन भौतिक सेटिंग, भावनात्मक संदर्भ, कार्यक्षमता और डिजाइन चुनौतियों जैसे कारकों पर निर्भर करता है। अपने वार्तालाप एआई के लिए इंटरफ़ेस पर निर्णय लेते समय इन कारकों पर विचार करें।
  • विभिन्न संदर्भों में एकीकरण: संवादात्मक एआई को विभिन्न संदर्भों में एकीकृत किया जा सकता है, जिसमें सह-पायलट, सिंथेटिक मानव, डिजिटल जुड़वां और डेटाबेस शामिल हैं, प्रत्येक विशिष्ट उपयोग के मामलों और आवश्यकताओं के साथ।
  • सहयोग के सिद्धांत का पालन: बातचीत में मात्रा, गुणवत्ता, प्रासंगिकता और तरीके के सिद्धांतों का पालन करने से वार्तालाप एआई के साथ बातचीत अधिक उपयोगी और उपयोगकर्ता के अनुकूल हो सकती है।
चित्र 5: संवादात्मक एआई के लिए मुख्य निष्कर्ष और सर्वोत्तम अभ्यास

संदर्भ

[1] हेंग-त्ज़े चेन एट अल। 2022. LaMDA: सब कुछ के लिए सुरक्षित, जमीनी और उच्च गुणवत्ता वाले डायलॉग मॉडल की ओर.

[2] ओपनएआई। 2022. चैटजीपीटी: संवाद के लिए भाषा मॉडल का अनुकूलन. 13 जनवरी, 2022 को पुनःप्राप्त।

[3] पैट्रिक लुईस एट अल। 2020. नॉलेज-इंटेंसिव एनएलपी टास्क के लिए रिट्रीवल-ऑगमेंटेड जनरेशन.

[4] पॉल ग्राइस। 1989. शब्दों के तरीके से अध्ययन।

[5] कैथी पर्ल। 2016. वॉयस यूजर इंटरफेस डिजाइन करना।

[6] माइकल कोहेन एट अल। 2004. वॉयस यूजर इंटरफ़ेस डिज़ाइन।

नोट: सभी चित्र लेखक द्वारा हैं, अन्यथा उल्लेखित को छोड़कर।

यह आलेख मूलतः पर प्रकाशित हुआ था डेटा साइंस की ओर और लेखक से अनुमति के साथ TOPBOTS में फिर से प्रकाशित।

इस लेख का आनंद लें? अधिक AI अनुसंधान अपडेट के लिए साइन अप करें।

जब हम इस तरह के और अधिक सारांश लेख जारी करते हैं तो हम आपको बताएंगे।

#gform_wrapper_37[data-form-index=”0″].gform-theme,[data-parent-form=”37_0″]{–gform-theme-color-primary: #204ce5;–gform-theme-color-primary-rgb: 32, 76, 229;–gform-theme-color-primary-contrast: #fff;–gform-theme-color-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-primary-darker: #001AB3;–gform-theme-color-primary-lighter: #527EFF;–gform-theme-color-secondary: #fff;–gform-theme-color-secondary-rgb: 255, 255, 255;–gform-theme-color-secondary-contrast: #112337;–gform-theme-color-secondary-contrast-rgb: 17, 35, 55;–gform-theme-color-secondary-darker: #F5F5F5;–gform-theme-color-secondary-lighter: #FFFFFF;–gform-theme-color-outside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-outside-control-light-rgb: 17, 35, 55;–gform-theme-color-outside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-outside-control-light-lighter: #F5F5F5;–gform-theme-color-outside-control-dark: #585e6a;–gform-theme-color-outside-control-dark-rgb: 88, 94, 106;–gform-theme-color-outside-control-dark-darker: #112337;–gform-theme-color-outside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-color-inside-control: #fff;–gform-theme-color-inside-control-rgb: 255, 255, 255;–gform-theme-color-inside-control-contrast: #112337;–gform-theme-color-inside-control-contrast-rgb: 17, 35, 55;–gform-theme-color-inside-control-darker: #F5F5F5;–gform-theme-color-inside-control-lighter: #FFFFFF;–gform-theme-color-inside-control-primary: #204ce5;–gform-theme-color-inside-control-primary-rgb: 32, 76, 229;–gform-theme-color-inside-control-primary-contrast: #fff;–gform-theme-color-inside-control-primary-contrast-rgb: 255, 255, 255;–gform-theme-color-inside-control-primary-darker: #001AB3;–gform-theme-color-inside-control-primary-lighter: #527EFF;–gform-theme-color-inside-control-light: rgba(17, 35, 55, 0.1);–gform-theme-color-inside-control-light-rgb: 17, 35, 55;–gform-theme-color-inside-control-light-darker: rgba(104, 110, 119, 0.35);–gform-theme-color-inside-control-light-lighter: #F5F5F5;–gform-theme-color-inside-control-dark: #585e6a;–gform-theme-color-inside-control-dark-rgb: 88, 94, 106;–gform-theme-color-inside-control-dark-darker: #112337;–gform-theme-color-inside-control-dark-lighter: rgba(17, 35, 55, 0.65);–gform-theme-border-radius: 3px;–gform-theme-font-size-secondary: 14px;–gform-theme-font-size-tertiary: 13px;–gform-theme-icon-control-number: url(“data:image/svg+xml,%3Csvg width=’8′ height=’14’ viewBox=’0 0 8 14′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M4 0C4.26522 5.96046e-08 4.51957 0.105357 4.70711 0.292893L7.70711 3.29289C8.09763 3.68342 8.09763 4.31658 7.70711 4.70711C7.31658 5.09763 6.68342 5.09763 6.29289 4.70711L4 2.41421L1.70711 4.70711C1.31658 5.09763 0.683417 5.09763 0.292893 4.70711C-0.0976311 4.31658 -0.097631 3.68342 0.292893 3.29289L3.29289 0.292893C3.48043 0.105357 3.73478 0 4 0ZM0.292893 9.29289C0.683417 8.90237 1.31658 8.90237 1.70711 9.29289L4 11.5858L6.29289 9.29289C6.68342 8.90237 7.31658 8.90237 7.70711 9.29289C8.09763 9.68342 8.09763 10.3166 7.70711 10.7071L4.70711 13.7071C4.31658 14.0976 3.68342 14.0976 3.29289 13.7071L0.292893 10.7071C-0.0976311 10.3166 -0.0976311 9.68342 0.292893 9.29289Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-select: url(“data:image/svg+xml,%3Csvg width=’10’ height=’6′ viewBox=’0 0 10 6′ fill=’none’ xmlns=’http://www.w3.org/2000/svg’%3E%3Cpath fill-rule=’evenodd’ clip-rule=’evenodd’ d=’M0.292893 0.292893C0.683417 -0.097631 1.31658 -0.097631 1.70711 0.292893L5 3.58579L8.29289 0.292893C8.68342 -0.0976311 9.31658 -0.0976311 9.70711 0.292893C10.0976 0.683417 10.0976 1.31658 9.70711 1.70711L5.70711 5.70711C5.31658 6.09763 4.68342 6.09763 4.29289 5.70711L0.292893 1.70711C-0.0976311 1.31658 -0.0976311 0.683418 0.292893 0.292893Z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-icon-control-search: url(“data:image/svg+xml,%3Csvg version=’1.1′ xmlns=’http://www.w3.org/2000/svg’ width=’640′ height=’640’%3E%3Cpath d=’M256 128c-70.692 0-128 57.308-128 128 0 70.691 57.308 128 128 128 70.691 0 128-57.309 128-128 0-70.692-57.309-128-128-128zM64 256c0-106.039 85.961-192 192-192s192 85.961 192 192c0 41.466-13.146 79.863-35.498 111.248l154.125 154.125c12.496 12.496 12.496 32.758 0 45.254s-32.758 12.496-45.254 0L367.248 412.502C335.862 434.854 297.467 448 256 448c-106.039 0-192-85.962-192-192z’ fill=’rgba(17, 35, 55, 0.65)’/%3E%3C/svg%3E”);–gform-theme-control-border-color: #686e77;–gform-theme-control-size: var(–gform-theme-control-size-md);–gform-theme-control-label-color-primary: #112337;–gform-theme-control-label-color-secondary: #112337;–gform-theme-control-choice-size: var(–gform-theme-control-choice-size-md);–gform-theme-control-checkbox-check-size: var(–gform-theme-control-checkbox-check-size-md);–gform-theme-control-radio-check-size: var(–gform-theme-control-radio-check-size-md);–gform-theme-control-button-font-size: var(–gform-theme-control-button-font-size-md);–gform-theme-control-button-padding-inline: var(–gform-theme-control-button-padding-inline-md);–gform-theme-control-button-size: var(–gform-theme-control-button-size-md);–gform-theme-control-button-border-color-secondary: #686e77;–gform-theme-control-file-button-background-color-hover: #EBEBEB;–gform-theme-field-page-steps-number-color: rgba(17, 35, 55, 0.8);}

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी