जेफिरनेट लोगो

माइक्रोसॉफ्ट शोधकर्ताओं ने CodeOcean और WaveCode पेश किया

दिनांक:

एआई में हालिया प्रगति, विशेष रूप से बड़े भाषा मॉडल (एलएलएम) के क्षेत्र में, ने कोड भाषा मॉडल में उल्लेखनीय विकास किया है। माइक्रोसॉफ्ट के शोधकर्ताओं के पास है शुरू की इस डोमेन में दो नवीन उपकरण: वेवकोडर और कोडओसियन, कोड भाषा मॉडल के लिए निर्देश ट्यूनिंग के क्षेत्र में एक महत्वपूर्ण छलांग लगाते हैं।

वेवकोडर: एक फाइन-ट्यून्ड कोड एलएलएम

वेवकोडर एक सुव्यवस्थित कोड भाषा मॉडल (कोड एलएलएम) है जिसे विशेष रूप से निर्देश ट्यूनिंग को बढ़ाने के लिए डिज़ाइन किया गया है। मॉडल विभिन्न कोड-संबंधित कार्यों में बेहतर प्रदर्शन प्रदर्शित करता है, फाइन-ट्यूनिंग के समान स्तर पर अन्य ओपन-सोर्स मॉडल से लगातार बेहतर प्रदर्शन करता है। वेवकोडर की प्रभावशीलता कोड निर्माण, मरम्मत और सारांशीकरण जैसे कार्यों में विशेष रूप से उल्लेखनीय है।

CodeOcean: उन्नत निर्देश ट्यूनिंग के लिए एक समृद्ध डेटासेट

CodeOcean, इस शोध का केंद्रबिंदु, एक सावधानीपूर्वक तैयार किया गया डेटासेट है जिसमें चार महत्वपूर्ण कोड-संबंधित कार्यों में 20,000 अनुदेश उदाहरण शामिल हैं: कोड सारांश, कोड जनरेशन, कोड अनुवाद और कोड मरम्मत। इसका प्राथमिक उद्देश्य सटीक निर्देश ट्यूनिंग के माध्यम से कोड एलएलएम के प्रदर्शन को बढ़ाना है। CodeOcean डेटा गुणवत्ता और विविधता पर ध्यान केंद्रित करके, विभिन्न कोड-संबंधित कार्यों में बेहतर प्रदर्शन सुनिश्चित करके खुद को अलग करता है।

निर्देश ट्यूनिंग के लिए एक नवीन दृष्टिकोण

नवाचार अनुदेश ट्यूनिंग में क्रांति लाने के लिए ओपन-सोर्स कोड से विविध, उच्च-गुणवत्ता वाले अनुदेश डेटा का उपयोग करने की विधि में निहित है। यह दृष्टिकोण निर्देश डेटा निर्माण से जुड़ी चुनौतियों का समाधान करता है, जैसे डुप्लिकेट डेटा की उपस्थिति और डेटा गुणवत्ता पर सीमित नियंत्रण। निर्देश डेटा को चार सार्वभौमिक कोड-संबंधित कार्यों में वर्गीकृत करके और निर्देश डेटा को परिष्कृत करके, शोधकर्ताओं ने फाइन-ट्यून किए गए मॉडल की सामान्यीकरण क्षमताओं को बढ़ाने के लिए एक मजबूत तरीका बनाया है।

डेटा गुणवत्ता और विविधता का महत्व

यह अभूतपूर्व शोध निर्देश ट्यूनिंग में डेटा गुणवत्ता और विविधता के महत्व पर जोर देता है। नया एलएलएम-आधारित जेनरेटर-डिस्क्रिमिनेटर ढांचा स्रोत कोड का लाभ उठाता है, जो पीढ़ी प्रक्रिया के दौरान डेटा गुणवत्ता पर स्पष्ट नियंत्रण प्रदान करता है। यह पद्धति अधिक प्रामाणिक निर्देश डेटा उत्पन्न करने में उत्कृष्टता प्राप्त करती है, जिससे फाइन-ट्यून किए गए मॉडल की सामान्यीकरण क्षमता में सुधार होता है।

वेवकोडर का बेंचमार्क प्रदर्शन

विभिन्न परिदृश्यों में उनकी प्रभावकारिता की पुष्टि करते हुए, विभिन्न डोमेन में वेवकोडर मॉडल का कठोरता से मूल्यांकन किया गया है। ह्यूमनएवल, एमबीपीपी और ह्यूमनएवलपैक सहित कई बेंचमार्क में वे लगातार अपने समकक्षों से आगे रहते हैं। CodeAlpaca डेटासेट के साथ तुलना निर्देश डेटा को परिष्कृत करने और बेस मॉडल के निर्देश-पालन कौशल को बढ़ाने में CodeOcean की श्रेष्ठता पर प्रकाश डालती है।

बाज़ार के लिए निहितार्थ

बाज़ार के लिए, Microsoft के CodeOcean और WaveCoder अधिक सक्षम और अनुकूलनीय कोड भाषा मॉडल के एक नए युग का संकेत देते हैं। ये नवाचार कई अनुप्रयोगों और उद्योगों के लिए बेहतर समाधान प्रदान करते हैं, एलएलएम की सामान्यीकरण क्षमता को बढ़ाते हैं और विभिन्न संदर्भों में उनकी प्रयोज्यता का विस्तार करते हैं।

भविष्य की रूप रेखा

आगे देखते हुए, मॉडल के मोनो-कार्य प्रदर्शन और सामान्यीकरण क्षमता में और सुधार की उम्मीद है। कोड भाषा मॉडल के लिए निर्देश ट्यूनिंग के क्षेत्र को आगे बढ़ाने के लिए विभिन्न कार्यों और बड़े डेटासेट के बीच परस्पर क्रिया फोकस के प्रमुख क्षेत्र होंगे।

निष्कर्ष

माइक्रोसॉफ्ट द्वारा वेवकोडर और कोडओसियन की शुरूआत कोड भाषा मॉडल के विकास में एक महत्वपूर्ण क्षण का प्रतिनिधित्व करती है। निर्देश ट्यूनिंग में डेटा गुणवत्ता और विविधता पर जोर देकर, ये उपकरण अधिक परिष्कृत, कुशल और अनुकूलनीय मॉडल के लिए मार्ग प्रशस्त करते हैं जो कोड-संबंधित कार्यों के व्यापक स्पेक्ट्रम को संभालने के लिए बेहतर ढंग से सुसज्जित हैं। यह शोध न केवल बड़े भाषा मॉडल की क्षमताओं को बढ़ाता है बल्कि विभिन्न उद्योगों में उनके अनुप्रयोग के लिए नए रास्ते भी खोलता है, जो कृत्रिम बुद्धिमत्ता के क्षेत्र में एक महत्वपूर्ण मील का पत्थर है।

छवि स्रोत: शटरस्टॉक

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी