जेफिरनेट लोगो

ऑडियो और विज़न एआई पाइपलाइनों के लिए त्वरित विकास - सेमीविकी

दिनांक:

मैंने पहले लिखा था कि यह बहस कि कौन सा सीपीयू दुनिया पर शासन करता है (आर्म बनाम आरआईएससी-वी) कुछ हद तक आधुनिक प्रणालियों में पेड़ों के लिए जंगल की याद दिलाता है। बुद्धिमान ऑडियो और विज़न में यह कहीं अधिक स्पष्ट नहीं है: स्मार्ट डोरबेल, स्पीकर, वॉयस एक्टिवेटेड रिमोट, इंटेलिजेंट ईयरबड, ऑटोमोटिव टकराव से बचाव, सेल्फ-पार्किंग और लाखों अन्य एप्लिकेशन। इनमें से कुछ भी केवल सीपीयू या यहां तक ​​कि सीपीयू के एक बैंक को सीधे एआई इंजन से जोड़ने से संभव नहीं होगा। सीपीयू एक महत्वपूर्ण प्रशासनिक भूमिका निभाते हैं, लेकिन ऑडियो और विज़न-आधारित इंटेलिजेंस-आधारित सिस्टम एआई कोर के आसपास सिग्नल प्रोसेसिंग की जटिल पाइपलाइनों पर निर्भर करते हैं। हालाँकि इन पाइपलाइनों का निर्माण अत्यधिक प्रतिस्पर्धी बाजारों में उत्पाद विकास में महत्वपूर्ण जटिलता और शेड्यूल जोखिम जोड़ सकता है।

ऑडियो और विज़न एआई पाइपलाइनों के विकास में तेजी लाना

एआई पाइपलाइन क्या है?

ऑडियो नमूने एक आयामी लगातार बदलते सिग्नल हैं, छवि सिग्नल समान लेकिन दो आयामी हैं। शोर में कमी के बाद, प्रत्येक को कम से कम उन नमूनों के साथ संगत रूप में स्केल किया जाना चाहिए जिन पर एआई मॉडल को प्रशिक्षित किया गया था। उदाहरण के लिए, एक छवि को ग्रेस्केल में घटाया जा सकता है, क्योंकि रंग प्रशिक्षण और अनुमान लागत में महत्वपूर्ण रूप से जोड़ता है। निम्न और उच्च-आवृत्ति बैंड को खत्म करने के लिए एक ऑडियो सिग्नल को फ़िल्टर किया जा सकता है। समान कारणों से सिग्नल रेंज का आकार बदला जाएगा और औसत किया जाएगा। इन सभी चरणों को डीएसपी पर चलने वाले सॉफ़्टवेयर द्वारा आसानी से नियंत्रित किया जाता है।

पूर्व-प्रसंस्करण का यह स्तर बुनियादी है। पुलिन देसाई (कैडेंस में टेन्सिलिका विज़न, रडार, लिडार और संचार डीएसपी के लिए उत्पाद विपणन और प्रबंधन) ने मुझे उच्च सटीकता को आगे बढ़ाने वाली कुछ हालिया प्रगति से परिचित कराया। उदाहरण के लिए, ध्वनि पहचान भाषण से विशेषताओं को निकालने के लिए एमएफसीसी नामक एक तकनीक का उपयोग करती है जिसे एक साधारण ऑडियो तरंग की तुलना में अधिक सीधे निर्धारक माना जाता है। एक अन्य उदाहरण के रूप में, शोर दमन अब पृष्ठभूमि संगीत भाषण को ओवरराइड करते हुए ध्वनि आदेशों का समर्थन करने या यह सुनिश्चित करने के लिए बुद्धिमत्ता जोड़ता है कि आप आपातकालीन सायरन को न चूकें। इन दोनों मामलों को सिग्नल प्रोसेसिंग द्वारा नियंत्रित किया जाता है, कभी-कभी एआई के छिड़काव के साथ।

वैश्विक मान्यता शक्तियों के साथ उभरते दृष्टि ट्रांसफार्मर अब गर्म हैं और मल्टीस्केल-आधारित छवि पहचान की ओर बढ़ रहे हैं जहां एक छवि कम रिज़ॉल्यूशन वाली उत्तरोत्तर कम छवियों के पिरामिड में टूट जाती है। अधिक पूर्व-अनुमान संभावनाएं हैं और फिर (अंततः) वास्तविक अनुमान चरण (सीएनएन, ट्रांसफार्मर, या अन्य विकल्प) चलेगा। अनुमान के बाद, प्रसंस्करण के बाद के चरण सक्रिय होने चाहिए; इनमें गैर-अधिकतम दमन (एनएमएस), छवि को तेज करना या वाक् वृद्धि शामिल हो सकती है। संभवतः पाइपलाइन वर्गीकरण के लिए एक अतिरिक्त अनुमान चरण भी चला सकती है। यह स्पष्ट है कि ऐसी प्रक्रिया को एक पाइपलाइन के रूप में क्यों देखा जाता है - मूल छवि या ध्वनि से कई कदम, ज्यादातर सिग्नल प्रोसेसिंग डीएसपी पर चलने वाले सॉफ्टवेयर के माध्यम से पूरा किया जाता है।

जिस तरह एआई मॉडल विकसित होते रहते हैं, पाइपलाइन एल्गोरिदम भी विकसित होते रहते हैं। किसी उत्पाद ओईएम के लिए इन जटिल पाइपलाइनों को 18-24 महीनों के भीतर जारी करने के लिए विकसित करना और बनाए रखना संभव होना चाहिए और उत्पादों को 5 साल या उससे अधिक के उत्पाद जीवन के लिए प्रतिस्पर्धी बनाए रखना संभव होना चाहिए। मूल बात यह है कि इन लक्ष्यों को पूरा करने के लिए ओईएम को डीएसपी सॉफ्टवेयर के विकास और रखरखाव में सरलीकरण और तेजी लाने की आवश्यकता है।

विकास प्रवाह को सुव्यवस्थित करना

टेन्सिलिका पोर्टफोलियो पहले से ही ऑडियो, वॉयस और विज़न में एक व्यापक साझेदारी पारिस्थितिकी तंत्र द्वारा समर्थित है, जिसे पाइपलाइन कार्यान्वयन को पूरा करने में आवश्यक सहायता प्रदान करनी चाहिए। स्वाभाविक रूप से ओईएम अपने स्वयं के एल्गोरिदम के माध्यम से चुनिंदा रूप से अंतर करना चाहेंगे जहां उपयुक्त हो और यहां हाल की प्रगति विशेष रूप से महत्वपूर्ण हो जाती है।

पहला और सबसे अधिक ध्यान खींचने वाला ऑटो-वेक्टराइजेशन है। आप डीएसपी के लिए सॉफ्टवेयर उसी तरह लिखते हैं जैसे आप सीपीयू के लिए सॉफ्टवेयर लिखते हैं, सिवाय इसके कि आप व्यापक वेक्टर गणनाओं में तेजी लाने के लिए डीएसपी का पूरा लाभ उठा सकते हैं। पहले, इस क्षमता का पूरी तरह से दोहन करने के लिए सॉफ्टवेयर लिखने के लिए वेक्टराइजेशन के लिए मैन्युअल कोडिंग में विशेष विशेषज्ञता की आवश्यकता होती थी, जिससे विकास और उन्नयन में बाधा उत्पन्न होती थी।

ऑटो-वेक्टराइजेशन का लक्ष्य इस कार्य को स्वचालित करना है। प्रकाश माधवपति (कैडेंस में टेन्सिलिका ऑडियो/वॉयस डीएसपी के लिए उत्पाद विपणन और प्रबंधन के निदेशक) ने मुझे बताया कि इस पुशबटन को बनाने के लिए डेवलपर को कुछ दिशानिर्देशों का पालन करना होगा, लेकिन इन दिशानिर्देशों पर लिखा गया कोड सीपीयू पर समान रूप से अच्छी तरह से (हालांकि धीमा) काम करता है। . उन्होंने विभिन्न उद्योग मानक अनुप्रयोगों पर परीक्षण चलाए हैं और पाया है कि कंपाइलर हाथ से कोड किए गए सॉफ़्टवेयर के समान ही कार्य करता है। इस प्रकार ऑटो-वेक्टराइजेशन विकास की बाधाओं को कम करने में मदद करने के लिए व्यापक दर्शकों के लिए डीएसपी एल्गोरिदम विकास को खोलता है।

अगला महत्वपूर्ण सुधार जहां आवश्यक हो वहां डबल-प्रिसिजन फ़्लोटिंग पॉइंट का समर्थन करता है। दोहरी परिशुद्धता एज अनुप्रयोगों के लिए ओवरकिल की तरह लग सकती है, हालांकि एमएफसीसी और सॉफ्टमैक्स जैसे नए एल्गोरिदम अब एक्सपोनेंशियल और लॉग जैसे फ़ंक्शंस का उपयोग कर रहे हैं जो सिंगल-पॉइंट फ्लोट्स को जल्दी से ओवरफ्लो/अंडरफ्लो कर देंगे। डबल पॉइंट परिशुद्धता बनाए रखने में मदद करता है, यह सुनिश्चित करते हुए कि डेवलपर डेटासेंटर-आधारित सॉफ़्टवेयर डेवलपमेंट प्लेटफ़ॉर्म से पोर्ट करते समय विशेष हैंडलिंग की आवश्यकता से बच सकता है।

एक और महत्वपूर्ण सुधार आईडीएमए में 40-बिट पते के लिए समर्थन है, जो सिस्टम को विशेष कोड के माध्यम से डेवलपर को पता ऑफसेट प्रबंधित करने की आवश्यकता के बिना 1 टीबी मेमोरी तक सीधे संबोधित करने की अनुमति देता है। ऐसा लगता है कि किसी एज डिवाइस के लिए बहुत अधिक मेमोरी है लेकिन आपको केवल ऑटोमोटिव अनुप्रयोगों पर विचार करने की आवश्यकता है ताकि यह महसूस किया जा सके कि कुछ अनुप्रयोगों में ऐसे आकार आम होते जा रहे हैं। डेटासेंटर प्लेटफ़ॉर्म से पोर्ट करते समय व्यापक पता सीमा अधिक सरलीकरण भी प्रदान करती है।

उत्पाद संवर्द्धन और उपलब्धता

सभी मौजूदा DSPs को Tensilica Xtensa LX8 प्लेटफ़ॉर्म पर पोर्ट किया गया है जो L2 कैश विकल्प के साथ उपरोक्त सभी अग्रिमों का समर्थन करता है, बढ़ी हुई शाखा भविष्यवाणी यह ​​पहचानती है कि इंटरमिक्स्ड नियंत्रण और वेक्टर कोड अधिक सामान्य होता जा रहा है, प्रत्येक कोर के लिए सीधा AXI4 कनेक्शन और विस्तारित इंटरप्ट सहायता।

कैडेंस ने हाल ही में दो नए टेन्सिलिका ऑडियो डीएसपी (हाईफाई 1एस और हाईफाई 5एस) और दो नए विजन डीएसपी (विजन 110 और विजन 130) जारी किए हैं, जो सभी एलएक्स8 प्लेटफॉर्म पर आधारित हैं। इनमें प्रदर्शन और शक्ति के लिए कई सुधार शामिल हैं, लेकिन मैं यहां सॉफ्टवेयर विकास को सरल बनाने और तेज करने के लिए सुधारों पर विशेष रूप से ध्यान केंद्रित करना चाहता हूं।

विज़न 130/100 डीएसपी ऑन-द-फ्लाई डीकंप्रेसन का समर्थन करते हैं, जैसा कि एक में बताया गया है पहले का ब्लॉग. इसमें उच्च fmax, उच्च फ़्लोटिंग-पॉइंट प्रदर्शन, तेज़ FFTs और फ़्लोटिंग पॉइंट कॉम्प्लेक्स प्रकारों के लिए समर्थन जोड़ें, जो मानक DSP बेंचमार्क पर 5X प्रदर्शन सुधार और AI बेंचमार्क पर 3.5X तक सुधार प्रदान करते हैं। ये नए विज़न प्रोसेसर अब उपलब्ध हैं।

ऑडियो HiFi 1s और 5s DSPs डबल प्रिसिजन XCLIB फ़ंक्शंस पर 35X तक सुधार, बेहतर शाखा भविष्यवाणी के माध्यम से 5-15% कोडेक प्रदर्शन और L50 कैश के कारण 2% तक बेहतर प्रदर्शन प्रदान करते हैं। इन नए DSP प्रोसेसर के दिसंबर 2023 तक उपलब्ध होने की उम्मीद है। (मुझे यह भी कहना चाहिए कि HiFi 1s, हालांकि एक ऑडियो DSP है, इसमें अल्ट्रा-लो पावर वीडियो वेक-अप को भी संभालने की पर्याप्त क्षमता है। बहुत बढ़िया!)

आप HiFi DSPs के बारे में अधिक जान सकते हैं यहाँ और विज़न डीएसपी यहाँ. आपको यह भी जांचना चाहिए श्वेत पत्र हमारी बहादुर नई एआई दुनिया में डीएसपी के महत्व पर।

यह भी पढ़ें:

कैडेंस से नई एसटीए सुविधाएँ

प्रभावी मिश्रित सिग्नल मॉडल का विकास करना। सत्यापन में नवाचार

एलएलएम के माध्यम से अभिकथन संश्लेषण। सत्यापन में नवाचार

इस पोस्ट को इसके माध्यम से साझा करें:

स्पॉट_आईएमजी

नवीनतम खुफिया

स्पॉट_आईएमजी