Hey millet!
Bu yazıda, Python ile Speech to Text ve Text to Speech Modeli uygulayarak Konuşma Tanıma ve uygulamasını tartışacağız. Konuşma Tanıma, Konuşma Metni dönüştürme veya sadece Ses Tanıma olarak da bilinir. Bu, bilgisayarların insan dilini anlamasını sağlama tekniğidir. Amazon'un Alexa apple'ının Siri'sinin ve google'ın sesli asistanının bizimle nasıl konuştuğunu ve dilimizi anladığını hiç merak ettiniz mi, bu Konuşma Tanıma tarafından yapılır?
İçerik Tablosu
- Konuşma Tanıma Arkasındaki Temel Fikir
- Speech2Text Modelini Uygulama
- text2speech Modelini uygulama
- Dil Çeviri
TANITIM
Konuşma Tanıma, NLP'de çok önemli bir görevdir. Konuşma Tanıma, bilgisayarların konuşmamızı anlamasını sağlayan tek araçtır. Bildiğimiz gibi bilgisayarlar, çeşitli özellik çıkarma tekniklerini uygulayarak metni özelliklere (sayısal özellikler) dönüştürerek yazılı bir metni kolayca anlayabilir.
Buradaki fikir, sözlü konuşmayı metne dönüştürmek ve ardından bilgisayarlara beslemektir.
Konuşma Tanıma'nın çok sayıda uygulaması vardır, bazı önemli uygulamalar şunlardır:
- Bedensel engelliler için projeler yapmak için çok kullanışlıdır.
- Konuşan bir Bot tasarlamak
- Konuşmayı Kullanan Dil Tercümanı
- Rahatsız edici konuşma algılama
- Sesli komutlar üzerinde çalışan Akıllı Araçlar
- Askeri Ekipmanlar
Konuşmayı Metne Dönüştürme
Günümüzde bilgisayarlar ve akıllı cihazlarla etkileşim sese yöneliyor. Sesli Komutlar üzerinde çalışan cihazlar hızlı etkilidir ve daha akıllı olmaları gerekir. Makineler bazı özellik çıkarma tekniklerini uygulayarak metni anlayabildiğinden, amacımız herhangi bir konuşmayı metne dönüştürmektir.
İş Sorunu
Konuşmayı metne dönüştürmek istiyoruz
Çözüm
konuşmayı metne dönüştürmek için kullanılabilecek çeşitli teknolojiler vardır, ancak PyAudio çok kolay ve verimli bir uygulama sağlar.
Python Kullanarak Uygulama
kitaplıkları yükleme
!pip SpeechRecognition'ı kurun !pip PyAudio'yu kurun
# pip install PyAudio hata veriyorsa deneyin: !conda pyaudio kurulumunu yapın
PyAudio Python ile bir ses dosyasını kaydetmek ve oynatmak için kullanılır. python ile mikrofonu etkinleştirir
Konuşma tanıma bir AudioData örneğini alır ve onu metne dönüştürür. bu, Google Konuşma Tanıma API'sini kullanarak çevrimiçi olarak çalışır.
konuşma_recognition'ı sr r=sr.Recognizer() ve kaynak olarak sr.Microphone() olarak içe aktar: print("Lütfen bir şey söyle") audio = r.listen(kaynak) print("Zaman doldu, teşekkürler") deneyin: print(" Dedin ki: "+r.recognize_google(audio,language = 'en-US')); hariç: geçmek
Çıktı
Lütfen bir şeyler söyleyin Zaman geçti, teşekkürler dediniz: Bu, NLP tarafından yapılan Konuşma Tanımadır
sr.Recognizer()
bir tanıyıcı örneğidir
recognizer_instance.recognize_google(audio_data,language = “en-US”)
- Konuştuğumuz dili parametreleri değiştirerek değiştirebiliriz. varsayılan dil olarak ayarlandı
‘en-US’
- HINDI'yı tanımak istiyorsanız, yalnızca dil parametresini değiştirmemiz gerekir.
recognize_google(audio, language =’hi-IN’))
Metinden Konuşmaya Tanıma
Bilgisayarın bir metni insan gibi okumasını sağlayan TTS(Text to Speech) arayüzü. buna da denir yüksek sesle oku teknoloji.
Gerçek dünyada, TTS sisteminin sayısız uygulamasını görebiliriz. bu, insanlarla etkileşime girebilen akıllı cihazlar yapmak için yaygın olarak kullanılmaktadır.
TTS sisteminin bazı önemli uygulamaları vardır:
- Görmeyen ama dinleyebilen körler için cihazlar. OCR (Optik Karakter Tanıma) kullanarak metin okuyabilen ve metin okuma özelliğini kullanarak sesli okuyabilen bir cihaz.
- Akıllı Cihazlar ve Sesli Asistanlar
- Text to Speech, fiziksel engelliler için çok faydalı oluyor, yani cep telefonlarında, bilgisayarlarda görme engelli insanlara rehberlik etmek için kullanılabilir.
Sorun
Belirli bir metni insan sesiyle okuyabilen bir sistem oluşturmak istiyoruz.
Çözüm
Text2Speech gerçekleştirmenin birden fazla yolu olabilir, ancak en kolay ve en etkili yol, aşağıdakileri kullanarak Google'ın API'sini kullanmaktır. gTTS
kütüphane
Python kullanarak uygulama
- Takma
gTTS
kütüphane
!pip gTTS'yi kurun
- Kurduktan sonra
gTTS
yükleyelim ve onunla çalışalım
gtts'den import gTTS input_text = "NLP'yi seviyorum ve şimdi bu makine sesi" convert = gTTS(text= input_text, lang='tr', slow=Yanlış)
- Dönüştürülen sesi bir mp3 dosyasına kaydetme
convert.save('audio.mp3')
audio.mp3 çalarsan dinlersin “NLP'yi seviyorum ve şimdi bu makine sesi” bir insan sesinde.
parametreleri kullanarak sesi değiştirmek ve ses hızını kontrol etmek için kullanılan bazı parametreler vardır. Daha fazla bilgi için buna bakın Link.
Dil Çeviri
Speech to Text ve Text to Speech'i tartıştık, şimdi python kullanarak dil çevirisi hakkında konuşacağız
Bu 3 teknolojiyi kullanarak, Konuşmayı alan ve onu istenen dilin Konuşmasına dönüştüren kendi Dil Tercümanımızı oluşturabiliriz.
Hepimizin bildiği gibi, günümüzde dil çevirisi yaygın olarak kullanılmaktadır. dil çevirisi, dili konuşma, metin ve resimler şeklinde alabilir.
Google'ın Dil Tercüman sistemi en yaygın olarak kullanılır ve hemen hemen her ana dili destekler.
Google'ın Dil Tercümanı, diğer tercüman modellerine kıyasla çok sağlam olmasını sağlayan Dikkat katmanları tarafından desteklenir.
Sorun
Belirli bir metni istenen dile çevirebilen bir Model oluşturun
Çözüm
Projeniz için dil çevirisini uygulamanın en etkili ve en kolay yolu kütüphaneyi kullanmaktır. goslate
arka uçta Google'ın Çevirmen API'sini kullanarak çalışan
goslate
google çeviri web sitesini sorgulayarak bize python API'sini google çeviri hizmetine sunar.
Python kullanarak Dil Tercümanı Uygulamak
- Yükleme ve içe aktarma
goslate
!pip yükleme goslate ithalat goslate
- Çevirmen işlevi oluşturma
text = "Bonjour le monde" gs = goslate.Goslate() translateText = gs.translate(text,'en') print(translatedText)
Çıktı
Merhaba Dünya
goslate.Goslate()
bir çevirmen örneğidir- dili dil parametreleriyle değiştirebiliriz
goslate
dili algılamak için de kullanılabilir. Goslate.detect(‘text’)
metnin dilini döndürür.
gs.detect('hallo welt')
bir dizi metin ileterek eşzamanlı metni de sorgulayabiliriz. .translate()
yöntemi.
Daha ayrıntılı belgeler için
goslate
buna bakın bağlantı.
Kullanım ÇÖZÜMLER
- Ahududu pi gibi düşük kaliteli bilgisayar cihazlarını kullanarak metni okuyabilen ve yüksek sesle okuyabilen bir cihaz oluşturabilirsiniz. bu, okuyamayan veya az gören kör insanlar için gerçekten yararlı olabilir.
- Bu kitaplıkları kullanarak, ahududu pi gibi düşük kaliteli bir bilgisayar kullanarak konuşmayı alıp tekrar konuşmaya çevirebilen bir Çevirmen cihazı oluşturabilirsiniz. Bu, text2speech, dil çevirisi ve konuşma2text kullanılarak yapılabilir. Ayrıca dil çevirisi için karakter tanıma için OCR uygulayabiliriz (resimden metne). Bu tür cihazların oluşturulması kolaydır ve portföy vitrini için harikadır.
NLP'nin Endüstri Uygulamaları
Doğal dil işlemenin temelleri konusunda rahat olduğunuza, bazı temel NLP görevlerini zaten uyguladığınıza ve NLP kullanarak gerçek dünyadaki bazı iş sorunlarını çözmeye hazır olduğunuza inanıyorum.
Sonraki Yazımızda NLP'nin Endüstri Uygulamalarını Uygulayacağız yani.
- Tüketici şikayet sınıflandırması
- Kayıt bağlantısını kullanarak veri birleştirme
- Konu notları için metin özeti
- Belge kümeleme
- Arama motoru ve sıralamayı öğrenme
Bu Görevler, bu uygulamaları oluştururken yararlanılacak bazı NLP kavramlarını içerir. NLP'nin endüstri uygulamaları hakkında uçtan uca bir rehber olacak bir sonraki makalem için Bizi Takipte Kalın
EndNote
Bu yazıda, konuşma2text kullanarak (pyaudio
, konuşma tanıma) ve python'da uygulandı. sonra kütüphaneyi kullanarak text2speech'i ele aldık gTTS
bu sadece arka uçta google'ın text2speech API'sini sorgular. sonra kütüphaneyi kullanarak Dil Çevirisini ele aldık goslate
bu, arka uçta yine Google'ın Çevirmen API'si tarafından desteklenir.
Dönüştürme hakkında daha fazla makale okuyun konuşma metni konular.
Benim için herhangi bir öneriniz veya sorunuz varsa, bana ulaşmaktan çekinmeyin. Linkedin.
Bu makalede gösterilen medya Analytics Vidhya'ya ait değildir ve Yazarın takdirine bağlı olarak kullanılır.
İlgili bağlantılar
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://www.analyticsvidhya.com/blog/2022/01/an-end-to-end-guide-on-converting-text-to-speech-and-speech-to-text/