Zephyrnet Logosu

Metni Konuşmaya ve Konuşmayı Metne Dönüştürme Üzerine Uçtan Uca Kılavuz

Tarih:

Hey millet!

Bu yazıda, Python ile Speech to Text ve Text to Speech Modeli uygulayarak Konuşma Tanıma ve uygulamasını tartışacağız. Konuşma Tanıma, Konuşma Metni dönüştürme veya sadece Ses Tanıma olarak da bilinir. Bu, bilgisayarların insan dilini anlamasını sağlama tekniğidir. Amazon'un Alexa apple'ının Siri'sinin ve google'ın sesli asistanının bizimle nasıl konuştuğunu ve dilimizi anladığını hiç merak ettiniz mi, bu Konuşma Tanıma tarafından yapılır?

İçerik Tablosu

  1. Konuşma Tanıma Arkasındaki Temel Fikir
  2. Speech2Text Modelini Uygulama
  3. text2speech Modelini uygulama
  4. Dil Çeviri

TANITIM

Konuşma Tanıma, NLP'de çok önemli bir görevdir. Konuşma Tanıma, bilgisayarların konuşmamızı anlamasını sağlayan tek araçtır. Bildiğimiz gibi bilgisayarlar, çeşitli özellik çıkarma tekniklerini uygulayarak metni özelliklere (sayısal özellikler) dönüştürerek yazılı bir metni kolayca anlayabilir.

Buradaki fikir, sözlü konuşmayı metne dönüştürmek ve ardından bilgisayarlara beslemektir.

Konuşma Tanıma'nın çok sayıda uygulaması vardır, bazı önemli uygulamalar şunlardır:

  • Bedensel engelliler için projeler yapmak için çok kullanışlıdır.
  • Konuşan bir Bot tasarlamak
  • Konuşmayı Kullanan Dil Tercümanı
  • Rahatsız edici konuşma algılama
  • Sesli komutlar üzerinde çalışan Akıllı Araçlar
  • Askeri Ekipmanlar

Konuşmayı Metne Dönüştürme

Günümüzde bilgisayarlar ve akıllı cihazlarla etkileşim sese yöneliyor. Sesli Komutlar üzerinde çalışan cihazlar hızlı etkilidir ve daha akıllı olmaları gerekir. Makineler bazı özellik çıkarma tekniklerini uygulayarak metni anlayabildiğinden, amacımız herhangi bir konuşmayı metne dönüştürmektir.

İş Sorunu

Konuşmayı metne dönüştürmek istiyoruz

Çözüm

konuşmayı metne dönüştürmek için kullanılabilecek çeşitli teknolojiler vardır, ancak PyAudio çok kolay ve verimli bir uygulama sağlar.

Python Kullanarak Uygulama

kitaplıkları yükleme

!pip SpeechRecognition'ı kurun !pip PyAudio'yu kurun
# pip install PyAudio hata veriyorsa deneyin: !conda pyaudio kurulumunu yapın

PyAudio Python ile bir ses dosyasını kaydetmek ve oynatmak için kullanılır. python ile mikrofonu etkinleştirir

Konuşma tanıma bir AudioData örneğini alır ve onu metne dönüştürür. bu, Google Konuşma Tanıma API'sini kullanarak çevrimiçi olarak çalışır.

konuşma_recognition'ı sr r=sr.Recognizer() ve kaynak olarak sr.Microphone() olarak içe aktar: print("Lütfen bir şey söyle") audio = r.listen(kaynak) print("Zaman doldu, teşekkürler") deneyin: print(" Dedin ki: "+r.recognize_google(audio,language = 'en-US')); hariç: geçmek

Çıktı

Lütfen bir şeyler söyleyin Zaman geçti, teşekkürler dediniz: Bu, NLP tarafından yapılan Konuşma Tanımadır
  • sr.Recognizer() bir tanıyıcı örneğidir

recognizer_instance.recognize_google(audio_data,language = “en-US”)

  • Konuştuğumuz dili parametreleri değiştirerek değiştirebiliriz. varsayılan dil olarak ayarlandı ‘en-US’
  • HINDI'yı tanımak istiyorsanız, yalnızca dil parametresini değiştirmemiz gerekir. recognize_google(audio, language =’hi-IN’))

Metinden Konuşmaya Tanıma

Bilgisayarın bir metni insan gibi okumasını sağlayan TTS(Text to Speech) arayüzü. buna da denir yüksek sesle oku teknoloji.

Gerçek dünyada, TTS sisteminin sayısız uygulamasını görebiliriz. bu, insanlarla etkileşime girebilen akıllı cihazlar yapmak için yaygın olarak kullanılmaktadır.

TTS sisteminin bazı önemli uygulamaları vardır:

  1. Görmeyen ama dinleyebilen körler için cihazlar. OCR (Optik Karakter Tanıma) kullanarak metin okuyabilen ve metin okuma özelliğini kullanarak sesli okuyabilen bir cihaz.
  2. Akıllı Cihazlar ve Sesli Asistanlar
  3. Text to Speech, fiziksel engelliler için çok faydalı oluyor, yani cep telefonlarında, bilgisayarlarda görme engelli insanlara rehberlik etmek için kullanılabilir.

Sorun

Belirli bir metni insan sesiyle okuyabilen bir sistem oluşturmak istiyoruz.

Çözüm

Text2Speech gerçekleştirmenin birden fazla yolu olabilir, ancak en kolay ve en etkili yol, aşağıdakileri kullanarak Google'ın API'sini kullanmaktır. gTTS kütüphane

Python kullanarak uygulama

  • Takma gTTS kütüphane
!pip gTTS'yi kurun
  • Kurduktan sonra gTTS yükleyelim ve onunla çalışalım
gtts'den import gTTS input_text = "NLP'yi seviyorum ve şimdi bu makine sesi" convert = gTTS(text= input_text, lang='tr', slow=Yanlış)
  • Dönüştürülen sesi bir mp3 dosyasına kaydetme
convert.save('audio.mp3')

audio.mp3 çalarsan dinlersin “NLP'yi seviyorum ve şimdi bu makine sesi” bir insan sesinde.

parametreleri kullanarak sesi değiştirmek ve ses hızını kontrol etmek için kullanılan bazı parametreler vardır. Daha fazla bilgi için buna bakın Link.

Dil Çeviri

Speech to Text ve Text to Speech'i tartıştık, şimdi python kullanarak dil çevirisi hakkında konuşacağız

Bu 3 teknolojiyi kullanarak, Konuşmayı alan ve onu istenen dilin Konuşmasına dönüştüren kendi Dil Tercümanımızı oluşturabiliriz.

Hepimizin bildiği gibi, günümüzde dil çevirisi yaygın olarak kullanılmaktadır. dil çevirisi, dili konuşma, metin ve resimler şeklinde alabilir.

Google'ın Dil Tercüman sistemi en yaygın olarak kullanılır ve hemen hemen her ana dili destekler.

Google'ın Dil Tercümanı, diğer tercüman modellerine kıyasla çok sağlam olmasını sağlayan Dikkat katmanları tarafından desteklenir.

Sorun

Belirli bir metni istenen dile çevirebilen bir Model oluşturun

Çözüm

Projeniz için dil çevirisini uygulamanın en etkili ve en kolay yolu kütüphaneyi kullanmaktır. goslatearka uçta Google'ın Çevirmen API'sini kullanarak çalışan

goslate google çeviri web sitesini sorgulayarak bize python API'sini google çeviri hizmetine sunar.

Python kullanarak Dil Tercümanı Uygulamak

  • Yükleme ve içe aktarma goslate
!pip yükleme goslate ithalat goslate
  • Çevirmen işlevi oluşturma
text = "Bonjour le monde" gs = goslate.Goslate() translateText = gs.translate(text,'en') print(translatedText)

Çıktı

Merhaba Dünya
  • goslate.Goslate() bir çevirmen örneğidir
  • dili dil parametreleriyle değiştirebiliriz

goslate dili algılamak için de kullanılabilir. Goslate.detect(‘text’) metnin dilini döndürür.

gs.detect('hallo welt')

bir dizi metin ileterek eşzamanlı metni de sorgulayabiliriz. .translate() yöntemi.

Daha ayrıntılı belgeler için goslate buna bakın bağlantı.

Kullanım ÇÖZÜMLER

  • Ahududu pi gibi düşük kaliteli bilgisayar cihazlarını kullanarak metni okuyabilen ve yüksek sesle okuyabilen bir cihaz oluşturabilirsiniz. bu, okuyamayan veya az gören kör insanlar için gerçekten yararlı olabilir.
  • Bu kitaplıkları kullanarak, ahududu pi gibi düşük kaliteli bir bilgisayar kullanarak konuşmayı alıp tekrar konuşmaya çevirebilen bir Çevirmen cihazı oluşturabilirsiniz. Bu, text2speech, dil çevirisi ve konuşma2text kullanılarak yapılabilir. Ayrıca dil çevirisi için karakter tanıma için OCR uygulayabiliriz (resimden metne). Bu tür cihazların oluşturulması kolaydır ve portföy vitrini için harikadır.

NLP'nin Endüstri Uygulamaları

Doğal dil işlemenin temelleri konusunda rahat olduğunuza, bazı temel NLP görevlerini zaten uyguladığınıza ve NLP kullanarak gerçek dünyadaki bazı iş sorunlarını çözmeye hazır olduğunuza inanıyorum.

Sonraki Yazımızda NLP'nin Endüstri Uygulamalarını Uygulayacağız yani.

  • Tüketici şikayet sınıflandırması
  • Kayıt bağlantısını kullanarak veri birleştirme
  • Konu notları için metin özeti
  • Belge kümeleme
  • Arama motoru ve sıralamayı öğrenme

Bu Görevler, bu uygulamaları oluştururken yararlanılacak bazı NLP kavramlarını içerir. NLP'nin endüstri uygulamaları hakkında uçtan uca bir rehber olacak bir sonraki makalem için Bizi Takipte Kalın

EndNote

Bu yazıda, konuşma2text kullanarak (pyaudio, konuşma tanıma) ve python'da uygulandı. sonra kütüphaneyi kullanarak text2speech'i ele aldık gTTSbu sadece arka uçta google'ın text2speech API'sini sorgular. sonra kütüphaneyi kullanarak Dil Çevirisini ele aldık goslate bu, arka uçta yine Google'ın Çevirmen API'si tarafından desteklenir.

Dönüştürme hakkında daha fazla makale okuyun konuşma metni konular.

Benim için herhangi bir öneriniz veya sorunuz varsa, bana ulaşmaktan çekinmeyin. Linkedin.

Bu makalede gösterilen medya Analytics Vidhya'ya ait değildir ve Yazarın takdirine bağlı olarak kullanılır. 

spot_img

En Son İstihbarat

spot_img