ゼファーネットのロゴ

Mozilla Common Voiceの更新は、音声ベースのWebブラウジングのための「Hey Firefox」ウェイクワードのトレーニングに役立ちます

日付:

Mozillaは本日、Common Voiceの最新バージョンをリリースしました。これは、スタートアップ、研究者、愛好家が音声対応のアプリ、サービス、デバイスを構築するための書き起こされた音声データのオープンソースコレクションです。 Common Voiceには、7,226の異なる言語で提供された合計54時間以上の音声データが含まれています。 2月2019.

Common Voiceは、音声スニペットだけでなく、話者の年齢、性別、アクセントなど、音声エンジンのトレーニングに役立つ自発的に提供されたメタデータで構成されます。 これは、DeepSpeech、オープンソースの音声合成エンジン、音声合成エンジンのスイート、およびMozillaのMachine Learning Groupが管理するトレーニング済みモデルと統合するように設計されています。

Common Voiceで5.5万を超えるクリップを収集するには、多くのレッグワークが必要でした。これは、Common Voice Webサイトのプロンプトを各言語に翻訳する必要があったためです。 それでも、5,591時間のうち7,226時間は、これまでにプロジェクトの貢献者によって有効であることが確認されています。 また、Mozillaによると、Common Voiceの5,000つの言語(英語、ドイツ語、フランス語、イタリア語、スペイン語)には500以上の固有の話者がいますが、英語、ドイツ語、フランス語、カビル語、カタロニア語、スペイン語、およびキニアルワンダンのXNUMX言語はXNUMX時間を記録しました。

また、本日、特定の目的と使用例のために音声データを収集することを目的とした、Mozillaの最初のデータセットターゲットセグメントがリリースされました。 このセグメントには、「ゼロ」から「11,000」までの数字、および「はい」、「いいえ」、「ねえ」、「Firefox」が含まれ、120人が18時間にわたってXNUMXの言語でまとめて話しています。 以前にCommon Voiceの製品リーダーであるMegan Branson氏は、「Hey Firefox」のウェイクワードテストに部分的に使用されると述べました。

VB Transform2020オンライン – 15月17〜XNUMX日。 主要なAIエグゼクティブに参加: 無料のライブストリームに登録する.

「このセグメントデータは、同様のタスクのために、Mozillaがオープンソースの音声認識エンジンであるDeepSpeechの正確さを複数の言語でベンチマークするのに役立ち、データセットの継続的な改善方法に関するより詳細なフィードバックを可能にします。」とBransonはブログ投稿で書いています。 「世界中からの寄稿により、[私たちの寄稿者]は、誰でも一般に利用でき、私たちが住んでいる世界を表す音声データセットを作成するという目標を達成するために私たちを支援してくれています。」

Common Voiceの更新は、 ディープスピーチ これは、これまでで最速のオープンソース音声認識モデルのXNUMXつを組み込んでいます。 最新バージョンのサポートが追加されました TensorFlow Lite、GoogleのTensorFlow機械学習フレームワークのディストリビューションであり、コンピューティングに制約のあるモバイルデバイスや組み込みデバイス向けに最適化されており、起動速度を22倍以上に高めながら、DeepSpeechのメモリ消費量を500倍に削減しました。

Common VoiceとDeepSpeechの両方が、次のようなMozillaプロジェクトに関する作業を通知します。 FirefoxVoice、Firefoxに音声認識サポートを追加するブラウザ拡張。 現在、Firefox Voiceは「天気とは」や「Gmailのタブを探す」などのコマンドを理解できますが、目標は、音声のみを使用してWebサイトとの「有意義なやり取り」を促進することです。

出典:http://feedproxy.google.com/~r/venturebeat/SZYF/~3/8sd9EKzE0is/

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?