ゼファーネットのロゴ

IBM の新しい Watson Large Speech Model により、生成 AI が電話機に導入 – IBM ブログ

日付:


IBM の新しい Watson Large Speech Model により、生成 AI が電話機に導入 – IBM ブログ



リビングルームの机に座り、電話を手に微笑みながら、もう一方の手はラップトップを持っている人

生成 AI は、その驚くべきテキストおよび画像生成機能を通じて私たちの日常用語集に登場し、企業の中核的なビジネス機能の処理方法における革命として期待されているため、ほとんどの人は大規模言語モデル (LLM) について聞いたことがあるでしょう。今、これまで以上に、 会話 チャット インターフェイスを通じて AI に接続したり、AI に特定のタスクを実行させたりすることは、具体的な現実です。このテクノロジーを導入して、個人や消費者としての日常体験にプラスの影響を与えるために、大きな進歩が見られます。

しかし、音声の世界ではどうでしょうか? LLM は、強化された生成 AI チャット機能の触媒として非常に注目されているため、音声ベースの会話エクスペリエンスに LLM をどのように適用できるかについて話している人は多くありません。現在、現代のコンタクト センターは、厳格な会話エクスペリエンスによって支配されています (はい、自動音声応答 (IVR) が依然として標準です)。大規模音声モデル (LSM) の世界に入りましょう。はい、 LLM 生成 AI から期待できる利点と可能性を備えた、より積極的ないとこがありますが、今回は顧客が電話でアシスタントと対話できるようになります。 

過去数か月間、IBM watsonx 開発チームと IBM Research は、新しい最先端の大規模音声モデル (LSM) の開発に熱心に取り組んできました。 変圧器技術に基づく, LSM は音声認識の精度を実現するために、膨大な量のトレーニング データとモデル パラメーターを必要とします。セルフサービス電話アシスタントやリアルタイムの通話文字起こしなどのカスタマー ケアのユースケース専用に構築された当社の LSM は、すぐに使用できる高度な文字起こしを提供し、シームレスな顧客エクスペリエンスを実現します。

英語と日本語での新しい LSM の導入を発表できることを大変うれしく思います。現在利用可能です。 クローズドベータ版のみ Watson Speech to Text および watsonx Assistant 電話の顧客向け。

これらのモデルがどれほど素晴らしいかについてはいくらでも語れますが、結局のところ、それは次のとおりです。 パフォーマンス。内部ベンチマークに基づくと、新しい LSM はこれまでで最も正確な音声モデルであり、短文英語のユースケースでは OpenAI の Whisper モデルを上回っています。電話での実際の顧客の 42 つのユースケースにわたって、英語 LSM の初期状態のパフォーマンスを OpenAI の Whisper モデルと比較したところ、IBM LSM の単語誤り率 (WER) は、IBM LSM の Word Error Rate (WER) よりも 1% 低いことがわかりました。 Whisper モデル (評価方法については脚注 (XNUMX) を参照)。

また、IBM の LSM は Whisper モデルよりも 5 分の 5 小さい(パラメーターが 10 分の 30 少ない)ため、同じハードウェア上で実行するとオーディオの処理が 30 倍速くなります。ストリーミングの場合、LSM はオーディオが終了すると処理を終了します。一方、Whisper はオーディオをブロック モード (たとえば、12 秒間隔) で処理します。例を見てみましょう。30 秒未満、たとえば 12 秒のオーディオ ファイルを処理する場合、Whisper は無音部分を埋め込みますが、処理にはまだ XNUMX 秒かかります。 IBM LSM は、XNUMX 秒間の音声が完了した後に処理します。

これらのテストは、LSM が短い形式で非常に正確であることを示しています。しかし、それだけではありません。また、LSM は、以下のグラフに示すように、長い形式のユースケース (通話分析や通話要約など) において Whisper の精度と同等のパフォーマンスを示しました。

これらのモデルを使い始めるにはどうすればよいでしょうか?

クローズド ベータ ユーザー プログラムにお申し込みいただければ、製品管理チームが電話のスケジュールを設定するためにご連絡いたします。IBM LSM はクローズド ベータ版であるため、一部の機能はまだ開発中です。2.

今すぐサインアップして LSM を探索してください


1 ベンチマークの方法論:

  • 比較用のウィスパーモデル: ミディアム.jp
  • 評価対象言語: アメリカ英語
  • 比較に使用される指標: 一般に WER として知られる単語エラー率は、編集エラー (置換、削除、挿入) の数を参照/人間の書き起こしの単語数で割ったものとして定義されます。
  • スコアリングの前に、すべてのマシンのトランスクリプトはウィスパーノーマライザーを使用して正規化され、WER の不一致を引き起こす可能性のある形式の違いが排除されました。

2 IBM の計画、方向性、意図に関する声明は、IBM の独自の裁量により、予告なく変更または撤回される場合があります。潜在的な将来の製品に関して言及されている情報は、マテリアル、コード、または機能を提供するという確約、約束、または法的義務ではありません。将来の機能の開発、リリース、およびタイミングは、引き続き IBM の独自の裁量に委ねられます。


人工知能の詳細




知っておくべき 5 つの機械学習の種類

5 分読みます機械学習 (ML) テクノロジーは、医療から人事、金融に至るまで、事実上すべての業界で意思決定を推進でき、またコンピューター ビジョン、大規模言語モデル (LLM)、音声認識、自動運転車などの無数のユースケースでも意思決定を推進できます。ただし、ML の影響力の増大には複雑さが伴います。 ML テクノロジーの基盤となる検証データセットとトレーニング データセットは人間によって集約されることが多く、人間はバイアスを受けやすく、間違いを犯しやすいものです。 ML モデル自体にバイアスがない場合でも…




成功した組織が従うべき顧客サービスのトレンド

4 分読みます最新の顧客サービスのトレンドに注意を払うことで、組織は変化する顧客の期待に応える準備ができています。 新型コロナウイルス感染症のパンデミック、社会的影響、ブランドの切り替えの容易さなどにより、顧客ロイヤルティは低下しつつある。 組織は顧客満足度を向上させ、高まる顧客ニーズに応えるために、顧客サービス エクスペリエンスの変化をこれまで以上に把握する必要があります。 19 年の Gartner 調査によると、リーダーの 2023% がビジネスの成長を最も重要な目標の 58 つと認識していることがわかりました。




知っておくべき XNUMX つのオープンソース AI ツール

5 分読みますオープンソースの人工知能 (AI) とは、ソース コードが誰でも自由に使用、変更、配布できる AI テクノロジを指します。 AI アルゴリズム、事前トレーニングされたモデル、データ セットが一般公開や実験に利用できるようになると、ボランティア愛好家のコミュニティが既存の成果を基にして、実用的な AI ソリューションの開発を加速するにつれて、創造的な AI アプリケーションが出現します。結果として、これらのテクノロジーは、多くの企業のユースケースにわたる複雑な課題に対処するための最良のツールにつながることがよくあります。




IBM Tech Now: 11 年 2023 月 XNUMX 日

<1 分読みますIBM Tech Now へようこそ。テクノロジーの世界における最新かつ素晴らしいニュースや発表を特集するビデオ Web シリーズです。新しい IBM Tech Now ビデオが公開されるたびに通知を受け取るには、必ず YouTube チャンネルに登録してください。 IBM Tech Now: エピソード 90 このエピソードでは、次のトピックを取り上げます: IBM Quantum Heron IBM Quantum System Two watsonx.governance の GA 接続を維持する 詳細については、IBM ブログの発表をチェックしてください。

IBM ニュースレター

最新の思想的リーダーシップと新たなトレンドに関する洞察を提供するニュースレターとトピックの最新情報を入手してください。

今すぐ会員登録します。

その他のニュースレター

スポット画像

最新のインテリジェンス

スポット画像