제퍼넷 로고

IBM의 새로운 Watson Large Speech Model, 휴대폰에 생성 AI 구현 – IBM Blog

시간


IBM의 새로운 Watson Large Speech Model, 휴대폰에 생성 AI 구현 – IBM Blog



거실 책상에 앉아 손에는 휴대폰을 들고 다른 손에는 노트북을 들고 웃고 있는 사람

생성 AI는 놀라운 텍스트 및 이미지 생성 기능과 기업이 핵심 비즈니스 기능을 처리하는 방법에 대한 혁명이라는 약속을 통해 일상 어휘집에 들어왔기 때문에 대부분의 사람들이 대규모 언어 모델(LLM)에 대해 들어본 적이 있을 것입니다. 지금은 그 어느 때보다 그 생각이 말하는 채팅 인터페이스를 통해 AI에 연결하거나 특정 작업을 수행하도록 하는 것은 실질적인 현실입니다. 개인과 소비자로서 일상적인 경험에 긍정적인 영향을 미치기 위해 이 기술을 채택하는 데 엄청난 진전이 일어나고 있습니다.

하지만 목소리의 세계에서는 어떨까요? 향상된 생성적 AI 채팅 기능을 위한 촉매제로서 LLM에 많은 관심이 집중되어 이를 음성 기반 대화 경험에 어떻게 적용할 수 있는지에 대해 이야기하는 사람은 많지 않습니다. 현대 컨택 센터는 현재 엄격한 대화 경험이 지배적입니다(예, 대화형 음성 응답(IVR)이 여전히 표준입니다). 대규모 음성 모델(LSM)의 세계로 들어가십시오. 예, LLM 생성 AI에서 기대할 수 있는 이점과 가능성을 더 많이 갖춘 사촌이 있지만 이번에는 고객이 전화를 통해 어시스턴트와 상호 작용할 수 있습니다. 

지난 몇 달 동안 IBM watsonx 개발 팀과 IBM Research는 새로운 최첨단 LSM(Large Speech Model)을 개발하는 데 열심히 노력해 왔습니다. 변압기 기술 기반, LSM은 음성 인식의 정확성을 제공하기 위해 방대한 양의 훈련 데이터와 모델 매개변수를 사용합니다. 셀프 서비스 전화 도우미 및 실시간 통화 전사와 같은 고객 관리 사용 사례를 위해 특별히 제작된 LSM은 즉시 사용 가능한 고급 전사 기능을 제공하여 원활한 고객 경험을 제공합니다.

이제 영어와 일본어로 제공되는 새로운 LSM 배포를 발표하게 되어 매우 기쁩니다. 비공개 베타에서만 독점적으로 Watson Speech to Text 및 watsonx Assistant 전화 고객에게 제공됩니다.

우리는 이 모델들이 얼마나 훌륭한지에 대해 계속해서 이야기할 수 있지만 실제로 결론은 다음과 같습니다. 성능. 내부 벤치마킹에 따르면 새로운 LSM은 가장 정확한 음성 모델로, 짧은 형식의 영어 사용 사례에서 OpenAI의 Whisper 모델보다 성능이 뛰어납니다. 우리는 영어 LSM의 기본 성능을 OpenAI의 Whisper 모델과 전화 통화를 통한 42가지 실제 고객 사용 사례에서 비교한 결과, IBM LSM의 WER(단어 오류율)이 1% 더 낮은 것으로 나타났습니다. Whisper 모델(평가 방법론은 각주 (XNUMX) 참조)

IBM의 LSM은 Whisper 모델보다 5배 더 작습니다(매개변수 5배 적음). 이는 동일한 하드웨어에서 실행될 때 오디오를 10배 더 빠르게 처리한다는 의미입니다. 스트리밍을 사용하면 LSM은 오디오가 끝나면 처리를 마칩니다. 반면 Whisper는 블록 모드(예: 30초 간격)로 오디오를 처리합니다. 예를 들어 보겠습니다. 30초보다 짧은(예: 12초) 오디오 파일을 처리할 때 Whisper는 무음으로 채워지지만 여전히 처리하는 데 30초가 걸립니다. IBM LSM은 12초의 오디오가 완료된 후에 처리합니다.

이러한 테스트는 LSM이 짧은 형식으로 매우 정확하다는 것을 나타냅니다. 하지만 더 많은 것이 있습니다. 또한 LSM은 아래 차트에 표시된 것처럼 긴 형식의 사용 사례(예: 통화 분석 및 통화 요약)에서 Whisper의 정확성과 비슷한 성능을 보여주었습니다.

이 모델을 어떻게 시작할 수 있나요?

비공개 베타 사용자 프로그램을 신청하면 제품 관리 팀이 통화 일정을 잡기 위해 연락을 드릴 것입니다. IBM LSM은 비공개 베타 버전이므로 일부 기능은 아직 개발 중입니다.2.

지금 등록하여 LSM을 살펴보세요.


1 벤치마킹 방법론:

  • 비교를 위한 속삭임 모델: Medium.en
  • 평가 언어: 미국-영어
  • 비교에 사용되는 측정항목: 일반적으로 WER로 알려진 단어 오류율은 편집 오류(대체, 삭제 및 삽입) 수를 참조/사람 기록의 단어 수로 나눈 값으로 정의됩니다.
  • 점수를 매기기 전에 모든 기계 기록은 WER 불일치를 유발할 수 있는 형식 차이를 제거하기 위해 속삭임 노멀라이저를 사용하여 정규화되었습니다.

2 계획, 방향 및 의도에 관한 IBM의 진술은 IBM의 단독 재량에 따라 사전 통지 없이 변경되거나 철회될 수 있습니다. 잠재적인 미래 제품과 관련하여 언급된 정보는 자료, 코드 또는 기능을 제공하겠다는 약속, 약속 또는 법적 의무가 아닙니다. 향후 기능의 개발, 출시 및 시기는 IBM의 재량에 따라 결정됩니다.


인공 지능에 대해 자세히 알아보기




알아야 할 5가지 머신러닝 유형

5 분 읽기 - 머신 러닝(ML) 기술은 의료, 인사, 금융 등 거의 모든 산업 분야와 컴퓨터 비전, LLM(대형 언어 모델), 음성 인식, 자율 주행 자동차 등과 같은 다양한 사용 사례에서 의사 결정을 내릴 수 있습니다. 그러나 ML의 영향력이 커지면서 합병증이 발생하는 것은 아닙니다. ML 기술을 뒷받침하는 검증 및 교육 데이터 세트는 인간에 의해 집계되는 경우가 많으며 인간은 편견에 취약하고 오류가 발생하기 쉽습니다. ML 모델 자체가 편향되지 않은 경우에도…




승리하는 조직이 따라야 할 고객 서비스 동향

4 분 읽기 - 최신 고객 서비스 동향에 주의를 기울이는 것은 조직이 변화하는 고객 기대에 부응할 준비가 되어 있음을 보장합니다. 코로나19 팬데믹, 사회적 영향, 브랜드 전환의 용이성으로 인해 고객 충성도가 약해지고 있습니다. 그 어느 때보다 조직은 고객 서비스 경험의 변화를 파악하여 고객 만족도를 높이고 증가하는 고객 요구 사항을 충족해야 합니다. 2023년 Gartner 연구에 따르면 리더의 58%가 비즈니스 성장을 가장 중요한 목표 중 하나로 꼽았습니다.…




알아야 할 다섯 가지 오픈 소스 AI 도구

5 분 읽기 - 오픈소스 인공지능(AI)은 소스코드를 누구나 자유롭게 사용, 수정, 배포할 수 있는 AI 기술을 말한다. AI 알고리즘, 사전 훈련된 모델 및 데이터 세트를 공개적으로 사용하고 실험할 수 있게 되면 창의적인 AI 애플리케이션은 자원 봉사 열성팬 커뮤니티가 기존 작업을 기반으로 구축하고 실용적인 AI 솔루션 개발을 가속화하면서 등장합니다. 결과적으로 이러한 기술은 많은 기업 사용 사례에서 복잡한 문제를 처리하는 최고의 도구로 이어지는 경우가 많습니다.…




IBM Tech Now: 11년 2023월 XNUMX일

<1 분 읽기 - 기술 세계의 가장 뛰어난 최신 뉴스와 발표를 소개하는 비디오 웹 시리즈인 IBM Tech Now에 오신 것을 환영합니다. 새로운 IBM Tech Now 비디오가 게시될 때마다 알림을 받으려면 YouTube 채널을 구독하세요. IBM Tech Now: 에피소드 90 이 에피소드에서는 다음 주제를 다룹니다. IBM Quantum Heron IBM Quantum System Two watsonx.governance의 GA 최신 정보는 IBM 블로그 공지에서 확인하실 수 있습니다…

IBM 뉴스레터

새로운 트렌드에 대한 최신 사고 리더십과 통찰력을 제공하는 뉴스레터와 주제 업데이트를 받아보세요.

지금 가입

더 많은 뉴스 레터

spot_img

최신 인텔리전스

spot_img