생성 AI는 놀라운 텍스트 및 이미지 생성 기능과 기업이 핵심 비즈니스 기능을 처리하는 방법에 대한 혁명이라는 약속을 통해 일상 어휘집에 들어왔기 때문에 대부분의 사람들이 대규모 언어 모델(LLM)에 대해 들어본 적이 있을 것입니다. 지금은 그 어느 때보다 그 생각이 말하는 채팅 인터페이스를 통해 AI에 연결하거나 특정 작업을 수행하도록 하는 것은 실질적인 현실입니다. 개인과 소비자로서 일상적인 경험에 긍정적인 영향을 미치기 위해 이 기술을 채택하는 데 엄청난 진전이 일어나고 있습니다.
하지만 목소리의 세계에서는 어떨까요? 향상된 생성적 AI 채팅 기능을 위한 촉매제로서 LLM에 많은 관심이 집중되어 이를 음성 기반 대화 경험에 어떻게 적용할 수 있는지에 대해 이야기하는 사람은 많지 않습니다. 현대 컨택 센터는 현재 엄격한 대화 경험이 지배적입니다(예, 대화형 음성 응답(IVR)이 여전히 표준입니다). 대규모 음성 모델(LSM)의 세계로 들어가십시오. 예, LLM 생성 AI에서 기대할 수 있는 이점과 가능성을 더 많이 갖춘 사촌이 있지만 이번에는 고객이 전화를 통해 어시스턴트와 상호 작용할 수 있습니다.
지난 몇 달 동안 IBM watsonx 개발 팀과 IBM Research는 새로운 최첨단 LSM(Large Speech Model)을 개발하는 데 열심히 노력해 왔습니다. 변압기 기술 기반, LSM은 음성 인식의 정확성을 제공하기 위해 방대한 양의 훈련 데이터와 모델 매개변수를 사용합니다. 셀프 서비스 전화 도우미 및 실시간 통화 전사와 같은 고객 관리 사용 사례를 위해 특별히 제작된 LSM은 즉시 사용 가능한 고급 전사 기능을 제공하여 원활한 고객 경험을 제공합니다.
이제 영어와 일본어로 제공되는 새로운 LSM 배포를 발표하게 되어 매우 기쁩니다. 비공개 베타에서만 독점적으로 Watson Speech to Text 및 watsonx Assistant 전화 고객에게 제공됩니다.
우리는 이 모델들이 얼마나 훌륭한지에 대해 계속해서 이야기할 수 있지만 실제로 결론은 다음과 같습니다. 성능. 내부 벤치마킹에 따르면 새로운 LSM은 가장 정확한 음성 모델로, 짧은 형식의 영어 사용 사례에서 OpenAI의 Whisper 모델보다 성능이 뛰어납니다. 우리는 영어 LSM의 기본 성능을 OpenAI의 Whisper 모델과 전화 통화를 통한 42가지 실제 고객 사용 사례에서 비교한 결과, IBM LSM의 WER(단어 오류율)이 1% 더 낮은 것으로 나타났습니다. Whisper 모델(평가 방법론은 각주 (XNUMX) 참조)
IBM의 LSM은 Whisper 모델보다 5배 더 작습니다(매개변수 5배 적음). 이는 동일한 하드웨어에서 실행될 때 오디오를 10배 더 빠르게 처리한다는 의미입니다. 스트리밍을 사용하면 LSM은 오디오가 끝나면 처리를 마칩니다. 반면 Whisper는 블록 모드(예: 30초 간격)로 오디오를 처리합니다. 예를 들어 보겠습니다. 30초보다 짧은(예: 12초) 오디오 파일을 처리할 때 Whisper는 무음으로 채워지지만 여전히 처리하는 데 30초가 걸립니다. IBM LSM은 12초의 오디오가 완료된 후에 처리합니다.
이러한 테스트는 LSM이 짧은 형식으로 매우 정확하다는 것을 나타냅니다. 하지만 더 많은 것이 있습니다. 또한 LSM은 아래 차트에 표시된 것처럼 긴 형식의 사용 사례(예: 통화 분석 및 통화 요약)에서 Whisper의 정확성과 비슷한 성능을 보여주었습니다.
이 모델을 어떻게 시작할 수 있나요?
비공개 베타 사용자 프로그램을 신청하면 제품 관리 팀이 통화 일정을 잡기 위해 연락을 드릴 것입니다. IBM LSM은 비공개 베타 버전이므로 일부 기능은 아직 개발 중입니다.2.
1 벤치마킹 방법론:
- 비교를 위한 속삭임 모델: Medium.en
- 평가 언어: 미국-영어
- 비교에 사용되는 측정항목: 일반적으로 WER로 알려진 단어 오류율은 편집 오류(대체, 삭제 및 삽입) 수를 참조/사람 기록의 단어 수로 나눈 값으로 정의됩니다.
- 점수를 매기기 전에 모든 기계 기록은 WER 불일치를 유발할 수 있는 형식 차이를 제거하기 위해 속삭임 노멀라이저를 사용하여 정규화되었습니다.
2 계획, 방향 및 의도에 관한 IBM의 진술은 IBM의 단독 재량에 따라 사전 통지 없이 변경되거나 철회될 수 있습니다. 잠재적인 미래 제품과 관련하여 언급된 정보는 자료, 코드 또는 기능을 제공하겠다는 약속, 약속 또는 법적 의무가 아닙니다. 향후 기능의 개발, 출시 및 시기는 IBM의 재량에 따라 결정됩니다.
인공 지능에 대해 자세히 알아보기
IBM 뉴스레터
새로운 트렌드에 대한 최신 사고 리더십과 통찰력을 제공하는 뉴스레터와 주제 업데이트를 받아보세요.
지금 가입
더 많은 뉴스 레터
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://www.ibm.com/blog/ibms-new-watson-large-speech-model-brings-generative-ai-to-the-phone/