제퍼넷 로고

watsonx Orders의 혁신적인 AI 기술 공개 - IBM 블로그

시간


watsonx Orders의 혁신적인 AI 기술 공개 - IBM 블로그



오픈페이스 버거 위에 바비큐 소스를 붓고 있는 모습

감자튀김과 치즈버거를 먹기 위해 좋아하는 드라이브스루로 향합니다. 간단한 순서인데, 줄을 서다 보면 줄이 별로 없다는 것을 알 수 있습니다. 무엇이 잘못될 수 있나요? 풍부한.

레스토랑은 교통 소음이 심한 혼잡한 고속도로 근처에 있으며 비행기가 근처 공항에 접근할 때 머리 위로 낮게 날아갑니다. 바람이 많이 불어요. 당신 뒤에 있는 차에서 스테레오가 울리고 있고, 다음 차선에 있는 고객이 당신과 동시에 주문하려고 합니다. 불협화음은 가장 경험이 많은 인간 명령 수행자에게도 도전이 될 것입니다.

IBM® watsonx™ Orders를 통해 우리는 사람의 개입 없이 드라이브 스루 주문을 받을 수 있는 AI 기반 음성 에이전트를 만들었습니다. 이 제품은 최첨단 기술을 사용하여 시끄러운 상황에서 사람의 목소리를 분리하고 이해하는 동시에 주문하는 고객과 음성 에이전트 간의 자연스럽고 자유로운 대화를 지원합니다.

Watsonx Orders는 음성을 이해하고 주문을 전달합니다.

IBM watsonx Orders는 스피커 포스트로 다가오는 차량을 감지하면 프로세스를 시작합니다. 고객에게 인사하고 무엇을 주문하고 싶은지 묻습니다. 그런 다음 들어오는 오디오를 처리하고 사람의 목소리를 분리합니다. 이를 통해 주문과 품목을 감지한 후, 디지털 메뉴판에 들은 내용을 고객에게 보여줍니다. 고객이 모든 것이 괜찮아 보인다고 말하면, watsonx Orders는 POS(Point of Sale)와 주방으로 주문을 보냅니다. 마지막으로 주방에서는 음식을 준비합니다. 전체 주문 과정은 아래 그림에 나와 있습니다.

고객 주문을 이해하는 데에는 세 부분이 있습니다. 첫 번째 부분은 인간의 목소리를 분리하고 상충되는 환경 소리를 무시하는 것입니다. 두 번째 부분은 악센트, 구어체, 감정 및 잘못된 표현의 복잡성을 포함하여 말을 이해하는 것입니다. 마지막으로 세 번째 부분은 음성 데이터를 고객 의도를 반영하는 작업으로 변환하는 것입니다.

사람의 목소리를 분리하기

은행이나 유틸리티 회사에 전화하면 음성 에이전트 챗봇이 먼저 전화에 응답하여 전화한 이유를 물어볼 것입니다. 해당 챗봇은 배경 소음이 거의 또는 전혀 없는 전화기에서 상대적으로 조용한 오디오를 기대합니다.

드라이브 스루에는 항상 배경 소음이 있습니다. 오디오 하드웨어가 아무리 우수하더라도 지나가는 기차 경적 소리와 같은 큰 소음으로 인해 사람의 목소리가 들리지 않을 수 있습니다.

watsonx Orders는 실시간으로 오디오를 캡처하므로 기계 학습 기술을 사용하여 디지털 소음 및 반향 제거를 수행합니다. 바람, 비, 고속도로 교통 및 공항의 소음을 무시합니다. 다른 소음 문제로는 예상치 못한 배경 소음과 주문 중에 사람들이 배경에서 이야기하는 누화 등이 있습니다. Watsonx Orders는 고급 기술을 사용하여 이러한 중단을 최소화합니다.

음성 이해

대부분의 음성 챗봇은 텍스트 챗봇에서 시작되었습니다. 기존의 음성 에이전트는 먼저 음성을 서면 텍스트로 변환한 다음 서면 문장을 분석하여 화자가 원하는 것이 무엇인지 파악합니다.

이는 계산적으로 느리고 낭비적입니다. 먼저 소리를 단어와 문장으로 변환하는 대신, watsonx Orders는 음성을 음소(뚜렷한 의미를 전달하는 음성의 가장 작은 소리 단위)로 바꿉니다. 예를 들어, "shake"라고 말하면 watsonx Orders는 해당 단어를 "sh", "ay" 및 hard "k"로 구문 분석합니다. 전체 영어 텍스트 대신 음성을 음소로 변환하면 다양한 악센트에 대한 정확도가 향상되고 대화 내 대기 시간을 줄여 실시간 대화 흐름을 적극적으로 지원합니다.

이해를 행동으로 옮기기

다음으로, watsonx Orders는 "원합니다" 또는 "취소"와 같은 의도를 식별합니다. 그런 다음 "치즈버거" 또는 "사과 파이"와 같은 명령과 관련된 항목을 식별합니다.

의도 인식을 위한 여러 가지 기계 학습 기술이 있습니다. 최신 기술은 이론적으로 모든 질문을 이해하고 적절한 답변으로 응답할 수 있는 기초 및 대규모 언어 모델을 사용합니다. 이는 하드웨어 제한 사용 사례에 비해 너무 느리고 계산 비용이 많이 듭니다. 드라이브 스루 음성 상담원이 “하늘이 왜 파란색인가요?”라고 대답하는 것은 인상적일 수 있지만, 드라이브 스루 속도가 느려지고 줄을 선 사람들이 당황스러워하며 수익이 감소하게 됩니다.

Watsonx Orders는 "양파 없음, 특수 소스에 가벼운 맛, ​​토마토 추가" 등 치즈버거를 주문할 수 있는 수억 가지 방법을 이해하는 데 최적화된 매우 구체적인 모델을 사용합니다. 이 모델을 사용하면 고객이 메뉴 중간 주문을 수정할 수도 있습니다. "사실 그 버거에는 토마토가 없습니다."

생산 과정에서 watsonx Orders는 사람의 개입 없이 자체적으로 주문의 90% 이상을 완료할 수 있습니다. 이 분야의 다른 벤더들은 AI 에이전트가 정체될 때 인계를 받기 위해 인간 운영자가 있는 연락 센터를 사용하고 상호 작용을 "자동화"된 것으로 간주한다는 점은 주목할 가치가 있습니다. IBM watsonx Orders 표준에 따르면 "자동화"란 사람의 개입 없이 엔드투엔드 주문을 처리하는 것을 의미합니다.

실제 구현으로 수익 창출

피크 시간대에는 watsonx Orders가 이중 차선 레스토랑에서 시간당 150대 이상의 차량을 처리할 수 있는데, 이는 대부분의 인간 주문 받는 사람보다 나은 수준입니다. 시간당 차량이 많을수록 더 많은 수익과 이익을 얻을 수 있으므로 당사의 엔지니어링 및 모델링 접근 방식은 이 지표에 맞춰 지속적으로 최적화되고 있습니다.

Watsonx Orders는 까다로운 소음, 누화 및 주문 복잡성에도 불구하고 수십 개의 레스토랑에서 실제 주문 60천만 건을 처리했습니다. 우리는 전 세계의 모든 퀵서비스 레스토랑 체인과 협력할 수 있기를 바라며 새로운 메뉴, 레스토랑 기술 스택 및 중앙 집중식 메뉴 관리 시스템에 쉽게 적응할 수 있는 플랫폼을 구축했습니다.

가장 까다로운 주문도 처리하는 AI로 레스토랑을 원활하게 운영하세요

이 글이 도움 되었나요?

가능아니


인공 지능에 대해 자세히 알아보기




소매 기술 및 일선 직원: 잊을 수 없는 고객 경험 제공

2 분 읽기 - 소매 업계는 수백만 명의 직원을 고용하고 있으며 차세대 소매 직원은 생성 AI의 부상으로 큰 영향을 받을 것입니다. 저는 제품 카테고리에 관계없이 뛰어난 오프라인 소매업이 성공을 위한 세 가지 필수 기둥 위에 서 있다고 굳게 믿습니다. 자랑스럽고 잘 훈련되었으며 명확한 경력 경로를 갖춘 열정적인 팀원 강력한 문화적 가치에 깊이 뿌리내린 브랜드 우수한 기술의 중추 이러한 요소 중 누락된 것이 있습니까? 마법은 일어나지 않습니다. IBM을 입력하십시오. 기술 활용에 대한 그들의 접근 방식은…




비즈니스를 위한 가장 가치 있는 AI 사용 사례

10 분 읽기 - 인공 지능(AI) 사용 사례를 생각할 때 다음과 같은 질문이 생길 수 있습니다. AI는 무엇을 할 수 없나요? 쉬운 대답은 대부분 육체 노동이지만, 현재 육체 노동의 대부분이 AI가 제어하는 ​​로봇 장치에 의해 수행되는 날이 올 수도 있습니다. 그러나 현재 순수 AI는 지능이 디지털 방식으로 수집되어 AI를 훈련하는 데 사용될 수 있는 한 사고와 지능이 필요한 많은 작업에 대해 프로그래밍될 수 있습니다.




IBM Tech Now: 12년 2024월 XNUMX일

<1 분 읽기 - 기술 세계의 가장 뛰어난 최신 뉴스와 발표를 소개하는 비디오 웹 시리즈인 IBM Tech Now에 오신 것을 환영합니다. 새로운 IBM Tech Now 비디오가 게시될 때마다 알림을 받으려면 YouTube 채널을 구독하세요. IBM Tech Now: 에피소드 92 이 에피소드에서는 다음 주제를 다룹니다. GRAMMY + IBM watsonx 오디오 잭킹 및 생성 AI 연결 상태 유지 IBM 블로그 공지에서 전체 개요를 확인할 수 있습니다…




기업을 위한 생성적 AI 사용 사례

9 분 읽기 - 처음 스마트폰을 손에 쥐었을 때 얼마나 시원했는지 기억하시나요? 컴팩트한 디자인과 터치 기반의 상호작용성은 마치 미래를 향한 도약처럼 보였습니다. 비즈니스 생산성과 커뮤니케이션을 위해 스마트폰이 제공하는 모든 기능 덕분에 머지않아 스마트폰은 전 세계 조직의 생활 방식이 되었습니다. 생성적 AI(인공지능)는 생산성의 비슷한 도약과 새로운 작업 및 창작 모드의 출현을 약속합니다. Midjourney 및 ChatGPT와 같은 도구는 그 기능으로 주목을 받고 있습니다…

IBM 뉴스레터

새로운 트렌드에 대한 최신 사고 리더십과 통찰력을 제공하는 뉴스레터와 주제 업데이트를 받아보세요.

지금 가입

더 많은 뉴스 레터

spot_img

최신 인텔리전스

spot_img