IBM's nieuwe Watson Large Speech Model brengt generatieve AI naar de telefoon - IBM Blog

IBM’s nieuwe Watson Large Speech Model brengt generatieve AI naar de telefoon – IBM Blog

Persoon aan een bureau in een woonkamer glimlachend naar de telefoon in de hand, met de andere hand op de laptop

Bijna iedereen heeft wel eens gehoord van grote taalmodellen, oftewel LLM’s, sinds generatieve AI ons dagelijkse lexicon is binnengedrongen dankzij de verbazingwekkende mogelijkheden om tekst en afbeeldingen te genereren, en de belofte ervan als een revolutie in de manier waarop ondernemingen met hun kernactiviteiten omgaan. Nu, meer dan ooit, de gedachte aan praat naar AI via een chatinterface of specifieke taken voor u laten uitvoeren, is een tastbare realiteit. Er vinden enorme stappen plaats om deze technologie toe te passen en zo een positieve invloed te hebben op de dagelijkse ervaringen als individu en als consument.

Maar hoe zit het in de wereld van de stem? Er is zoveel aandacht besteed aan LLM's als katalysator voor verbeterde generatieve AI-chatmogelijkheden, dat niet veel mensen praten over hoe dit kan worden toegepast op op spraak gebaseerde gesprekservaringen. Het moderne contactcenter wordt momenteel gedomineerd door rigide gesprekservaringen (ja, Interactive Voice Response of IVR is nog steeds de norm). Betreed de wereld van Large Speech Models of LSM's. Ja, LLM's hebben een meer vocale neef met de voordelen en mogelijkheden die u van generatieve AI kunt verwachten, maar deze keer kunnen klanten via de telefoon met de assistent communiceren.

De afgelopen maanden hebben IBM Watsonx-ontwikkelingsteams en IBM Research hard gewerkt aan de ontwikkeling van een nieuw, ultramodern Large Speech Model (LSM). Gebaseerd op transformatortechnologieLSM's gebruiken enorme hoeveelheden trainingsgegevens en modelparameters om nauwkeurigheid bij spraakherkenning te leveren. Onze LSM is speciaal gebouwd voor gebruiksscenario's in de klantenservice, zoals zelfbedieningstelefoonassistenten en realtime gesprekstranscriptie, en levert zeer geavanceerde out-of-the-box transcripties om een naadloze klantervaring te creëren.

We zijn erg enthousiast om de implementatie aan te kondigen van nieuwe LSM's in het Engels en Japans, die nu beschikbaar zijn exclusief in gesloten bèta voor Watson Speech to Text- en Watsonx Assistant-telefoonklanten.

We kunnen doorgaan over hoe geweldig deze modellen zijn, maar waar het echt op neerkomt is prestatie. Op basis van interne benchmarking is het nieuwe LSM ons meest nauwkeurige spraakmodel tot nu toe, en presteert het beter dan het Whisper-model van OpenAI in korte Engelse gebruiksscenario's. We vergeleken de out-of-the-box prestaties van onze Engelse LSM met het Whisper-model van OpenAI voor vijf echte klantgebruiksscenario's aan de telefoon, en ontdekten dat de Word Error Rate (WER) van de IBM LSM 42% lager was dan die van het Whisper-model (zie voetnoot (1) voor evaluatiemethodologie).

IBM's LSM is ook vijf keer kleiner dan het Whisper-model (vijf keer minder parameters), wat betekent dat het audio tien keer sneller verwerkt als het op dezelfde hardware wordt uitgevoerd. Bij streaming beëindigt de LSM de verwerking wanneer de audio is afgelopen; Whisper daarentegen verwerkt audio in blokmodus (bijvoorbeeld met intervallen van 5 seconden). Laten we naar een voorbeeld kijken: bij het verwerken van een audiobestand dat korter is dan 5 seconden, bijvoorbeeld 10 seconden, onderdrukt Whisper stilte, maar het duurt nog steeds de volledige 30 seconden om te verwerken; de IBM LSM wordt verwerkt nadat de 30 seconden audio zijn voltooid.

Deze tests geven aan dat onze LSM in korte vorm zeer nauwkeurig is. Maar er is meer. De LSM liet ook vergelijkbare prestaties zien als de nauwkeurigheid van Whisper bij langdurige gebruiksscenario's (zoals oproepanalyse en oproepsamenvatting), zoals weergegeven in de onderstaande grafiek.

Hoe kun je met deze modellen aan de slag?

Meld u aan voor ons gesloten bèta-gebruikersprogramma en ons Product Management-team zal contact met u opnemen om een gesprek te plannen. Omdat de IBM LSM zich in een gesloten bèta bevindt, zijn sommige functies en functionaliteiten nog in ontwikkeling².

Meld u vandaag nog aan om LSM's te verkennen

¹Methodologie voor benchmarking:

Fluistermodel ter vergelijking: medium.en
Beoordeelde taal: Amerikaans-Engels
Metriek gebruikt ter vergelijking: Woordfoutpercentage, algemeen bekend als WER, wordt gedefinieerd als het aantal bewerkingsfouten (vervangingen, verwijderingen en invoegingen) gedeeld door het aantal woorden in de referentie/menselijke transcriptie.
Voorafgaand aan het scoren werden alle machinetranscripties genormaliseerd met behulp van de fluisternormalisator om eventuele opmaakverschillen te elimineren die WER-verschillen zouden kunnen veroorzaken.

²De verklaringen van IBM met betrekking tot haar plannen, richting en bedoelingen kunnen naar eigen goeddunken van IBM zonder voorafgaande kennisgeving worden gewijzigd of ingetrokken. De genoemde informatie over een mogelijk toekomstig product houdt geen verplichting, belofte of wettelijke verplichting in om enig materiaal, code of functionaliteit te leveren. De ontwikkeling, release en timing van toekomstige voorzieningen of functionaliteit blijven ter uitsluitende beoordeling van IBM.

Productmanager, Watson-assistent, software

Productmanager, Watson Spraak- en Taalvertalerdiensten

Meer van Kunstmatige intelligentie

20 december 2023

Vijf machine learning-typen om te kennen

5 min gelezen - Machine learning (ML)-technologieën kunnen de besluitvorming in vrijwel alle sectoren stimuleren, van gezondheidszorg tot human resources tot financiën en in talloze gebruiksscenario's, zoals computervisie, grote taalmodellen (LLM's), spraakherkenning, zelfrijdende auto's en meer. De groeiende invloed van ML is echter niet zonder complicaties. De validatie- en trainingsdatasets die ten grondslag liggen aan ML-technologie worden vaak door mensen samengevoegd, en mensen zijn vatbaar voor vooroordelen en fouten. Zelfs in gevallen waarin een ML-model zelf niet bevooroordeeld is...

15 december 2023

Klantenservicetrends die winnende organisaties moeten volgen

4 min gelezen - Aandacht besteden aan de nieuwste trends op het gebied van klantenservice zorgt ervoor dat een organisatie voorbereid is op veranderende klantverwachtingen. De loyaliteit van klanten neemt af, onder impuls van de COVID-19-pandemie, sociale invloeden en het gemak waarmee van merk kan worden gewisseld. Meer dan ooit moeten organisaties op de hoogte blijven van veranderingen in de klantenservice-ervaring om de klanttevredenheid te verbeteren en aan de toegenomen klantbehoeften te voldoen. Uit een onderzoek van Gartner uit 2023 bleek dat 58% van de leiders bedrijfsgroei als een van hun belangrijkste doelen identificeerde.

15 december 2023

Vijf open-source AI-tools om te kennen

5 min gelezen - Open-source kunstmatige intelligentie (AI) verwijst naar AI-technologieën waarbij de broncode voor iedereen vrij beschikbaar is om te gebruiken, aan te passen en te verspreiden. Wanneer AI-algoritmen, vooraf getrainde modellen en datasets beschikbaar zijn voor openbaar gebruik en experimenten, ontstaan creatieve AI-toepassingen doordat een gemeenschap van vrijwilligers enthousiast voortbouwt op bestaand werk en de ontwikkeling van praktische AI-oplossingen versnelt. Als gevolg hiervan leiden deze technologieën vaak tot de beste tools om complexe uitdagingen in veel zakelijke toepassingen aan te pakken.…

11 december 2023

IBM Tech Now: 11 december 2023

<1 min gelezen - Welkom IBM Tech Now, onze videowebserie met het laatste en beste nieuws en aankondigingen in de wereld van technologie. Zorg ervoor dat u zich abonneert op ons YouTube-kanaal, zodat u op de hoogte wordt gehouden telkens wanneer er een nieuwe IBM Tech Now-video wordt gepubliceerd. IBM Tech Now: aflevering 90 In deze aflevering behandelen we de volgende onderwerpen: IBM Quantum Heron IBM Quantum System Two De GA van watsonx.governance Blijf aangesloten U kunt de IBM Blog-aankondigingen bekijken voor een volledige…

IBM-nieuwsbrieven

Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.

Abonneer nu

Meer nieuwsbrieven

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://www.ibm.com/blog/ibms-new-watson-large-speech-model-brings-generative-ai-to-the-phone/

Generatieve data-intelligentie

IBM’s nieuwe Watson Large Speech Model brengt generatieve AI naar de telefoon – IBM Blog

Hoe kun je met deze modellen aan de slag?

Meer van Kunstmatige intelligentie

Vijf machine learning-typen om te kennen

Klantenservicetrends die winnende organisaties moeten volgen

Vijf open-source AI-tools om te kennen

IBM Tech Now: 11 december 2023

IBM-nieuwsbrieven

OpenAI geeft modelspecificatie vrij: gewenst gedrag vormgeven in AI

China versus de VS: wie verliest de AI-race?

Laatste intelligentie

Congresbrief beoogt een grote verhoging van het wetenschapsbudget van NASA

'Boden' Memecoin stijgt nadat Trump erover grapt

Revolut introduceert cryptocurrency-handelsplatform voor consumenten in het Verenigd Koninkrijk – CryptoInfoNet

Crypto Wallet Provider Exodus' NYSE Amerikaanse aandelennotering uitgesteld voor SEC-beoordeling

5 belangrijke dingen die u moet controleren op een CBD-label

PBC publiceert cannabisbankgids voor 2024 om de industrie te verbinden