Bijna iedereen heeft wel eens gehoord van grote taalmodellen, oftewel LLM’s, sinds generatieve AI ons dagelijkse lexicon is binnengedrongen dankzij de verbazingwekkende mogelijkheden om tekst en afbeeldingen te genereren, en de belofte ervan als een revolutie in de manier waarop ondernemingen met hun kernactiviteiten omgaan. Nu, meer dan ooit, de gedachte aan praat naar AI via een chatinterface of specifieke taken voor u laten uitvoeren, is een tastbare realiteit. Er vinden enorme stappen plaats om deze technologie toe te passen en zo een positieve invloed te hebben op de dagelijkse ervaringen als individu en als consument.
Maar hoe zit het in de wereld van de stem? Er is zoveel aandacht besteed aan LLM's als katalysator voor verbeterde generatieve AI-chatmogelijkheden, dat niet veel mensen praten over hoe dit kan worden toegepast op op spraak gebaseerde gesprekservaringen. Het moderne contactcenter wordt momenteel gedomineerd door rigide gesprekservaringen (ja, Interactive Voice Response of IVR is nog steeds de norm). Betreed de wereld van Large Speech Models of LSM's. Ja, LLM's hebben een meer vocale neef met de voordelen en mogelijkheden die u van generatieve AI kunt verwachten, maar deze keer kunnen klanten via de telefoon met de assistent communiceren.
De afgelopen maanden hebben IBM Watsonx-ontwikkelingsteams en IBM Research hard gewerkt aan de ontwikkeling van een nieuw, ultramodern Large Speech Model (LSM). Gebaseerd op transformatortechnologieLSM's gebruiken enorme hoeveelheden trainingsgegevens en modelparameters om nauwkeurigheid bij spraakherkenning te leveren. Onze LSM is speciaal gebouwd voor gebruiksscenario's in de klantenservice, zoals zelfbedieningstelefoonassistenten en realtime gesprekstranscriptie, en levert zeer geavanceerde out-of-the-box transcripties om een naadloze klantervaring te creëren.
We zijn erg enthousiast om de implementatie aan te kondigen van nieuwe LSM's in het Engels en Japans, die nu beschikbaar zijn exclusief in gesloten bèta voor Watson Speech to Text- en Watsonx Assistant-telefoonklanten.
We kunnen doorgaan over hoe geweldig deze modellen zijn, maar waar het echt op neerkomt is prestatie. Op basis van interne benchmarking is het nieuwe LSM ons meest nauwkeurige spraakmodel tot nu toe, en presteert het beter dan het Whisper-model van OpenAI in korte Engelse gebruiksscenario's. We vergeleken de out-of-the-box prestaties van onze Engelse LSM met het Whisper-model van OpenAI voor vijf echte klantgebruiksscenario's aan de telefoon, en ontdekten dat de Word Error Rate (WER) van de IBM LSM 42% lager was dan die van het Whisper-model (zie voetnoot (1) voor evaluatiemethodologie).
IBM's LSM is ook vijf keer kleiner dan het Whisper-model (vijf keer minder parameters), wat betekent dat het audio tien keer sneller verwerkt als het op dezelfde hardware wordt uitgevoerd. Bij streaming beëindigt de LSM de verwerking wanneer de audio is afgelopen; Whisper daarentegen verwerkt audio in blokmodus (bijvoorbeeld met intervallen van 5 seconden). Laten we naar een voorbeeld kijken: bij het verwerken van een audiobestand dat korter is dan 5 seconden, bijvoorbeeld 10 seconden, onderdrukt Whisper stilte, maar het duurt nog steeds de volledige 30 seconden om te verwerken; de IBM LSM wordt verwerkt nadat de 30 seconden audio zijn voltooid.
Deze tests geven aan dat onze LSM in korte vorm zeer nauwkeurig is. Maar er is meer. De LSM liet ook vergelijkbare prestaties zien als de nauwkeurigheid van Whisper bij langdurige gebruiksscenario's (zoals oproepanalyse en oproepsamenvatting), zoals weergegeven in de onderstaande grafiek.
Hoe kun je met deze modellen aan de slag?
Meld u aan voor ons gesloten bèta-gebruikersprogramma en ons Product Management-team zal contact met u opnemen om een gesprek te plannen. Omdat de IBM LSM zich in een gesloten bèta bevindt, zijn sommige functies en functionaliteiten nog in ontwikkeling2.
Meld u vandaag nog aan om LSM's te verkennen
1 Methodologie voor benchmarking:
- Fluistermodel ter vergelijking: medium.en
- Beoordeelde taal: Amerikaans-Engels
- Metriek gebruikt ter vergelijking: Woordfoutpercentage, algemeen bekend als WER, wordt gedefinieerd als het aantal bewerkingsfouten (vervangingen, verwijderingen en invoegingen) gedeeld door het aantal woorden in de referentie/menselijke transcriptie.
- Voorafgaand aan het scoren werden alle machinetranscripties genormaliseerd met behulp van de fluisternormalisator om eventuele opmaakverschillen te elimineren die WER-verschillen zouden kunnen veroorzaken.
2 De verklaringen van IBM met betrekking tot haar plannen, richting en bedoelingen kunnen naar eigen goeddunken van IBM zonder voorafgaande kennisgeving worden gewijzigd of ingetrokken. De genoemde informatie over een mogelijk toekomstig product houdt geen verplichting, belofte of wettelijke verplichting in om enig materiaal, code of functionaliteit te leveren. De ontwikkeling, release en timing van toekomstige voorzieningen of functionaliteit blijven ter uitsluitende beoordeling van IBM.
Meer van Kunstmatige intelligentie
IBM-nieuwsbrieven
Ontvang onze nieuwsbrieven en onderwerpupdates die de nieuwste thought leadership en inzichten over opkomende trends bieden.
Abonneer nu
Meer nieuwsbrieven
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- Bron: https://www.ibm.com/blog/ibms-new-watson-large-speech-model-brings-generative-ai-to-the-phone/