Soniox maakt gebruik van leren zonder toezicht om spraakherkenningssystemen te bouwen

Sluit je aan bij Transform 2021 van 12-16 juli. Registreer voor r het AI-evenement van het jaar.

AI-aangedreven platforms voor spraaktranscriptie zijn een dubbeltje in een dozijn op een markt geschat meer dan $ 1.6 miljard waard zijn. Deepgram en Otter.ai bouwen spraakherkenningsmodellen voor cloudgebaseerde realtime verwerking, terwijl Verbit technologie biedt die niet veel lijkt op die van Oto, die intonatie combineert met akoestische gegevens om het spraakverstaan te versterken. Amazon, Google, Facebook en Microsoft bieden hun eigen spraaktranscriptieservices aan.

Maar een nieuwkomer die deze week uit bèta lanceert, beweert dat zijn aanpak superieure nauwkeurigheid oplevert. geroepen Sonox, het bedrijf maakt gebruik van enorme hoeveelheden niet-gelabelde audio en tekst om zijn algoritmen te leren spraak te herkennen met accenten, achtergrondgeluiden en 'fairfield'-opnames. In de praktijk zegt Soniox dat het systeem 24% meer woorden correct transcribeert in vergelijking met andere spraak-naar-tekstsystemen, waardoor 'bovenmenselijke' herkenning wordt bereikt op 'de meeste domeinen van menselijke kennis'.

Dat zijn gewaagde beweringen, maar de oprichter en CEO van Soniox, Klemen Simonic, zegt dat de nauwkeurigheidsverbeteringen voortkomen uit de onbewaakte leertechnieken van het platform. Bij unsupervised learning krijgt een algoritme - in het geval van Soniox een spraakherkenningsalgoritme - 'onbekende' gegevens waarvoor geen eerder gedefinieerde labels bestaan. Het systeem moet zichzelf leren de gegevens te classificeren en te verwerken om van de structuur te leren.

Spraak zonder toezicht

Met de komst van het moderne AI-tijdperk, toen mensen zich realiseerden dat krachtige hardware en datasets sterke voorspellende resultaten konden opleveren, viel de dominante vorm van machine learning in een categorie die bekend staat als gesuperviseerd leren. Gesuperviseerd leren wordt gedefinieerd door het gebruik van gelabelde datasets om algoritmen te trainen om gegevens te classificeren, resultaten te voorspellen en meer.

Simonic, een voormalig Facebook-onderzoeker en ingenieur die hielp bij het opbouwen van het spraakteam op het sociale netwerk, merkt op dat begeleid leren in tekst-naar-spraak zowel tijdrovend als duur is. Bedrijven moeten tienduizenden uren aan audio verzamelen en menselijke teams rekruteren om de gegevens handmatig te transcriberen. En ditzelfde proces moet voor elke taal worden herhaald.

“Google en Facebook hebben meer dan 50,000 uur aan getranscribeerde audio. Je moet miljoenen - meer als tientallen miljoenen - dollars investeren in het verzamelen van getranscribeerde gegevens', vertelde Simonic via e-mail aan VentureBeat. “Alleen dan kan men een spraakherkennings-AI trainen op de getranscribeerde data.”

Een techniek die bekend staat als semi-supervised learning biedt een mogelijke oplossing. Het kan gedeeltelijk gelabelde gegevens accepteren en Google onlangs gebruikt het om state-of-the-art resultaten in spraakherkenning te verkrijgen. Bij het ontbreken van labels is leren zonder toezicht - ook wel zelfgecontroleerd leren genoemd - de enige manier om hiaten in de kennis op te vullen.

Boven: Soniox-oprichter en CEO Klemen Simonic.

Krediet van het beeld: OLED

Volgens Simonic haalt Soniox' zelf-gecontroleerde leerpijplijn audio en tekst van internet. In de eerste iteratie van de training gebruikte het bedrijf de Librispeech-dataset, die 960 uur aan getranscribeerde audioboeken bevat.

De iteratieve aanpak van Soniox verfijnt voortdurend de algoritmen van het platform, waardoor ze meer woorden kunnen herkennen naarmate het systeem toegang krijgt tot aanvullende gegevens. Momenteel omvat het vocabulaire van Soniox verschillende mensen, plaatsen en geografie tot domeinen zoals onderwijs, technologie, techniek, geneeskunde, gezondheid, rechten, wetenschap, kunst, geschiedenis, eten, sport en meer.

“Om een bepaald model op een bepaalde dataset te finetunen, heb je een daadwerkelijke getranscribeerde audiodataset nodig. We hebben geen getranscribeerde audiogegevens nodig om onze spraak-AI te trainen. Aan finetunen doen we niet", aldus Simonic.

Dataset en infrastructuur

Soniox beweert een eigen dataset te hebben met meer dan 88,000 uur aan audio en 6.6 miljard woorden voorverwerkte tekst. Ter vergelijking: de nieuwste spraakherkenning werkt vanaf: Facebook en Microsoft gebruikt tussen 13,100 en 65,000 uur aan gelabelde en getranscribeerde spraakgegevens. En die van Mozilla Gemeenschappelijke stem, een van de grootste openbare geannoteerde stemmencorpora, heeft 9,000 uur aan opnames.

Hoewel relatief onderbelicht op het gebied van spraak, toont een groeiend aantal onderzoeken het potentieel aan om te leren van niet-gelabelde gegevens. Microsoft gebruikt onbewaakt leren om er kennis over te extraheren verstoringen aan zijn clouddiensten. Meer recentelijk heeft Facebook aangekondigd ZIENER, een model zonder toezicht dat is getraind op een miljard afbeeldingen en ogenschijnlijk de allernieuwste resultaten behaalt op een reeks computervisie-benchmarks.

Soniox verzamelt wekelijks meer gegevens, met als doel het scala aan woordenschat dat het platform kan transcriberen uit te breiden. Simonic wijst er echter op dat meer audio en tekst niet per se nodig is om de woordnauwkeurigheid te verbeteren. De algoritmen van Soniox kunnen meer over bekende woorden 'extraheren' met meerdere iteraties, waardoor ze bepaalde woorden beter leren herkennen dan voorheen.

Boven: het cloudplatform van Sonicox.

Afbeelding tegoed: Soniox

AI heeft een bekend bias-probleem, en leren zonder toezicht elimineert niet het potentieel voor bias in de voorspellingen van een systeem. Computervisiesystemen zonder toezicht kunnen bijvoorbeeld raciale en genderstereotypen oppikken die aanwezig zijn in trainingsdatasets. Simonic zegt dat Soniox ervoor heeft gezorgd dat de audiogegevens "extreem divers" zijn, met sprekers uit de meeste landen en accenten over de hele wereld. Hij geeft toe dat de datadistributie over accenten niet in balans is, maar beweert dat het systeem nog steeds "extreem goed" presteert met verschillende luidsprekers.

Soniox bouwde ook zijn eigen hardware-infrastructuur voor training, die het opslaat op meerdere servers in een collocatie-datacenterfaciliteit. Simonic zegt dat het technische team van het bedrijf de systeem- en machine learning-frameworks heeft geïnstalleerd en geoptimaliseerd en de inferentie-engine helemaal opnieuw heeft geschreven.

“Het is uiterst belangrijk om elk stukje overdracht en berekening onder controle te hebben wanneer je AI-modellen op grote schaal traint. Je hebt nogal wat rekenwerk nodig om slechts één iteratie uit te voeren over een dataset van meer dan 88,000 uur”, zegt Simonic. "[De inferencing-engine] is sterk geoptimaliseerd en kan mogelijk op elke hardware draaien. Dit is super belangrijk voor productie-implementatie, omdat spraakherkenning rekenkundig duur is om uit te voeren in vergelijking met de meeste andere AI-modellen en het besparen van elk beetje rekenwerk op een groot volume leidt tot grote besparingen - denk aan miljoenen uren audio en video per maand. ”

Opschalen

Na de lancering in bèta eerder dit jaar, maakt Soniox zijn platform algemeen beschikbaar. Nieuwe gebruikers krijgen vijf uur per maand gratis spraakherkenning, die kan worden gebruikt in de web- of iOS-app van Soniox om live audio op te nemen van een microfoon of om bestanden te uploaden en te transcriberen. Soniox biedt een onbeperkt aantal gratis herkenningssessies voor maximaal 30 seconden per sessie, en ontwikkelaars kunnen de uren gebruiken om audio te transcriberen via de Soniox API.

Het is nog vroeg, maar Soniox zegt dat het onlangs zijn eerste klant heeft ondertekend in DeepScribe, een startup voor transcriptie die zich richt op de gezondheidszorg. DeepScribe stapte over van een spraak-naar-tekstmodel van Google omdat Soniox' transcripties van arts-patiëntgesprekken nauwkeuriger waren, beweert Simonic.

“Om een bedrijf te starten, is het niet voldoende om nieuwe technologie te ontwikkelen. Daarom hebben we diensten en producten ontwikkeld rond onze nieuwe spraakherkenningstechnologie”, zegt Simonic. "Ik verwacht dat er veel meer klanten zoals DeepScribe zullen zijn zodra het woord over Soniox de ronde doet."

VentureBeat

De missie van VentureBeat is om een digitaal stadsplein te zijn voor technische besluitvormers om kennis op te doen over transformatieve technologie en transacties. Onze site biedt essentiële informatie over datatechnologieën en strategieën om u te begeleiden bij het leiden van uw organisaties. We nodigen u uit om lid te worden van onze community, om toegang te krijgen tot:

up-to-date informatie over de onderwerpen die u interesseren
onze nieuwsbrieven
gated thought-leader content en toegang met korting tot onze gewaardeerde evenementen, zoals Transformeer 2021: Kom meer te weten
netwerkfuncties en meer

Word lid

Generatieve data-intelligentie

Soniox maakt gebruik van onbewaakt leren om spraakherkenningssystemen te bouwen

Spraak zonder toezicht

Dataset en infrastructuur

Opschalen

VentureBeat

itcoin: het wonderkind van de financiële wereld?

Crypto durfkapitaaltrends: analyse van het eerste kwartaal van 1 door Galaxy Digital Research

Laatste intelligentie

Cardano (ADA) Historische trends duiden op een parabolische bullrun, zegt analist

Inwoner van New York aangeklaagd voor crypto-gerelateerd Ponzi-plan van $ 43 miljoen

Oekraïne onthult een ‘technologische sprong die nog geen enkele diplomatieke dienst ter wereld heeft gemaakt’”

Oekraïne onthult een ‘technologische sprong die nog geen enkele diplomatieke dienst ter wereld heeft gemaakt’”

Eén persoon werd neergeschoten na een woordenwisseling in het Umhlanga CBD buiten een plaatselijk uitgaanscentrum – Medical Marijuana Program Connection

Eén persoon werd neergeschoten na een woordenwisseling in het Umhlanga CBD buiten een plaatselijk uitgaanscentrum – Medical Marijuana Program Connection