De meeste spraakherkennings-apps hebben geen moeite met het transcriberen van een native speaker die wordt opgenomen met een professionele microfoon in een stille kamer. Dit is geen uitdaging.
Dus om ze grondiger te testen, heb ik een "nachtmerrie" -opname gemaakt van twee niet-moedertaalsprekers met luide achtergrondgeluiden in de stad.
Hoe verging het hen?
Dat zoeken we uit.
Otter was een van de meest genoemde oplossingen toen we om suggesties vroegen op Twitter en in de Ahrefs-community. En met een goede reden. Het is eenvoudig in te stellen, heeft een intuïtieve interface en biedt duidelijke prijzen.
Unieke kenmerken
Wat opvalt van de rest, is de mogelijkheid van de app om online vergaderingen op te nemen en te transcriberen, simpelweg door de URL van de vergadering te plakken. Maar u kunt ook rechtstreeks in de app een video-/audiobestand importeren of audio opnemen.
Bovendien kunt u uw agenda koppelen om nooit meer een vergadering te missen.
Transcriptie kwaliteit
Ik kreeg behoorlijke resultaten, maar er was ook veel te bewerken.
Sommige namen klopte niet. Maar ik kan geen enkele tool de schuld geven dat hij "Ahrefs" of "Tim Soulo" niet 100% van de tijd oppikt.
Eén ding dat ik ontdekte, is dat het, nadat het had laten weten dat de transcripties klaar waren, nog steeds iets op de achtergrond kon doen, speciaal in transcriptiediensten van de politie (tijdstempels aanpassen, luidsprekers taggen, enz.). Alsof een leerling nog steeds op een proefwerkje krabbelt terwijl hij het aan de leraar doorgeeft.
Prijzen
U kunt gratis beginnen en later upgraden naar een betaald abonnement. U kunt maximaal drie bestanden importeren en 290 minuten aan vergaderingen opnemen voordat u moet upgraden (vanaf april 2023).
Een account aanmaken was geen sinecure. Ik vond de interface ook gemakkelijk te navigeren. Een persoonlijke opmerking is dat het een beetje te "koud" aanvoelde om te gebruiken, aangezien ik dingen als "Bestelling plaatsen", "Facturering" en "Factuur" veel te vaak zag.
U krijgt misschien de indruk dat het is ontworpen door een boekhoudteam (in tegenstelling tot Descript dat hierna in deze samenvatting komt).
Unieke kenmerken
Naast automatisch gegenereerde transcripties biedt Rev live ondertiteling voor Zoom-vergaderingen. U heeft ook de mogelijkheid om een bestelling te plaatsen voor menselijke transcripties.
Transcriptie kwaliteit
Slechte audio met stadslawaai was een beetje te veel voor Rev. Sommige woorden ontbraken, terwijl andere verkeerd werden herkend. Het resultaat was dat sommige alinea's niet logisch waren, terwijl andere prima waren.
Prijzen
U kunt het eerste audiobestand (tot 45 minuten) gratis transcriberen. Ik kreeg een rekening van $ 1.25 met een korting die resulteerde in een totaal van $ 0.00. Bedankt, boekhoudteam. 😉
Rev heeft ook een proefperiode van 14 dagen voor zijn betaalde abonnement. Maar dat was lastig te vinden. Om het te vinden, moet u naar de voettekst van de startpagina gaan en ernaar zoeken onder 'Services'.
Descript verwelkomde me bij naam (wat een leuk toeval was). Het belangrijkste dat u moet weten, is dat het een zelfstandige software is in plaats van een webservice. Het is veel meer dan een spraak-naar-tekst-converter. Het is eigenlijk een tool voor het bewerken van video's. En er is zeker een leercurve. Maar gelukkig is onboarding buitengewoon grappig en boeiend.
Unieke kenmerken
Zoals ik al zei, is Descript meer een videobewerkingstool die goed is in transcriberen. Ik zou het "Canva voor video/bijschriften" noemen. U kunt B-rolls, effecten, animaties en meer toevoegen.
Je kunt eenvoudig slepen en neerzetten en met zijn hulp in feite een complete video produceren. Maar als u alleen een transcriptie of bijschriften van een video of audio nodig heeft, kunt u dat ook doen.
Transcriptie kwaliteit
Mijn voorbeeldaudio had nogal modderige resultaten. Soms had het moeite met het herkennen van afkortingen (bijv. SEO). Ik had ook een probleem met het verwijderen van opvulwoorden als 'uh' en 'um'.
Ik ontdekte dat als ik geen optie koos om ze te verwijderen, ze, um, bleef daar gewoon, ook al had ik ze meestal niet nodig. Maar als ik ervoor koos om ze te verwijderen, at het af en toe delen van andere woorden op, wat nog meer problemen veroorzaakte.
Ook kon het geen delen herkennen die een mens zonder problemen zou kunnen begrijpen, alleen vanuit de context, bijvoorbeeld: 'Jack of all trades' werd ''jakhals, trades''.
Aan de andere kant geloof ik dat je nog steeds kunt begrijpen waar de tekst over gaat.
Prijzen
U kunt gratis beginnen met basisfuncties en indien nodig upgraden.
MacWhisper is een transcriptietool aangedreven door Whisper. Het is een automatisch spraakherkenningssysteem (ASR), ontwikkeld door OpenAI, hetzelfde bedrijf dat ons ChatGPT heeft gebracht.
Zoals OpenAI op zijn website stelt:
Whisper is getraind op 680,000 uur aan meertalige en multitask-gesuperviseerde gegevens die via internet zijn verzameld.
Whisper is niet iets dat je gewoon kunt "rennen" zoals het is. Bovendien is het behoorlijk ingewikkeld om in te stellen als je het zelf wilt uitvoeren. Github, Python - je snapt het wel.
Gelukkig zijn er tools zoals MacWhisper die dit van je schouders nemen en je de kracht van AI laten gebruiken in een eenvoudige gebruikersinterface.
Unieke kenmerken
Gewoon spraak-naar-tekstherkenning met tijdstempels. Helaas tagt het de luidsprekers niet automatisch.
Transcriptie kwaliteit
Wanneer u de tool uitvoert, moet u een "model" kiezen om mee te werken. Kortom, hoe lichter het model, hoe sneller het zal werken. Maar grotere modellen zullen betere resultaten opleveren. Ook zijn in MacWhisper die grotere (betere maar langzamere) modellen alleen beschikbaar in de betaalde versie.
Ik besloot om te beginnen met het gratis "kleine" model, waarvan werd gezegd dat het "normale snelheid met goede nauwkeurigheid" had.
Het was OK, maar niet beter dan de concurrenten. Ik ging ervan uit dat het prima zou werken met audio van hoge kwaliteit, maar niet met de vreselijke voorbeelden die ik eraan gaf.
"AI wordt overschat", dacht ik. Maar voordat ik de Mac sloot en terugschakelde naar mijn geliefde Windows-pc, besloot ik het "grote" model eens te proberen.
En weet je wat, AI wordt niet overschat. Ik vond de resultaten veel beter dan wat dan ook.
De transcriptie was echt heel goed. Het had zelfs dingen als "Ahrefs" en "SaaS" goed! Hoewel nog steeds niet 100% van de tijd.
Prijzen
U kunt gratis kleinere modellen uitvoeren. Voor een groot model moet u een licentie aanschaffen.
Deze tool is het gemakkelijkst te gebruiken. Sleep uw bestand gewoon en zet het neer, dan is het klaar. Het duurt wel even voordat het verwerkt is.
Unieke kenmerken
Niets behalve het downloaden van een transcriptie.
Transcriptie kwaliteit
Mijn eerste indruk was dat de resultaten perfect waren omdat het visueel een zelfverzekerde tekst opleverde:
Maar na het proeflezen realiseerde ik me dat het gewoon niet de delen bevatte die het niet herkende - soms meerdere woorden achter elkaar.
Prijzen
Het is gratis te gebruiken.
Premiere Pro is niet bepaald een "transcriptietool", maar eerder een videobewerkingssoftware. Ik neem het op omdat ik aanneem dat sommige bedrijven het misschien al in hun arsenaal hebben (zoals wij).
Om naar de transcriptiefunctie in Premiere Pro te gaan, gaat u gewoon naar de werkruimte "Bijschriften en afbeeldingen" en klikt u op "Transcriptie maken".
Unieke kenmerken
Als we hier alleen rekening houden met spraakherkenning, is het goed om nauwkeurige tijdstempels te creëren, de sprekers automatisch te taggen en, indien nodig, automatisch een bewerkbare ondertitelingstrack toe te voegen aan een videoproject.
Transcriptie kwaliteit
Laten we eerlijk zijn: ik vond het luidruchtige audiotranscript een mislukking. Ik kon in de eerste plaats niet begrijpen waar mensen het over hadden.
Toch denk ik dat deze functie erg handig kan zijn als je ondertitels maakt van hoogwaardige audio. Ik heb het zelf meerdere keren gebruikt en had niets te klagen als de opnamekwaliteit goed was.
Prijzen
Je hebt een Adobe Creative Cloud abonnement om Premiere Pro te gebruiken.
Hoewel het aanmelden en uploaden van bestanden vrij eenvoudig is, moet u wat tijd besteden aan het beantwoorden van vragen over u en uw bedrijf voordat u eindelijk bij de tool zelf kunt komen. En nee, u kunt het niet overslaan om uw bedrijfsnaam, uw rol en uw bedrijfsgrootte in te typen.
Maar als je hier eenmaal doorheen bent, is de interface schoon en intuïtief.
Unieke kenmerken
U kunt een transcript of bijschriften voor video of audio genereren. Er is ook een mogelijkheid om een handmatige beoordeling van de transcriptie aan te vragen. Als alternatief kunt u ondertitels in een andere taal genereren, zodat u met één klik transcriptie en vertaling heeft.
Transcriptie kwaliteit
Happy Scribe heeft de audio heel goed getranscribeerd. Het had geen probleem met woorden als "SEO" en "SaaS" (uiteraard het zwakste punt van veel tools). Het kan ook de luidsprekers automatisch taggen, wat in bepaalde situaties handig kan zijn.
Prijzen
Ik zou één bestand gratis kunnen testen. Daarna zou ik credits moeten kopen om te gebruiken voor elke minuut getranscribeerde video of audio.
Sonix is een tool voor automatische transcripties, vertalingen en integratie met vergader-apps.
Unieke kenmerken
Naast de integratie van vergaderingen, wat bijna vanzelfsprekend is voor de meeste tools, is het genereren van AI-samenvattingen een interessante functie (in bèta vanaf april 2023.) Maar ik heb er al indrukwekkende resultaten mee behaald.
Je krijgt ook een aantal extra hulpmiddelen om met videobijschriften te werken: een tijdlijnweergave en een optie om bijschriften op te splitsen in meerdere regels. Je kunt ook een bestaand transcript importeren en Sonix synchroniseert het met de audio.
Transcriptie kwaliteit
Sonix heeft een aangepaste woordenschatfunctie. Ik merkte dat dat een beetje hielp met namen als "Tim Soulo" en "Ahrefs", maar het werkte niet 100% van de tijd. Die deed het meestal goed. Maar soms verwarde het SEO met CEO en kwam het woord "Excel" schijnbaar uit het niets terug.
Het transcript was over het algemeen logisch, maar vereiste nogal wat bewerkingen als het perfect moest zijn.
Prijzen
Sonix heeft een gratis proefversie van 25 minuten aan transcripties. Daarna moet u prepaid-tegoeden kopen of een abonnement nemen.
Notta is nog een andere transcriptieservice die werkt voor zowel realtime vergaderingen als bestaande opnames.
Unieke kenmerken
Naast transcriptie richt Notta zich op het stroomlijnen van bepaalde workflows en biedt het functies zoals kalendersynchronisatie en planner (in bèta vanaf april 2023).
Transcriptie kwaliteit
Achtergrondgeluid en slechte audiokwaliteit waren geen dealbreakers voor Notta. De transcriptieresultaten waren grotendeels in orde, maar er waren nog steeds enkele problemen.
Zinsbouw was soms een beetje raar, bepaalde woorden ontbraken, en mijn favoriete “Jack of all trades” gedeelte was deze keer niet zo netjes.
Iets anders dat het vermelden waard is, is dat het om de een of andere reden twee sprekers niet herkende en dat het hele interview was getagd als 'Speaker 1'.
Prijzen
U kunt beginnen met een gratis basisabonnement en een driedaagse proefversie van het betaalde abonnement, Notta Pro, proberen.
Laatste gedachten
Zoals je kunt zien, zijn er tal van tools om uit te kiezen. Toch lijkt het erop dat OpenAI de boel een beetje opschudde door een gratis ASR-systeem (automatische spraakherkenning) uit te brengen, waarvan ik ontdekte dat het aanzienlijk beter in staat was dan andere.
Maar pure spraakherkenningskwaliteit is slechts één factor. Misschien moet je je Zoom-vergaderingen opnemen (Otter), met ondertiteling werken in een groot videoproject (Premiere Pro) of snel een video in Canva-stijl maken (Descript).
Ik moet ook benadrukken dat ik deze tools tot het uiterste probeerde te pushen door ze de worstcasescenario-opname te geven. Voor natuurlijker gebruik kunnen de verschillen in het resultaat veel minder opvallen.
Het is geweldig om te zien dat er zoveel opties zijn, en ik hoop dat deze recensie een beetje zal helpen bij het vinden van degene die perfect voor je is.
Heb je vragen? Ping mij op Twitter.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoAiStream. Web3 gegevensintelligentie. Kennis versterkt. Toegang hier.
- De toekomst slaan met Adryenn Ashley. Toegang hier.
- Koop en verkoop aandelen in PRE-IPO-bedrijven met PREIPO®. Toegang hier.
- Bron: https://ahrefs.com/blog/best-speech-to-text-apps/