AudioLM bootst ongemerkt spraak en muziek na

De onderzoeksafdeling van Google heeft AudioLM gelanceerd, een raamwerk voor het creëren van hoogwaardige audio die consistent blijft in de tijd.
Het meest verbazingwekkende is dat het dit doet zonder voorafgaande transcripties of annotaties, ondanks het feit dat de gegenereerde spraak syntactisch en semantisch acceptabel is.
Bovendien behoudt het de identiteit en prosodie van de spreker tot het punt dat de luisteraar niet kan onderscheiden welk deel van de audio echt is en welk deel van de audio is gegenereerd door kunstmatige intelligentie.
Het meest cruciale kenmerk van de kunstmatige intelligentie van AudioLM is het vermogen om meerdere taken tegelijk uit te voeren, niet alleen om gesprekken en melodieën te herhalen.
AudioLM is nog niet publiekelijk toegankelijk; het is slechts een taalmodel dat in verschillende toepassingen kan worden toegepast.

We lieten ze schaakspellen zien en ze werden al snel onverslaanbare tegenstanders; we lieten ze onze teksten lezen en al snel begonnen ze te schrijven. Ze leerden ook schilderen en fotobewerkingen doen. Was er iemand die eraan twijfelde dat kunstmatige intelligentie hetzelfde zou kunnen doen met toespraken en muziek?

Inhoudsopgave

AudioLM van Google verricht wonderen, zowel met spraak als met muziek

De onderzoeksgroep van Google heeft AudioLM gelanceerd, een raamwerk voor het produceren van hoogwaardige audio die consistent blijft in de tijd. Om dit te doen, begint het met een opname die slechts enkele seconden duurt en in staat is om deze op natuurlijke en logische wijze uit te breiden.

Het meest indrukwekkende aspect is dat het dit doet zonder te worden onderwezen met eerdere transcripties of annotaties, ondanks het feit dat de gecreëerde spraak syntactisch en semantisch redelijk is. Bovendien behoudt het de identiteit en prosodie van de spreker tot het punt dat de luisteraar niet in staat is om te bepalen welk stuk van de audio echt is en welke is gemaakt door kunstmatige intelligentie.

Google's nieuwe Ai, Audiolm, kan spraak en muziek bijna perfect nabootsen — ***De nieuwe AI bootst niet alleen de spraak na, maar ook het achtergrondgeluid***

De toepassingen van kunstmatige intelligentie zijn verbluffend. Het kan niet alleen articulatie, toonhoogte, klankkleur en intensiteit nabootsen, maar het kan ook het geluid van de adem van de spreker introduceren en begrijpelijke zinnen maken. Als het niet uit een studio komt, maar eerder van een opname met achtergrondgeluid, bootst AudioLM het na om continuïteit te garanderen. Meer voorbeelden zijn beschikbaar op de AudioLM-website.

AudioLM is getraind in semantiek en akoestiek

Het creëren van audio of muziek is geen nieuw fenomeen. Het is echter de aanpak van Google-onderzoekers om het probleem op te lossen. Semantische indicatoren (fonemen, lexicon, semantiek...) en akoestische markeringen (identiteit van de spreker, opnamekwaliteit, achtergrondruis...) worden verzameld van elke audio om een structuur op hoog niveau te coderen (fonemen, lexicon, semantiek...).

Met deze gegevens die al zijn verwerkt en begrijpelijk voor AI, begint AudioML zijn taak met het construeren van een hiërarchie waarin het eerst semantische markeringen voorspelt, die vervolgens worden gebruikt als beperkingen om akoestische markeringen te voorspellen. Dat laatste wordt aan het einde nog een keer gebruikt om de stukjes om te zetten in iets dat we kunnen horen.

Deze semantische scheiding en hiërarchie van akoestiek zijn niet alleen nuttig voor het trainen van taalmodellen die spraak creëren. Het is volgens de onderzoekers ook succesvoller voor het voortzetten van pianocomposities, zoals blijkt uit hun website. Het presteert beter dan modellen die uitsluitend zijn getraind met behulp van auditieve markers.

Frankrijk gaat kunstmatige intelligentie gebruiken om belastbare zwembaden te ontdekken

Het belangrijkste aspect van de kunstmatige intelligentie van AudioLM is dat het alles tegelijk kan uitvoeren, niet alleen toespraken en melodieën herhalen. Het is daarom een model met één taal dat kan worden gebruikt voor tekst-naar-spraak - een robot kan hele romans lezen en professionele stemacteurs vervangen - of om een gadget in staat te stellen met mensen te praten met een bekende stem. Amazon heeft al de mogelijkheid onderzocht om de stem van dierbaren in zijn Alexa-apparaten te gebruiken.

Wordt AI met de dag gevaarlijker?

Programma's zoals DALL-E 2 en stabiele diffusie zijn uitstekende hulpmiddelen om snel ideeën te schetsen of creatieve materialen te genereren. Audio kan veel belangrijker zijn, en je kunt bedrijven zien die op verzoek de stem van een omroeper gebruiken. De stemmen van overleden acteurs kunnen zelfs worden gebruikt in nasynchronisatiefilms.

Je denkt misschien dat dit idee, hoewel opwindend, ook riskant is. Elke audio-opname kan worden gemanipuleerd voor politieke, juridische of gerechtelijke doeleinden. Volgens Google hebben mensen moeite om onderscheid te maken tussen wat van de mens komt en wat van kunstmatige intelligentie, maar een computer kan onderscheiden of de audio organisch is of niet. Niet alleen dat machines ons kunnen vervangen, maar er zal een andere machine nodig zijn om hun werk te beoordelen.

Er is veel vraag naar banen in kunstmatige intelligentie: dit zijn de carrièrepaden

AudioLM is nog niet beschikbaar voor het publiek; het is slechts een taalmodel dat in verschillende toepassingen kan worden geïmplementeerd. Echter, dit voorbeeld, samen met OpenAI's Jukebox-muzieksoftware, laat zien hoe snel we een nieuwe wereld betreden waar niemand ooit zal weten of het kan schelen of die foto door een persoon is gemaakt of dat er iemand aan de andere kant van de telefoon is.

Generatieve data-intelligentie

AudioLM bootst spraak en muziek onopvallend na

AudioLM van Google verricht wonderen, zowel met spraak als met muziek

AudioLM is getraind in semantiek en akoestiek

Wordt AI met de dag gevaarlijker?

BLAST Premier en GG.BET bundelen hun krachten in een exclusief partnerschap

Nope Challenge gamificeert het onder ogen zien van je fobieën in VR On Quest

Laatste intelligentie

Tokenisatie en real-world assets staan centraal

Tokenisatie en real-world assets staan centraal

Vergeet de AI-doem en hype, laten we computers nuttig maken

Fintech Outsourcing Verenigde Staten: Cynergy BPO – Waarom onshore-ondersteuning nog steeds de boventoon voert

Fintech Outsourcing Verenigde Staten: Cynergy BPO – Waarom onshore-ondersteuning nog steeds de boventoon voert

Fintech Outsourcing Verenigde Staten: Cynergy BPO – Waarom onshore-ondersteuning nog steeds de boventoon voert

Chat met ons