Zephyrnet-Logo

Glückliche Alexa, traurige Alexa…

Datum:

Alex Kinzer

Im November 2020 fügte Amazon Alexa weitere hinzu neue Sprachvoreinstellungen ("Musikalisch" und "Konversation") zu ihren im November 2019 veröffentlichten SSML-Voreinstellungen ("Excited / Disappointed"). * Obwohl Alexa Beispiele für den Code für jede Voreinstellung bereitstellt, sind sie immer noch ziemlich vage (gut intern) Codierung) Also war ich aus audio / neurowissenschaftlicher Sicht daran interessiert, was das gemacht hat Stimmen klanglich anders und wie das im Vergleich zur aktuellen Literatur zu akustischen Eigenschaften von Sprache und emotionaler Prosodie anhand der Beispiele auf ihrer Website.

* Ich bin Student und nicht mit Amazon verbunden. Alle Sounds, Codes und Nachrichten sind öffentlich verfügbar.

Mit den originalen und neuen Audiobeispielen L und R konnte ich das Freqanalyst Logic Pro X-Plug-In von Blue Cat Audio verwenden, um einen Spitzenfrequenzvergleich nebeneinander durchzuführen. Ich hätte gerne ein Spektrogramm für einen genaueren Frequenz- / Zeitvergleich verwendet, aber A. Logic hat meines Wissens kein gutes und B. es ist schwieriger, sie nebeneinander visuell zu vergleichen. (Irgendwelche Vorschläge, wie ich meine Testmethoden verbessern könnte, werden freundlicherweise angenommen - ich denke, Reaper hat eine, mit der ich nicht vertraut bin?). Ich habe auch den zeitlichen Aspekt der Stimmenpausen durch visuellen Vergleich der Wellenformen verglichen. In jedem unten gezeigten Beispiel wird die Originalstimme immer durch die Farbe Blau dargestellt und die neue Voreinstellung ist in Rot. Da jedes Beispiel dieselben Wörter wie sein Gegenstück verwendet, sollte es aufgrund von Phonemunterschieden keinen Frequenzunterschied geben. Die Audiodateien hatten auch die gleiche Verstärkung / Lautstärke.

Die „musikalische“ Sprache (unten) ändert Intonation und Zeit - die Stimme erreicht schneller die syntaktische Betonung des Satzes (SomeOfTheMost POPULAR). Die musikalische Stimme ist auch in den oberen Frequenzen lauter. Amazon schlägt diesen Modus vor, um „DJs oder Radiomoderatoren zu emulieren“ / „die Rede für das Sprechen über Musik, Videos oder andere Multimedia-Inhalte zu gestalten“. Dies ist jedoch keine definierbare Hörvorgabe, so dass es keinen spezifischen Vergleich mit der aktuellen Literatur auf die gleiche Weise wie mit der emotionalen Sprache gibt. Die Verwendung von „Musical“ in diesem Zusammenhang hat bei einigen Klangforschern zu Diskussionen über ihre Nomenklatur geführt.

Der „Konversationsstil“ (unten) ist insgesamt langsamer als das neutrale Original und fügt Kommas hinzu, bei denen die menschliche Sprache zur Klarheit wahrscheinlich einen Atemzug nehmen würde. Siehe die zusätzliche Pause zwischen "virtueller Assistent" und "KI-Technologie". Ich weiß nicht, ob diese Pause über Code oder KI hinzugefügt wurde. basierend auf technische Details Von Amazon bereitgestellt sieht es nicht so aus, als würden Pausen manuell hinzugefügt. Ich weiß jedoch, dass es SSML-Optionen gibt, um Pausen basierend auf einer bestimmten Zeitdauer oder basierend auf „Stärke“ zu erstellen (syntaktische Betonung, z. B. Absatz- oder Satzumbrüche und Kommas). Potenziell verwandt ist die Pause in der neuen (roten) Sprache völlig still, als ob das Signal ein Rauschgatter enthält, verglichen mit dem blauen Original, das die Schwänze der Stimme zeigt. Die Verwendung eines Tors oder eines anderen erzwungenen Clippings kann eine Möglichkeit sein, die Pause hervorzuheben, ohne das tatsächliche Timing so stark zu ändern.

Die "enttäuschte" Sprache ist (eindeutig) zeitlich identisch mit der neutralen Sprache, jedoch ist die neue Sprache in den oberen Frequenzen niedriger. Keiner dieser Unterschiede entspricht meiner Meinung nach der üblichen emotionalen Prosodie. Die traurige Stimme scheint jedoch einen niedrigeren 1. Formanten zu haben (Juslin / Laukka, 2001)

Die "angeregte" Sprache ist erheblich schneller als das Original und weist einige der meisten Frequenzschwankungen gegenüber der neutralen Sprache auf. Wenn Sie Juslin / Laukka erneut verwenden, können Sie sehen, dass der erste Formante im Original niedriger ist als die angeregte Sprache, die ihren Erkenntnissen in Bezug auf emotionale Prosodie / akustische Eigenschaften emotionaler Sprache folgt.

Source: https://chatbotslife.com/happy-alexa-sad-alexa-bf26e9939ee6?source=rss—-a49517e4c30b—4

spot_img

Neueste Intelligenz

spot_img