Zephyrnet-Logo

Modulate macht Voice-Chat sicherer und senkt gleichzeitig die Infrastrukturkosten um den Faktor 5 mit Amazon EC2 G5g-Instances

Datum:

Dies ist ein Gastbeitrag von Carter Huffman, CTO und Mitbegründer von Modulate.

Modulieren ist ein in Boston ansässiges Startup mit der Mission, reichhaltigere, sicherere und integrativere Online-Gaming-Erlebnisse für alle zu schaffen. Wir sind ein Team aus Weltklasse-Audioexperten, Gamern, Verbündeten und Zukunftsforschern, die bestrebt sind, eine bessere Online-Welt aufzubauen und den Voice-Chat für alle Spieler sicherer zu machen. Genau das tun wir mit ToxMod, unserer proaktiven, sprachnativen Moderationsplattform. Spiele-Publisher und -Entwickler verwenden ToxMod, um den Voice-Chat in ihren Spielen gemäß ihren eigenen Inhaltsrichtlinien, Verhaltenskodizes und Community-Richtlinien proaktiv zu moderieren.

Wir haben uns für AWS wegen der Skalierbarkeit und Elastizität entschieden, die unsere Anwendung benötigt, sowie wegen des großartigen Kundenservice, den sie bietet. Verwenden Amazon Elastic Compute-Cloud (Amazon EC2) G5g-Instanzen Die Verwendung von NVIDIA T4G Tensor Core GPUs als Infrastruktur für ToxMod hat uns geholfen, unsere Kosten um den Faktor 5 (im Vergleich zu G4dn-Instances) zu senken und gleichzeitig unsere Ziele in Bezug auf Durchsatz und Latenz zu erreichen. Als flinkes Startup können wir diese Kosteneinsparungen in weitere Innovationen reinvestieren, um unsere Mission zu erfüllen. In diesem Beitrag behandeln wir unseren Anwendungsfall, Herausforderungen und alternative Wege und geben einen kurzen Überblick über unsere Lösung mit AWS.

Das sich ändernde Metaverse und die Notwendigkeit von ToxMod

Moderne Online-Spiele und Metaverse-Plattformen sind weitaus sozialer geworden als ihre Vorgänger. In der Vergangenheit haben sich Spiele darauf konzentriert, den Spielern ein bestimmtes kuratiertes Erlebnis zu bieten. Heute haben sie sich zu einem Gemeinschaftsraum entwickelt, in dem sich Spieler und ihre Freunde versammeln und eine Vielzahl von Erfahrungen auswählen können, an denen sie teilnehmen möchten. Mit dieser Entwicklung können Toxizität und verbaler Missbrauch oft ansonsten großartige Online-Erlebnisse ruinieren.

In der Tat, nach a aktuellen Studie von dem Anti-Defamation League, Toxizität in Spielen ist schlimmer als je zuvor: Die Exposition gegenüber Ideologien der weißen Rassisten in Spielen hat sich im Jahr 2022 mehr als verdoppelt. Über drei Viertel der erwachsenen Spieler gaben an, in Online-Spielen schwere Belästigung erlebt zu haben. Mehr als 17 Millionen junge Spieler waren im vergangenen Jahr Schaden und Belästigung ausgesetzt. Das Problem wird nur immer schlimmer, und mit kommende Regelungen Dies erfordert, dass Studios eine aktivere Rolle bei der Verwaltung und Berichterstattung über Toxizität übernehmen. Die Notwendigkeit einer proaktiven Sprachmoderation ist dringender denn je.

ToxMod hilft Spieleherausgebern und -plattformen, ihren Voice-Chat proaktiv gemäß ihren eigenen Richtlinien und Richtlinien zu moderieren, um ihre Communitys sicher und positiv zu halten. ToxMod führt eine Reihe von Modellen für maschinelles Lernen (ML) aus, die die emotionalen, textlichen und konversationellen Aspekte von Sprachkonversationen analysieren, um festzustellen, ob es Verstöße gegen die Inhaltsrichtlinien des Herausgebers oder der Plattform gibt. Verstöße werden menschlichen Moderatoren gemeldet, die gegen Angreifer vorgehen können. Unsere ML-Modelle umfassen Emotionserkennung, Transkription und NLP-gestützte Gesprächsanalyse, die Verstöße kategorisiert und einen Rangwert liefert, um festzustellen, wie sicher es ist, dass ein Verstoß stattgefunden hat. Diese Erkennungen erfolgen in Echtzeit und ermöglichen Spieleherausgebern, ihre Communitys proaktiv zu moderieren, wenn Toxizität auftritt, um zu verhindern, dass Spieler Schaden erleiden und gefährliche Gespräche nicht eskalieren.

Wirtschaftliche und technische Überlegungen

Wir haben zwei Arten von Beschränkungen: wirtschaftliche und technische. Auf der wirtschaftlichen Seite ist unser Problem die variable Nachfrage und der ungewisse Umfang der erforderlichen Recheninfrastruktur. In der Spielebranche bringen Entwickler und Publisher Spiele mit minimalen Margen auf den Markt und skalieren nur, wenn das Spiel erfolgreicher wird. Dieser Erfolg kann bedeuten, dass unsere größten Kunden Millionen von Stunden Voice-Chat pro Monat verarbeiten. Die Kosten von ToxMod skalieren mit der Anzahl der verarbeiteten Audiostunden, die sehr dynamisch sind, basierend auf dem Verhalten der Spieler und externen Faktoren, die die Popularität eines Spiels beeinflussen. Der Betrieb unserer eigenen Server zur Stromversorgung von ToxMod ist sowohl in Bezug auf die Kosten als auch auf die Teambandbreite unerschwinglich teuer. On-Premise-Servern fehlt diese Skalierbarkeit und sie würden oft nicht ausgelastet, was bedeutet, dass die richtige Wahl für ToxMod die Cloud ist. Mit AWS können wir dynamisch skalieren, um den Anforderungen unserer Kunden gerecht zu werden, während wir die Kosten auf einem Minimum halten.

Auf der technischen Seite müssen wir, wie beim Erstellen jeder Sprachverarbeitungsanwendung, ein Gleichgewicht zwischen Latenz und Durchsatz finden. Einige unserer Benutzer möchten die Möglichkeit haben, Situationen, die in ihren Communities auftreten können, innerhalb von ein oder zwei Minuten nach ihrem Eintreten zu beheben. Um unsere Latenzbudgets einzuhalten, gehen wir so niedrig wie möglich. Wir haben viel Erfahrung mit ARM-Geräten, weil ein Großteil der ToxMod-Codebasis auf Client-seitigen Geräten läuft, die oft auf einem ARM-Prozessor laufen. Die EC2 G5g-Instances, die von NVIDIA T4G Tensor Core-GPUs betrieben werden und mit AWS Graviton2 Prozessoren waren eine natürliche Ergänzung für einige der benutzerdefinierten Inferenzcodes für neuronale Netzwerke, die für die clientseitige Verwendung entwickelt worden waren.

EC2 G5g-Instances für Kosteneffizienz und AWS-Zuverlässigkeit

Aufgrund dieser Überlegungen haben wir uns entschieden, G5g-Instanzen als Infrastruktur für ToxMod zu verwenden, da sie kostengünstig sind und vertraute Umgebungen zum Testen und Bereitstellen unserer Modelle bieten. Diese Wahl hat uns letztendlich geholfen, unsere Kosten um den Faktor 5 zu senken (im Vergleich zu G4dn-Instances). Um schnell iterieren zu können, brauchten wir eine Rechenumgebung, mit der unsere Data Scientists und ML-Ingenieure vertraut waren. Wir konnten unser Maschinen-Image mit allen relevanten Treibern, Bibliotheken und Umgebungsvariablen innerhalb eines Tages auf G5g-Instanzen ausführen. Wir haben mit G4dn-Instances begonnen und unsere ersten Tests mit G5g ermöglichten es uns, unsere Kosten um 40 % zu senken. Viele unserer teuersten Ausführungsmodelle sind GPU-gebunden, sodass wir unsere Kosten weiter optimieren konnten, indem wir die richtige Größe auf eine Instanzgröße angepasst haben, die es uns ermöglichte, die CPU-Auslastung zu maximieren und gleichzeitig Zugriff auf eine einzelne GPU zu haben.

Abgesehen davon, dass G5g-Instances für unsere Konfiguration besonders gut funktionierten, wussten wir, dass wir uns auf den technischen Support und die Kontoverwaltung von AWS verlassen konnten, um Probleme schnell zu lösen und eine extrem hohe Betriebszeit bei gleichzeitig stark schwankender Last aufrechtzuerhalten. Als wir anfingen, gaben wir weniger als zweistellige Zahlen pro Monat aus, und dennoch hat sich eine echte Person gemeldet, um mehr über unseren Anwendungsfall zu erfahren, und ein Team von Leuten hat mit uns zusammengearbeitet, damit unsere Anwendung nicht nur funktioniert, sondern auch am kostengünstigsten funktioniert. effiziente Vorgehensweise.

Unsere Lösung im Überblick

Die Lösung von ToxMod beginnt mit der Audioaufnahme, die durch die Integration unseres SDK in die Voice-Chat-Infrastruktur eines Spiels oder einer Plattform erreicht wird. Die Verwendung eines SDK (über eine API oder andere Schnittstelle) ist entscheidend, da Sie bei der Audioverarbeitung äußerst ressourceneffizient sein müssen. Wir müssen jeden einzelnen Audiostream verarbeiten und schnell an den Rest des Systems zurückgeben, da Kunden sonst auf Störungen im Audio stoßen, was wir um jeden Preis vermeiden möchten. Viele Dinge können Störungen verursachen – einschließlich Speicherzuweisung, Garbage Collection und Systemaufrufe – deshalb haben wir das ToxMod SDK entwickelt, um eine möglichst reibungslose Audioverarbeitung zu gewährleisten.

Vom SDK werden Voice-Chats in kurzen Puffern codiert und über das Internet gesendet. Auf der Aufnahmeseite puffern wir ein paar Sekunden Audio und versuchen, natürliche Unterbrechungspunkte in Sprachkonversationen zu finden, bevor wir das Paket an die AWS Cloud senden, wo wir die eingehenden Daten über speichern AWS Lambda Funktionen. Von dort aus erfolgt die Analyse der Audiokonversation über die Verarbeitung auf G5g-Instances, auf denen unsere verschiedenen ML-Audiomodelle ausgeführt werden. Wir minimieren den Overhead, indem wir alle empfangenen Pakete bündeln und an die GPUs in den G5g-Instanzen senden. Die G5g-Instanzen werden zur Verarbeitung durch Warteschlangen von Audioclips gespeist, die wir an Auto Scaling-Gruppen angeschlossen haben, die effizient nach oben oder unten skalieren, wenn sich der Verkehr im Laufe des Tages ändert.

Blick in die Zukunft

ToxMod wurde für Studios jeder Größe entwickelt, von kleinen Indie-Entwicklerteams bis hin zu AAA-, Multi-Team-Entwicklern und Publishern. Heute sind wir besser denn je positioniert, um das Maß an Support, Produktentwicklung und robusten Funktionen bereitzustellen, das Unternehmensteams in den größten Studios von ihren Softwarepartnern erwarten. Mit mehrsprachiger Unterstützung für 18 Sprachen, 24/7-Support der Enterprise-Klasse, verfügbaren Single-Tenant-Lizenzen für Studios mit mehreren Spielen und der Unterstützung der skalierbaren ML-Infrastruktur, die AWS bietet, sind wir hier, um AAA-Studios dabei zu helfen, Voice-Chat sicher zu machen für ihre Spieler.

Wenn Sie mehr darüber erfahren möchten, wie EC2 G5g-Instances Ihnen helfen können, Ihre ML-Workloads kostengünstig bereitzustellen, lesen Sie unter Amazon EC2 G5g-Instances.


Über die Autoren

 Carter Huffmann ist CTO und Mitbegründer von Modulate, einem Sprachtechnologie-Startup, das darauf abzielt, Online-Toxizität zu bekämpfen und die Sprachkommunikation in Spielen zu verbessern. Er hat einen Hintergrund in Physik, maschinellem Lernen und Datenanalyse und arbeitete zuvor am Jet Propulsion Laboratory der NASA. Seine Leidenschaft gilt dem Verstehen und Manipulieren menschlicher Sprache mithilfe tiefer neuronaler Netze. Er schloss sein Studium am MIT mit einem Bachelor of Science in Physik ab.

Shruti Koparkar ist Senior Product Marketing Manager bei AWS. Sie hilft Kunden bei der Erkundung, Bewertung und Einführung der beschleunigten EC2-Computing-Infrastruktur für ihre Anforderungen an maschinelles Lernen.

spot_img

Neueste Intelligenz

spot_img