제퍼넷 로고

Modulate는 Amazon EC5 G2g 인스턴스로 인프라 비용을 5배 줄이면서 음성 채팅을 더 안전하게 만듭니다.

시간

이것은 Modulate의 CTO이자 공동 설립자인 Carter Huffman의 게스트 게시물입니다.

변조 모두를 위한 보다 풍부하고 안전하며 포용적인 온라인 게임 경험을 구축한다는 사명을 갖고 보스턴에 기반을 둔 스타트업입니다. 우리는 더 나은 온라인 세상을 만들고 모든 플레이어를 위해 음성 채팅을 더 안전하게 만들고자 하는 세계적 수준의 오디오 전문가, 게이머, 협력자 및 미래학자로 구성된 팀입니다. 우리는 능동적인 음성 기반 조정 플랫폼인 ToxMod로 바로 그것을 하고 있습니다. 게임 퍼블리셔와 개발자는 ToxMod를 사용하여 자체 콘텐츠 정책, 행동 강령 및 커뮤니티 가이드라인에 따라 게임에서 음성 채팅을 사전에 조정합니다.

우리는 애플리케이션에 필요한 확장성 및 탄력성과 훌륭한 고객 서비스를 제공하기 위해 AWS를 선택했습니다. 사용 아마존 엘라스틱 컴퓨트 클라우드 (아마존 EC2) G5g 인스턴스 ToxMod의 인프라로 NVIDIA T4G Tensor Core GPU를 사용함으로써 비용을 5배(G4dn 인스턴스와 비교하여) 낮추는 동시에 처리량과 대기 시간에 대한 목표를 달성할 수 있었습니다. 민첩한 스타트업으로서 우리는 이러한 비용 절감을 우리의 사명을 수행하는 데 도움이 되는 추가 혁신에 재투자할 수 있습니다. 이 게시물에서는 사용 사례, 과제 및 대체 경로와 AWS를 사용하는 솔루션에 대한 간략한 개요를 다룹니다.

변화하는 메타버스와 ToxMod의 필요성

최신 온라인 게임과 메타버스 플랫폼은 이전 게임보다 훨씬 더 사회적이 되었습니다. 역사적으로 게임은 플레이어에게 특정 선별된 경험을 제공하는 데 중점을 두었습니다. 오늘날, 그들은 플레이어와 친구들이 모여 다양한 경험을 선택할 수 있는 공동 공간으로 발전했습니다. 이러한 진화로 인해 독성과 언어적 학대는 종종 훌륭한 온라인 경험을 망칠 수 있습니다.

사실, 최근의 연구 인사말 안티 명예 훼손 리그, 게임의 독성은 그 어느 때보다 심각합니다. 게임에서 백인 우월주의 이념에 대한 노출이 2022년에 두 배 이상 증가했습니다. 성인 게이머의 17분의 XNUMX 이상이 온라인 게임에서 심각한 괴롭힘을 경험했다고 보고했습니다. 지난 XNUMX년 동안 XNUMX만 명 이상의 젊은 게이머들이 피해와 괴롭힘에 노출되었습니다. 문제는 점점 더 악화되고 있으며, 다가오는 규정 스튜디오가 독성을 관리하고 보고하는 데 더 적극적인 역할을 해야 하므로 능동적인 음성 조절의 필요성이 그 어느 때보다 시급합니다.

ToxMod는 게임 게시자와 플랫폼이 자체 정책 및 지침에 따라 음성 채팅을 사전에 조정하여 커뮤니티를 안전하고 긍정적으로 유지하도록 돕습니다. ToxMod는 음성 대화의 감정적, 텍스트 및 대화적 측면을 분석하여 게시자 또는 플랫폼의 콘텐츠 정책을 위반하는지 확인하는 일련의 기계 학습(ML) 모델을 실행합니다. 위반 사항은 나쁜 행위자에 대해 조치를 취할 수 있는 중재자에게 표시됩니다. 당사의 ML 모델에는 위반을 분류하고 순위 점수를 제공하여 위반이 발생했다는 확신이 있는지 판단하는 감정 감지, 전사 및 NLP 기반 대화 분석이 포함됩니다. 이러한 탐지는 실시간으로 발생하며 게임 퍼블리셔는 독성이 발생할 때 사전에 커뮤니티를 조정하여 플레이어에 대한 피해와 위험한 대화가 확대되는 것을 방지할 수 있습니다.

경제적 및 기술적 고려 사항

경제적 제약과 기술 제약이라는 두 가지 유형의 제약이 있습니다. 경제적 측면에서 우리의 문제는 가변적인 수요와 필요한 컴퓨팅 인프라의 불확실한 규모입니다. 게임 산업에서 개발자와 퍼블리셔는 최소한의 마진으로 게임을 출시하고 게임이 더 성공적일 때만 확장합니다. 이러한 성공은 우리의 최대 고객이 매월 수백만 시간의 음성 채팅을 처리하고 있음을 의미할 수 있습니다. ToxMod의 비용은 오디오 처리 시간에 따라 달라지는데, 이는 플레이어의 행동과 게임의 인기에 영향을 미치는 외부 요인에 따라 매우 역동적입니다. ToxMod에 전원을 공급하기 위해 자체 서버를 운영하는 것은 비용과 팀 대역폭 측면에서 엄청나게 비쌉니다. 온프레미스 서버는 이러한 확장성이 부족하고 종종 활용도가 낮습니다. 즉, ToxMod의 올바른 선택은 클라우드입니다. AWS를 사용하면 비용을 최소한으로 유지하면서 고객의 요구에 맞게 동적으로 확장할 수 있습니다.

기술적인 측면에서 음성 프로세스 애플리케이션을 구축할 때와 마찬가지로 대기 시간과 처리량 간의 균형을 맞춰야 합니다. 일부 사용자는 커뮤니티에서 발생할 수 있는 상황이 발생한 지 2~5분 내에 해결할 수 있는 기능을 원합니다. 대기 시간 예산을 충족하기 위해 가능한 한 낮은 수준으로 이동합니다. 많은 ToxMod 코드 기반이 종종 ARM 프로세서에서 실행되는 클라이언트 측 장치에서 실행되기 때문에 우리는 ARM 장치에 대해 많은 경험을 가지고 있습니다. NVIDIA T4G Tensor Core GPU로 구동되고 특징이 있는 ECXNUMX GXNUMXg 인스턴스 AWS 그래비톤2 프로세서는 클라이언트 측 사용을 위해 개발된 일부 사용자 지정 신경망 추론 코드에 적합했습니다.

비용 효율성 및 AWS 안정성을 위한 EC2 G5g 인스턴스

이러한 고려 사항을 고려하여 G5g 인스턴스를 ToxMod의 인프라로 사용하기로 결정했습니다. G5g 인스턴스는 비용 효율적이고 모델을 테스트하고 배포할 수 있는 친숙한 환경을 제공하기 때문입니다. 이 선택은 궁극적으로 비용을 4배 절감하는 데 도움이 되었습니다(G5dn 인스턴스와 비교). 빠르게 반복할 수 있으려면 데이터 과학자와 ML 엔지니어에게 친숙한 컴퓨팅 환경이 필요했습니다. G4g 인스턴스에서 실행되는 모든 관련 드라이버, 라이브러리 및 환경 변수가 포함된 머신 이미지를 하루 안에 얻을 수 있었습니다. 우리는 G5dn 인스턴스에서 시작했고 G40g에 대한 초기 테스트를 통해 비용을 XNUMX%까지 낮출 수 있었습니다. 실행하는 데 가장 비용이 많이 드는 모델 중 다수는 GPU 바인딩이므로 단일 GPU에 계속 액세스하면서 CPU 활용도를 최대화할 수 있는 인스턴스 크기로 적절한 크기를 조정하여 비용을 더욱 최적화할 수 있었습니다.

구성에 특히 잘 작동하는 G5g 인스턴스 외에도 우리는 AWS의 기술 지원 및 계정 관리를 통해 문제를 신속하게 해결하고 매우 가변적인 로드를 경험하면서 매우 높은 가동 시간을 유지할 수 있다는 것을 알았습니다. 우리가 시작했을 때 우리는 한 달에 두 자릿수 미만의 비용을 지출하고 있었지만 실제 사람이 우리의 사용 사례에 대해 알아보기 위해 손을 내밀었고 사람들로 구성된 팀이 우리의 응용 프로그램이 작동할 뿐만 아니라 가장 비용이 적게 드는 작업을 할 수 있도록 함께 작업했습니다. 효율적인 방식.

솔루션 개요

ToxMod의 솔루션은 SDK를 게임 또는 플랫폼의 음성 채팅 인프라에 통합하여 달성되는 오디오 수집으로 시작됩니다. 오디오를 처리할 때 리소스 효율성이 매우 높아야 하므로 SDK(API 또는 기타 인터페이스를 통해)를 사용하는 것이 중요합니다. 단일 오디오 스트림의 경우 이를 처리하고 시스템의 나머지 부분에 신속하게 다시 전달해야 합니다. 그렇지 않으면 고객이 오디오에서 결함을 발견하게 됩니다. 이는 우리가 어떤 대가를 치르더라도 피하고자 하는 것입니다. 메모리 할당, 가비지 수집 및 시스템 호출을 포함하여 많은 것들이 결함을 일으킬 수 있으므로 가장 원활한 오디오 처리를 보장하기 위해 ToxMod SDK를 개발했습니다.

SDK에서 음성 채팅은 짧은 버퍼에 인코딩되어 인터넷을 통해 전송됩니다. 수집 측면에서 몇 초의 오디오를 버퍼링하고 패키지를 AWS 클라우드로 보내기 전에 음성 대화에서 자연스러운 중단점을 찾으려고 합니다. AWS 람다 기능. 여기에서 다양한 ML 오디오 모델을 실행하는 G5g 인스턴스에서 처리를 통해 오디오 대화 분석이 수행됩니다. 수신한 모든 패킷을 일괄 처리하고 G5g 인스턴스의 GPU로 전송하여 오버헤드를 최소화합니다. G5g 인스턴스는 처리할 오디오 클립 대기열을 통해 공급되며, 하루 종일 트래픽이 변화함에 따라 효율적으로 확장 또는 축소하는 자동 확장 그룹에 연결됩니다.

앞서 찾고

ToxMod는 소규모 인디 개발 팀부터 AAA, 다중 팀 개발자 및 퍼블리셔에 이르기까지 모든 규모의 스튜디오를 위해 제작되었습니다. 오늘날 우리는 가장 큰 스튜디오의 엔터프라이즈 팀이 소프트웨어 파트너에게 기대하는 수준의 지원, 제품 개발 및 강력한 기능을 제공할 수 있는 유리한 위치에 있습니다. 18개 언어에 대한 다국어 지원, 연중무휴 엔터프라이즈급 지원, 여러 게임이 있는 스튜디오에 사용 가능한 단일 테넌트 라이선스, AWS가 제공하는 확장 가능한 ML 인프라 지원을 통해 AAA 스튜디오가 음성 채팅을 안전하게 할 수 있도록 지원합니다. 그들의 선수를 위해.

EC2 G5g 인스턴스가 ML 워크로드를 비용 효율적으로 배포하는 데 어떻게 도움이 되는지 자세히 알아보려면 다음을 참조하십시오. Amazon EC2 G5g 인스턴스.


저자에 관하여

 카터 허프만 온라인 독성을 퇴치하고 게임에서 음성 커뮤니케이션을 향상시키는 것을 목표로 하는 음성 기술 스타트업인 Modulate의 CTO이자 공동 설립자입니다. 그는 물리학, 기계 학습 및 데이터 분석에 대한 배경 지식을 가지고 있으며 이전에는 NASA의 제트 추진 연구소에서 근무했습니다. 그는 심층 신경망을 사용하여 인간의 말을 이해하고 조작하는 데 열정적입니다. 그는 물리학 학사로 MIT를 졸업했습니다.

슈루티 코파카르 AWS의 수석 제품 마케팅 관리자입니다. 그녀는 고객이 기계 학습 요구 사항에 맞게 EC2 가속 컴퓨팅 인프라를 탐색, 평가 및 채택하도록 돕습니다.

spot_img

최신 인텔리전스

spot_img