Logo Zéphyrnet

Inside the Tech – Solutions pour la recherche multilingue et sémantique

Date :

Inside the Tech est une série de blogs qui accompagne notre Podcast des discussions techniques. Dans l'épisode 19 du podcast, International, David Baszucki, PDG de Roblox, s'est entretenu avec Zhen Fang, directeur principal des produits, de la stratégie internationale de Roblox et des défis techniques que nous résolvons pour garantir une expérience localisée à des dizaines de millions de personnes dans le monde. Dans cette édition d'Inside the Tech, nous avons discuté avec Ravali Kandur, responsable de l'ingénierie, pour en savoir plus sur l'un de ces défis techniques, la recherche multilingue et sémantique, et sur la manière dont le travail de l'équipe Growth aide les utilisateurs de Roblox du monde entier à rechercher et à trouver rapidement : tout ce qu'ils veulent sur notre plateforme.

Quel est le plus grand défi technique que votre équipe doit relever ?

Jusqu'à il y a environ un an, la recherche Roblox utilisait un système lexical pour faire correspondre les résultats aux recherches des utilisateurs, ce qui signifie qu'elle se concentrait uniquement sur la correspondance de texte. Mais les comportements de recherche évoluent rapidement et cette approche ne suffit plus à proposer aux utilisateurs un contenu pertinent. Dans le même temps, certains utilisateurs de Roblox peuvent utiliser une orthographe incorrecte dans leurs requêtes. Nous devons donc être capables de suggérer des résultats qui correspondent à ce qu’ils recherchent, ce qui implique de comprendre leur intention.

Un autre problème majeur dans la recherche est le manque de données de formation dans toutes les langues. Avant la recherche sémantique, notre première étape consistait à exploiter les traductions automatiques au sein du système Roblox. Nous avons indexé les traductions puis effectué une correspondance de texte. Mais cela ne suffit pas pour toujours montrer aux utilisateurs un contenu pertinent. Nous avons donc adopté une technique de ML plus avancée appelée modèle élève-enseignant : l'enseignant apprend de notre plus grande source de contexte pour tout scénario spécifique. 

L'anglais est la langue la plus utilisée sur Roblox, c'est pourquoi nous apprenons autant de relations sémantiques que possible en anglais (le modèle de l'enseignant), puis nous les distillons dans le modèle de l'étudiant en l'étendant à d'autres langues. Cela nous aide à résoudre ce problème même si nous ne disposons pas de beaucoup de données dans certaines langues. Cela a conduit à une augmentation de 15 % des lectures provenant de la recherche au Japon. 

Nous avons récemment travaillé pour mieux prendre en charge nos requêtes de catalogue telles que « đua xe (course) ». Mais les utilisateurs soumettent plus fréquemment des requêtes longues et libres, telles que : « Hé, je me souviens d'avoir joué à un jeu où il y avait un dragon et une fille qui se battait avec lui. Pouvez-vous m'aider à trouver ça ? Cela présente davantage de défis techniques et nous continuons à améliorer nos systèmes dans ce sens.

Quelles sont certaines des approches innovantes pour intégrer plus de contexte et plus de recherche sémantique ?

Nous avons construit un système de recherche hybride qui prend la recherche lexicale et la combine avec des techniques et des modèles de ML utilisant la recherche sémantique et la compréhension de l'intention d'une requête. Nous faisons continuellement évoluer nos systèmes pour améliorer la compréhension du contexte, gérer les requêtes complexes et renvoyer du contenu pertinent.

La magie de la recherche sémantique réside dans les intégrations, qui sont de riches représentations d'une variété de signaux que nous recevons de partout dans Roblox. Par exemple, nous intégrons des signaux tels que les données démographiques de l'utilisateur, la requête d'un utilisateur, sa durée ou ses aspects uniques. 

Nous examinons également les signaux de contenu, tels que les expériences, les éléments d'avatar et l'engagement : à quelle fréquence ce jeu a-t-il été joué ou combien d'utilisateurs a-t-il eu, et dans combien de pays ? Il existe également des éléments tels que la monétisation et la rétention, ainsi que des métadonnées telles que le titre, la description ou le créateur d'une expérience. Nous mettons tout cela dans une architecture basée sur BERT et basée sur un transformateur et nous utilisons un Perceptron multicouche à la fin pour générer des plongements, qui deviennent notre source de vérité. 

Une autre innovation est notre système interne de recherche de similarités. Lorsqu'un utilisateur effectue une requête de recherche, nous récupérons les intégrations étroitement liées et les classons pour nous assurer qu'elles correspondent à ce que l'utilisateur recherche. Et puis nous renvoyons les résultats aux utilisateurs.

Quelles sont les principales choses que vous avez apprises en effectuant ce travail technique ?

Chaque langue présente son propre défi. Et surtout avec la recherche, nous devons comprendre ce que recherchent les utilisateurs dans différentes régions du monde afin de pouvoir leur montrer les résultats les plus pertinents. Nous devons comprendre différents éléments du langage. Par exemple, les transformateurs pré-entraînés ont été essentiels à la compréhension des multiples dialectes du japonais.

Deuxièmement, les modèles de requêtes de recherche ont beaucoup changé et nous devons continuellement faire évoluer notre pile technologique pour suivre le rythme. Dans le même temps, nous devons informer nos utilisateurs de ce qui est possible sur notre plateforme, car ils ne s’en rendent peut-être pas compte. Par exemple, nous pourrions dire à nos utilisateurs que la recherche peut prendre en charge des éléments tels que les requêtes libres (telles que les jeux de course ou les jeux de cuisine populaires) et qu'elle comprend ce que les gens recherchent et peut renvoyer des résultats appropriés. 

À quelle valeur Roblox votre équipe s’aligne-t-elle le plus ?

Adopter une vision à long terme est au cœur de notre équipe et c'est l'une des raisons pour lesquelles j'aime travailler chez Roblox.

Un exemple de mon équipe est notre pile technologique, qui se compose de nos systèmes de recherche basés sur le ML et le NLP : recherche sémantique, saisie semi-automatique et correction orthographique à l'aide de grands modèles pré-entraînés.

Nous avons construit cela en gardant à l'esprit la réutilisabilité dans différents types de recherches effectuées par nos dizaines de millions d'utilisateurs actifs quotidiens. Cela signifie que nous pouvons intégrer un autre type de données (par exemple, des éléments d'avatar au lieu d'expériences), et cela devrait fonctionner avec des changements très minimes. 

Nous avons intégré la recherche sémantique d'expériences et nous l'avons partagée avec d'autres secteurs verticaux comme Marketplace, et ils ont pu simplement s'appuyer sur l'architecture existante. Ce n'est pas parfaitement plug-and-play, mais avec quelques ajustements, nous pouvons l'adapter à différents cas d'utilisation.

Qu’est-ce qui vous passionne le plus dans la direction que prennent Roblox et votre équipe ?

La recherche est la seule surface sur laquelle les utilisateurs expriment leur intention explicite. Cela signifie qu'il est essentiel que nous comprenions ce qu'ils veulent et que nous leur fournissions les résultats les plus pertinents. C'est donc vraiment passionnant pour moi de travailler à comprendre cette intention et d'éduquer nos utilisateurs sur ce qui est possible, parfois même avant que l'utilisateur ne s'en rende compte. 

Un utilisateur dans n'importe quel pays peut demander quelque chose et nous pouvons lui donner exactement ce qu'il veut et c'est ce qui le concerne le plus. Cela renforce la confiance qui, à son tour, améliore la rétention. C'est passionnant pour moi de relever le défi d'améliorer la recherche pour instaurer cette confiance et aider Roblox à atteindre notre objectif d'avoir un milliard d'utilisateurs.

spot_img

Dernières informations

spot_img