Zephyrnet Logo

Por Dentro da Tecnologia – Solução para Pesquisa Multilíngue e Semântica

Data:

Inside the Tech é uma série de blogs que acompanha nosso Podcast de palestras sobre tecnologia. No episódio 19 do podcast, Internacionais, O CEO da Roblox, David Baszucki, conversou com o Diretor Sênior de Produto, Zhen Fang, sobre a estratégia internacional da Roblox e os desafios técnicos que estamos resolvendo para garantir uma experiência localizada para dezenas de milhões de pessoas em todo o mundo. Nesta edição do Inside the Tech, conversamos com o gerente de engenharia Ravali Kandur para saber mais sobre um desses desafios técnicos, a pesquisa multilíngue e semântica, e como o trabalho da equipe de Growth está ajudando os usuários do Roblox em todo o mundo a pesquisar - e encontrar rapidamente - tudo o que quiserem em nossa plataforma.

Qual é o maior desafio técnico que sua equipe está enfrentando?

Até cerca de um ano atrás, a pesquisa Roblox usava um sistema lexical para combinar os resultados com as pesquisas dos usuários, o que significa que se concentrava apenas na correspondência de texto. Mas os comportamentos de pesquisa estão a mudar rapidamente e essa abordagem já não é suficiente para fornecer aos utilizadores conteúdo relevante. Ao mesmo tempo, alguns usuários do Roblox podem usar ortografia incorreta em suas consultas. Portanto, temos que ser capazes de sugerir resultados que correspondam ao que procuram, o que significa compreender a sua intenção.

Outro grande problema na pesquisa é a falta de dados de treinamento entre idiomas. Antes da pesquisa semântica, nosso primeiro passo foi aproveitar as traduções automáticas dentro do sistema Roblox. Indexamos as traduções e depois fizemos uma correspondência de texto. Mas isso não é suficiente para mostrar sempre conteúdo relevante aos usuários. Portanto, adotamos uma técnica de ML mais moderna chamada modelo aluno-professor: o professor aprende com nossa maior fonte de contexto para qualquer cenário específico. 

O inglês é o idioma mais usado no Roblox, e é por isso que aprendemos tantas relações semânticas quanto podemos em inglês – o modelo do professor – e então o destilamos para o modelo do aluno, estendendo-o para outros idiomas. Isso nos ajuda a resolver esse problema, mesmo que não tenhamos muitos dados em determinados idiomas. Isso levou a um aumento de 15% nas peças originadas de pesquisas no Japão. 

Recentemente, temos trabalhado para oferecer melhor suporte às nossas consultas de catálogo, como “đua xe (corrida)”. Mas os usuários enviam com mais frequência perguntas longas e de formato livre, como: “Ei, lembro-me de jogar um jogo em que havia um dragão e uma garota lutando com ele. Você pode me ajudar a encontrar isso? Isso apresenta mais desafios técnicos e continuamos a melhorar nossos sistemas nesse sentido.

Quais são algumas das abordagens inovadoras para incorporar mais contexto e mais pesquisa semântica?

Construímos um sistema de pesquisa híbrido que pega a pesquisa lexical e a combina com técnicas e modelos de ML utilizando pesquisa semântica e a compreensão da intenção de uma consulta. Estamos continuamente evoluindo nossos sistemas para desenvolver a compreensão do contexto, lidar com consultas complexas e retornar conteúdo relevante.

A magia da pesquisa semântica está nos embeddings, que são representações ricas de uma variedade de sinais que recebemos de todo o Roblox. Por exemplo, estamos incorporando sinais como dados demográficos do usuário, a consulta de um usuário, sua duração ou quais são seus aspectos exclusivos. 

Também estamos analisando sinais de conteúdo, como experiências, itens de avatar e engajamento – com que frequência esse jogo foi jogado ou quantos usuários ele teve, e de quantos países? Há também coisas como monetização e retenção, bem como metadados como título, descrição ou criador de uma experiência. Colocamos tudo isso em uma arquitetura baseada em transformador e baseada em BERT e usamos um Perceptron Multicamadas no final para gerar incorporações, que se tornam nossa fonte de verdade. 

Outra inovação é nosso sistema interno de busca por similaridade. Quando alguém faz uma consulta de pesquisa, recuperamos os embeddings intimamente relacionados e os classificamos para garantir que sejam relevantes para o que o usuário está procurando. E então retornamos os resultados aos usuários.

Quais são algumas das principais coisas que você aprendeu ao fazer esse trabalho técnico?

Cada idioma apresenta seu próprio desafio único. E especialmente com a pesquisa, precisamos entender o que os usuários em diferentes partes do mundo estão procurando para que possamos mostrar-lhes os resultados mais relevantes. Temos que entender diferentes elementos da linguagem. Por exemplo, transformadores pré-treinados têm sido essenciais para a compreensão dos múltiplos dialetos do japonês.

Em segundo lugar, os padrões de consulta de pesquisa têm mudado bastante e temos que evoluir continuamente a nossa pilha de tecnologia para acompanhar. Ao mesmo tempo, precisamos informar nossos usuários sobre o que é possível em nossa plataforma, pois eles podem não perceber. Por exemplo, poderíamos dizer aos nossos usuários que a pesquisa pode oferecer suporte a consultas de estilo livre (como jogos de corrida ou jogos de comida populares) e que entende o que as pessoas estão procurando e pode retornar resultados apropriados. 

Com qual valor Roblox sua equipe mais se alinha?

Ter uma visão de longo prazo é fundamental para nossa equipe e é um dos motivos pelos quais adoro trabalhar na Roblox.

Um exemplo da minha equipe é nossa pilha de tecnologia, que consiste em nossos sistemas de pesquisa baseados em ML e PNL – pesquisa semântica, preenchimento automático e correção ortográfica usando grandes modelos pré-treinados.

Construímos isso pensando na capacidade de reutilização em diferentes tipos de pesquisas feitas por nossas dezenas de milhões de usuários ativos diariamente. Isso significa que podemos inserir um tipo diferente de dados (por exemplo, itens de avatar em vez de experiências), e isso deve funcionar com alterações mínimas. 

Incorporamos a pesquisa semântica para experiências e a compartilhamos com outros setores verticais, como o Marketplace, e eles conseguiram simplesmente aproveitar a arquitetura existente. Não é perfeitamente plug-and-play, mas com alguns ajustes, podemos adaptá-lo a diferentes casos de uso.

O que mais te entusiasma sobre o rumo que Roblox e sua equipe estão tomando?

A pesquisa é a única superfície onde os usuários expressam suas intenções explícitas. E isso significa que é essencial entendermos o que eles querem e dar-lhes os resultados mais relevantes. Portanto, é realmente emocionante para mim trabalhar para entender essa intenção e educar nossos usuários sobre o que é possível, às vezes antes mesmo que o usuário perceba. 

Um usuário em qualquer país pode perguntar algo e nós podemos dar exatamente o que ele deseja e que seja mais relevante para ele. Isso cria confiança que, por sua vez, melhora a retenção. É emocionante para mim assumir o desafio de melhorar a pesquisa para construir essa confiança e ajudar a Roblox a atingir nosso objetivo de ter um bilhão de usuários.

local_img

Inteligência mais recente

local_img