Zephyrnet Logo

Ampliar reuniões: agora você pode adicionar legendas ao vivo à sua chamada - e elas realmente funcionam

Data:

As chamadas de zoom agora virão com a opção de legendas ao vivo, em um movimento que provavelmente facilitará a vida dos trabalhadores remotos cuja atenção sofre declínios acentuados durante as reuniões online.

Para acabar com as infelizes falhas de comunicação frequentemente causadas por ferramentas de colaboração remota, a empresa de transcrição de fala para texto Otter.ai está expandindo sua tecnologia para permitir que os palestrantes em uma chamada de Zoom vejam suas palavras transformadas em legendas precisas em tempo real.

Transformação digital

Portanto, não deve haver mais desculpas para informar incorretamente os números apresentados por sua equipe de vendas ou perder a lista de metas apresentada por seu gerente.

VEJO: Mais de 100 dicas para telecomutadores e gerentes (PDF grátis) (TechRepublic)

As legendas aparecerão diretamente na chamada, com alguns segundos de atraso, e presumivelmente serão precisas o suficiente para que as principais informações sejam consistentemente exibidas na forma de texto simples. 

O novo recurso será particularmente útil para usuários com necessidades de acessibilidade, bem como para falantes não nativos de inglês que lutam para entender o significado de uma frase. Otter.ai atualmente suporta apenas o idioma inglês, mas pode lidar com uma variedade de sotaques, incluindo sul-americano, indiano, britânico, incluindo escocês, chinês e vários sotaques europeus.

Otter.ai não é exatamente novo na cena cada vez mais popular de conversão de fala em texto. A empresa começou a se destacar há dois anos, quando lançou a tecnologia como uma ferramenta para capturar e transcrever a fala ao vivo, atuando como um assistente inteligente de anotações para discursos, reuniões ou entrevistas. 

Disponível como um aplicativo móvel ou como uma ferramenta baseada na web, a tecnologia logo começou a dar suporte a conferências online, oferecendo aos usuários a opção de transformar as gravações da nuvem do Zoom em conversas escritas para manter um registro de suas reuniões virtuais. 

No início deste ano, a Otter.ai lançou o Live Notes – um novo recurso que permite aos usuários abrir uma transcrição ao vivo da chamada durante uma videoconferência, em um arquivo compartilhado separado, que transcreve o que está sendo dito em tempo real.  

Com base em um algoritmo sofisticado, o Live Notes pode separar vozes humanas para identificar diferentes falantes e incluir seu nome na transcrição para indicar que um determinado participante começou a intervir. Os usuários podem então voltar ao arquivo, para verificar um detalhe se eles perderam uma frase ou se atrasaram na chamada.

O novo anúncio, portanto, se baseia no Live Notes, integrando as citações transcritas diretamente na plataforma do Zoom durante uma reunião virtual. Em uma chamada de demonstração mostrando a tecnologia, o fundador da Otter.ai, Sam Liang, disse ao ZDNet: “Agora, você ainda terá Live Notes em segundo plano, mas também terá as legendas colocadas na chamada. E há uma gama bastante ampla de pessoas para as quais isso será útil.

“É definitivamente uma grande ajuda para pessoas com deficiência auditiva, mas também para forças de trabalho distribuídas internacionais que não falam inglês como idioma nativo. E educação também: as aulas on-line podem se beneficiar de legendas, além das Live Notes às quais eles podem voltar, para facilitar o aprendizado.”

A transcrição não é exatamente perfeita: algumas frases não fazem sentido e as palavras às vezes aparecem deformadas. No geral, no entanto, o algoritmo do Otter.ai, especialmente devido à facilidade de uso e acessibilidade da ferramenta, parece ser bastante preciso – uma avaliação ecoada pela maioria das avaliações online e experiências do usuário.

Liang está confiante de que a precisão da tecnologia está melhorando à medida que mais usuários embarcam, fornecendo mais dados de treinamento para o algoritmo de fala em texto e ajudando a IA a trabalhar com ruídos de fundo e sotaques fortes.

De fato, o algoritmo da empresa já transcreveu mais de um bilhão de minutos de áudio de mais de 30 milhões de reuniões – um número que foi amplamente impulsionado pelo aumento nas chamadas de Zoom causado pelo trabalho remoto nos últimos meses, o que resultou em cinco aumento de três vezes no uso dos serviços da Otter.ai. 

“Estamos trabalhando nisso há mais de quatro anos”, diz Liang. “E o número de usuários e reuniões vem crescendo exponencialmente. Todos os dados de nossas transcrições são usados ​​anonimamente pelo algoritmo de aprendizado de máquina – para que o algoritmo esteja constantemente aprendendo novas palavras e melhorando sua precisão.”

Liang é PhD pela Universidade de Stanford em engenharia elétrica e também está patenteando o ponto azul do Google Maps, tendo liderado a equipe da plataforma de localização para o gigante de busca e publicidade. 

VEJO: WFH e burnout: como ser um chefe melhor para trabalhadores remotos

O campo da tecnologia de fala para texto tem sido notoriamente difícil e está repleto de exemplos de ferramentas com baixo desempenho.

Há alguns anos, por exemplo, o Google lançou um aguardado novo par de fones de ouvido sem fio, completo com um serviço de tradução em tempo real que, em teoria, poderia reconhecer a fala em um idioma, traduzir as palavras no idioma de destino no telefone do usuário e ler a nova frase. 

Rapidamente se tornou óbvio que a tecnologia estava lutando reconhecer as palavras dos falantes se eles tentassem apresentar frases complicadas ou se tivessem sotaque. A razão é bastante simples: não importa quão sofisticada seja a inteligência artificial, reconhecer a fala humana é complicado.

Há uma razão pela qual digitar 'Por que a fala para texto' na barra de pesquisa do Google resulta em recomendações como 'Por que a fala para texto não está funcionando' ou 'Por que a fala para texto é tão ruim'. 

“Há muitos desafios diferentes quando se trata de linguagem”, diz Liang. “A linguagem falada tem uma tremenda quantidade de variação.

“Existem tantos sotaques diferentes, mesmo dentro de um único país como os EUA, e ao mesmo tempo muitas palavras têm uma pronúncia semelhante. E então novas palavras estão sendo inventadas todos os dias, assim como siglas, nomes de empresas e outras novas terminologias.”

Outro problema é o ruído: o alto AC na sala de conferências de Liang torna mais difícil para o algoritmo captar com precisão suas palavras durante a chamada, interrompidas pelo som dos ventiladores girando. Conexões de internet desonestas também significam que as vozes dos palestrantes podem ser cortadas, desaparecer ou quebrar – tudo o que pode atrapalhar a precisão da tecnologia.

VEJO: COVID-19: Um guia e uma lista de verificação para reiniciar seus negócios (TechRepublic Premium)

Uma mistura de modelos de aprendizado profundo e treinamento prolongado e big data explicam os recursos encorajadores da Otter.ai, argumenta Liang. O algoritmo é capaz de considerar a frase como um todo e prever qual pode ser a saída correta, com base em conjuntos de dados anteriores de fala. 

Ao considerar o contexto de uma frase inteira, em vez de trabalhar palavra por palavra, a IA pode tomar decisões mais precisas. 

Métodos semelhantes despertaram o interesse dos maiores players do setor, com a IBM agora oferecendo uma plataforma de fala para texto altamente precisa baseada em nuvem como parte dos serviços do Watson, enquanto o Amazon Transcribe oferece uma API para reconhecimento automático de fala.

No entanto, Otter.ai é sem dúvida a tecnologia mais voltada para o consumidor. Liang confirmou que a empresa agora está trabalhando em uma integração mais suave com plataformas como Microsoft Teams, Google Meet ou Cisco Webex, para abrir o acesso aos recursos de transcrição e legendas ao vivo.

No Zoom, as legendas ao vivo já estão disponíveis para clientes Otter que pagam por um plano Business, bem como para clientes Zoom Pro.

Inteligência artificial

Fonte: https://www.zdnet.com/article/zoom-meetings-you-can-now-add-live-captions-to-your-call-and-they-actually-work/#ftag=RSSbaffb68

local_img

Inteligência mais recente

local_img