Tag: frente

Top 5 moedas de memes de tendências para assistir Toon Finance SHIB Dogecoin Cardano Stellar XLM

Blockchain21 de outubro de 2022

A Toon Finance lidera as paradas para o líder de moedas do meme DOGE SHIB A Toon Finance está começando a ser um nome regular no espaço defi, derrubando sua fase de pré-venda um do parque, levantando cerca de 3 milhões de dólares.

5 tecnologias à beira de estourar

Patentes17 de outubro de 2022

O progresso tecnológico apenas acelerou e continuará a evoluir para impactar não apenas as indústrias, mas também os modos de vida. Alguns são altamente perturbadores e...

Pergunte a um técnico: Como o Lens transforma imagens em texto?Pergunte a um técnico: Como o Lens transforma imagens em texto?Colaborador de palavras-chave

AR / VR14 de outubro de 2022

Quando eu estava de férias recentemente, eu queria fazer anotações de um e-book que estava lendo. Mas, em vez de fazer anotações de áudio ou rabiscar coisas em um caderno, usei o Lens para selecionar uma seção do livro, copiá-la e colá-la em um documento. Isso me deixou curioso: como tudo isso aconteceu no meu telefone? Como uma câmera reconhece palavras em todas as suas fontes e idiomas?

Decidi ir à raiz da questão e falar com Ana Manasovska, uma engenheira de software de Zurique que é uma das Googlers na linha de frente da conversão de uma imagem em texto.

Ana, conte-nos sobre seu trabalho no Lens.

Estou envolvido com o aspecto do texto, para garantir que o aplicativo possa discernir o texto e copiá-lo para uma pesquisa ou traduzi-lo - sem necessidade de digitação. Por exemplo, se você apontar a câmera do seu telefone para um pôster em um idioma estrangeiro, o aplicativo poderá traduzir o texto nele. E para pessoas cegas ou com baixa visão, ele pode ler o texto em voz alta. É bastante impressionante.

Então, parte do que minha equipe faz é fazer com que o Lens reconheça não apenas o texto, mas também a estrutura do texto. Nós, humanos, entendemos automaticamente a escrita separada em frases e parágrafos, ou blocos e colunas, e sabemos o que combina. É muito difícil para uma máquina distinguir isso, no entanto.

Isso é aprendizado de máquina?

Sim. Em outras palavras, ele usa sistemas (nós os chamamos de modelos) que treinamos para discernir caracteres e estrutura em imagens. Um sistema de computação tradicional teria apenas uma capacidade limitada para fazer isso. Mas nosso modelo de aprendizado de máquina foi construído para “ensinar sozinho” em enormes conjuntos de dados e está aprendendo a distinguir estruturas de texto da mesma forma que um humano faria.

O sistema pode trabalhar com diferentes idiomas?

Sim, ele pode reconhecer 30 scripts, incluindo cirílico, devanagari, chinês e árabe. É mais preciso em idiomas de alfabeto latino no momento, mas mesmo assim, os muitos tipos diferentes de fontes apresentam desafios. Japonês e chinês são complicados porque têm muitas nuances nos caracteres. O que parece uma pequena variação para o olho destreinado pode mudar completamente o significado.

Qual é a parte mais desafiadora do seu trabalho?

Há muita complexidade e ambiguidade, que são desafiadoras, então tive que aprender a navegar por isso. E é muito rápido; as coisas estão mudando constantemente e você tem que fazer muitas perguntas e conversar com muitas pessoas para obter as respostas de que precisa.

Quando se trata de codificação real, o que isso envolve?

Principalmente eu uso uma linguagem de programação chamada C++, que permite executar etapas de processamento necessárias para levá-lo de uma imagem a uma representação de palavras e estrutura.

Hmmm, eu meio que entendo. Com o que se parece?

Uma captura de tela de algum código C++ em um fundo branco.

É assim que C++ se parece.

O código acima mostra o processamento para extrair apenas o alemão de uma seção de texto. Digamos que a imagem mostrasse alemão, francês e italiano – apenas o alemão seria extraído para tradução. Isso faz sentido?

Tipo de! Diga-me o que você ama no seu trabalho.

Tudo se resume ao meu amor ao longo da vida por resolver problemas. Mas também gosto muito de estar construindo algo que posso usar no meu dia a dia. Estou sediado em Zurique, mas não falo bem alemão, então uso o Lens para tradução para o inglês diariamente.

Decodificando o que os codificadores fazem: Ana trabalha no Lens, com foco no reconhecimento de texto. Mas o que isso realmente envolve?

1...506507508...513 Página 507 de 513

Inteligência de dados generativa

Tag: frente

Inteligência mais recente

Atualização do Kia EV6 provocada com iluminação ‘Star Map’ – Autoblog

Próximo Ato dos Créditos de Carbono: Agricultura Amiga do Clima – EcoSoul Partners – Ação Climática para Empresas

KuCoin lança extenso programa Bug Bounty no Bugcrowd

Compartilhamento mesquinho de informações é uma ‘receita para perder’, diz Miller da Força Espacial

O papel da tecnologia Blockchain no desenvolvimento de dApps – PrimaFelicitas

Cadillac, Audi e BMW agora lideram em participação nas vendas nos EUA sendo 100% elétricos – CleanTechnica

Uma Pedra de Roseta para a Matemática | Revista Quanta