A Toon Finance lidera as paradas para o líder de moedas do meme DOGE SHIB A Toon Finance está começando a ser um nome regular no espaço defi, derrubando sua fase de pré-venda um do parque, levantando cerca de 3 milhões de dólares.
O progresso tecnológico apenas acelerou e continuará a evoluir para impactar não apenas as indústrias, mas também os modos de vida. Alguns são altamente perturbadores e...
Quando eu estava de férias recentemente, eu queria fazer anotações de um e-book que estava lendo. Mas, em vez de fazer anotações de áudio ou rabiscar coisas em um caderno, usei o Lens para selecionar uma seção do livro, copiá-la e colá-la em um documento. Isso me deixou curioso: como tudo isso aconteceu no meu telefone? Como uma câmera reconhece palavras em todas as suas fontes e idiomas?
Decidi ir à raiz da questão e falar com Ana Manasovska, uma engenheira de software de Zurique que é uma das Googlers na linha de frente da conversão de uma imagem em texto.
Ana, conte-nos sobre seu trabalho no Lens.
Estou envolvido com o aspecto do texto, para garantir que o aplicativo possa discernir o texto e copiá-lo para uma pesquisa ou traduzi-lo - sem necessidade de digitação. Por exemplo, se você apontar a câmera do seu telefone para um pôster em um idioma estrangeiro, o aplicativo poderá traduzir o texto nele. E para pessoas cegas ou com baixa visão, ele pode ler o texto em voz alta. É bastante impressionante.
Então, parte do que minha equipe faz é fazer com que o Lens reconheça não apenas o texto, mas também a estrutura do texto. Nós, humanos, entendemos automaticamente a escrita separada em frases e parágrafos, ou blocos e colunas, e sabemos o que combina. É muito difícil para uma máquina distinguir isso, no entanto.
Isso é aprendizado de máquina?
Sim. Em outras palavras, ele usa sistemas (nós os chamamos de modelos) que treinamos para discernir caracteres e estrutura em imagens. Um sistema de computação tradicional teria apenas uma capacidade limitada para fazer isso. Mas nosso modelo de aprendizado de máquina foi construído para “ensinar sozinho” em enormes conjuntos de dados e está aprendendo a distinguir estruturas de texto da mesma forma que um humano faria.
O sistema pode trabalhar com diferentes idiomas?
Sim, ele pode reconhecer 30 scripts, incluindo cirílico, devanagari, chinês e árabe. É mais preciso em idiomas de alfabeto latino no momento, mas mesmo assim, os muitos tipos diferentes de fontes apresentam desafios. Japonês e chinês são complicados porque têm muitas nuances nos caracteres. O que parece uma pequena variação para o olho destreinado pode mudar completamente o significado.
Qual é a parte mais desafiadora do seu trabalho?
Há muita complexidade e ambiguidade, que são desafiadoras, então tive que aprender a navegar por isso. E é muito rápido; as coisas estão mudando constantemente e você tem que fazer muitas perguntas e conversar com muitas pessoas para obter as respostas de que precisa.
Quando se trata de codificação real, o que isso envolve?
Principalmente eu uso uma linguagem de programação chamada C++, que permite executar etapas de processamento necessárias para levá-lo de uma imagem a uma representação de palavras e estrutura.
Hmmm, eu meio que entendo. Com o que se parece?
É assim que C++ se parece.
O código acima mostra o processamento para extrair apenas o alemão de uma seção de texto. Digamos que a imagem mostrasse alemão, francês e italiano – apenas o alemão seria extraído para tradução. Isso faz sentido?
Tipo de! Diga-me o que você ama no seu trabalho.
Tudo se resume ao meu amor ao longo da vida por resolver problemas. Mas também gosto muito de estar construindo algo que posso usar no meu dia a dia. Estou sediado em Zurique, mas não falo bem alemão, então uso o Lens para tradução para o inglês diariamente.
Decodificando o que os codificadores fazem: Ana trabalha no Lens, com foco no reconhecimento de texto. Mas o que isso realmente envolve?
Há muito tempo defendo que as empresas precisam expandir sua definição de visibilidade da cadeia de suprimentos. Vai muito além do rastreamento de remessas, pedidos, estoque e...
Feliz quinta-feira pessoal, agosto deu aos fãs do Team Liquid uma corrida milagrosa de VALORANT que parece terrivelmente familiar, um raro final decepcionante no Quake World...
AnúncioEm 31 de agosto, o Ministério da Defesa em Tóquio pediu 5.59 trilhões de ienes (US$ 40.4 bilhões) para o ano fiscal de 2023, seu maior orçamento de todos os tempos...