Zephyrnet Logo

Pesquisadores criam abordagem para reduzir vieses em conjuntos de dados de visão computacional

Data:

Abordando problemas de viés na inteligência artificial, cientistas da computação de Princeton e da Universidade de Stanford desenvolveram métodos para obter conjuntos de dados mais justos contendo imagens de pessoas. Os pesquisadores propõem melhorias no ImageNet, um banco de dados com mais de 14 milhões de imagens que desempenhou um papel fundamental no avanço da visão computacional na última década.

O ImageNet, que inclui imagens de objetos e paisagens, além de pessoas, serve como fonte de dados de treinamento para pesquisadores que criam algoritmos de aprendizado de máquina que classificam imagens ou reconhecem elementos dentro delas. A escala sem precedentes do ImageNet exigia a coleta automatizada de imagens e a anotação de imagens de crowdsourcing. Embora as categorias de pessoas do banco de dados raramente tenham sido usadas pela comunidade de pesquisa, a equipe do ImageNet tem trabalhado para lidar com preconceitos e outras preocupações sobre imagens com pessoas que são consequências não intencionais da construção do ImageNet.

“A visão computacional agora funciona muito bem, o que significa que está sendo implantada em todos os lugares em todos os tipos de contextos”, disse a coautora Olga Russakovsky, professora assistente de ciência da computação em Princeton. “Isso significa que agora é a hora de falar sobre o tipo de impacto que está tendo no mundo e pensar sobre esses tipos de questões de justiça.”

Em um novo artigo, a equipe do ImageNet identificou sistematicamente conceitos não visuais e categorias ofensivas, como caracterizações raciais e sexuais, entre as categorias de pessoas do ImageNet e propôs removê-los do banco de dados. Os pesquisadores também desenvolveram uma ferramenta que permite aos usuários especificar e recuperar conjuntos de imagens de pessoas que são equilibradas por idade, expressão de gênero ou cor da pele – com o objetivo de facilitar algoritmos que classifiquem de maneira mais justa os rostos e atividades das pessoas nas imagens. Os pesquisadores apresentaram seu trabalho em 30 de janeiro na Conferência da Association for Computing Machinery sobre Justiça, Responsabilidade e Transparência em Barcelona, ​​Espanha.

“Existe uma grande necessidade de pesquisadores e laboratórios com conhecimento técnico básico nisso se envolverem nesse tipo de conversa”, disse Russakovsky. “Dada a realidade de que precisamos coletar os dados em escala, dada a realidade de que isso será feito com crowdsourcing porque esse é o canal mais eficiente e bem estabelecido, como podemos fazer isso de uma maneira mais justa - isso não Você não caiu nesses tipos de armadilhas anteriores? A mensagem principal deste documento é sobre soluções construtivas.”

Um grupo de cientistas da computação em Princeton e Stanford lançou o ImageNet em 2009 como um recurso para pesquisadores acadêmicos e educadores. Liderando o esforço estava o ex-aluno de Princeton e membro do corpo docente Fei-Fei Li, agora professor de ciência da computação em Stanford. Para encorajar os pesquisadores a construir melhores algoritmos de visão computacional usando o ImageNet, a equipe também criou o ImageNet Large Scale Visual Recognition Challenge. O desafio concentrou-se principalmente no reconhecimento de objetos usando 1,000 categorias de imagens, das quais apenas três apresentavam pessoas.

Algumas das questões de imparcialidade no ImageNet decorrem do pipeline usado para construir o banco de dados. Suas categorias de imagens vieram do WordNet, um banco de dados mais antigo de palavras em inglês usado para pesquisa de processamento de linguagem natural. Os criadores do ImageNet adotaram os substantivos do WordNet — alguns dos quais, embora sejam termos verbais claramente definidos, não se traduzem bem em um vocabulário visual. Por exemplo, os termos que descrevem a religião ou origem geográfica de uma pessoa podem recuperar apenas os resultados de pesquisa de imagens mais distintos, levando potencialmente a algoritmos que perpetuam estereótipos.

Um projeto de arte recente chamado ImageNet Roulette chamou mais atenção para essas preocupações. O projeto, lançado em setembro de 2019 como parte de uma exposição de arte sobre sistemas de reconhecimento de imagem, usou imagens de pessoas do ImageNet para treinar um modelo de inteligência artificial que classificava as pessoas em palavras com base em uma imagem enviada. Os usuários podem fazer upload de uma imagem de si mesmos e recuperar um rótulo com base nesse modelo. Muitas das classificações foram ofensivas ou simplesmente fora da base.

A inovação central que permitiu aos criadores do ImageNet acumular um banco de dados tão grande de imagens rotuladas foi o uso de crowdsourcing — especificamente, a plataforma Amazon Mechanical Turk (MTurk), por meio da qual os trabalhadores eram pagos para verificar as imagens candidatas. Essa abordagem, embora transformadora, era imperfeita, levando a alguns vieses e categorizações inadequadas.

“Quando você pede às pessoas para verificar as imagens selecionando as corretas de um grande conjunto de candidatos, as pessoas se sentem pressionadas a selecionar algumas imagens e essas imagens tendem a ser aquelas com características distintivas ou estereotipadas”, disse o principal autor Kaiyu Yang, um graduado estudante de ciência da computação.

No estudo, Yang e seus colegas primeiro filtraram as categorias de pessoas potencialmente ofensivas ou sensíveis do ImageNet. Eles definiram categorias ofensivas como aquelas contendo palavrões ou calúnias raciais ou de gênero; categorias sensíveis incluíam, por exemplo, a classificação de pessoas com base na orientação sexual ou religião. Para anotar as categorias, eles recrutaram 12 alunos de pós-graduação de diversas origens, instruindo-os a errar ao rotular uma categoria como sensível se não tivessem certeza. Isso eliminou 1,593 categorias - cerca de 54% das 2,932 categorias de pessoas no ImageNet.

Os pesquisadores então recorreram aos funcionários do MTurk para avaliar a “imaginabilidade” das categorias seguras restantes em uma escala de 1 a 5. Manter as categorias com classificação de imageabilidade de 4 ou superior resultou em apenas 158 categorias classificadas como seguras e passíveis de imagem. Mesmo esse conjunto altamente filtrado de categorias continha mais de 133,000 imagens – uma riqueza de exemplos para treinar algoritmos de visão computacional.

Dentro dessas 158 categorias, os pesquisadores estudaram a representação demográfica das pessoas nas imagens para avaliar o nível de viés no ImageNet e desenvolver uma abordagem para criar conjuntos de dados mais justos. O conteúdo do ImageNet vem de mecanismos de busca de imagens, como o Flickr, e os mecanismos de busca em geral produzem resultados que representam mais do sexo masculino, pessoas de pele clara e adultos entre 18 e 40 anos.

“As pessoas descobriram que as distribuições demográficas nos resultados de pesquisa de imagens são altamente tendenciosas, e é por isso que a distribuição no ImageNet também é tendenciosa”, disse Yang. “Neste artigo, tentamos entender o quão tendencioso é e também propor um método para equilibrar a distribuição.”

Dos atributos protegidos pelas leis antidiscriminação dos EUA, os pesquisadores consideraram os três atributos passíveis de imagem: cor da pele, expressão de gênero e idade. Os trabalhadores do MTurk foram solicitados a anotar cada atributo de cada pessoa em uma imagem. Classificaram a cor da pele em clara, média ou escura; e idade como criança (menores de 18 anos), adulto de 18 a 40 anos, adulto de 40 a 65 anos ou adulto com mais de 65 anos. As classificações de gênero incluíam masculino, feminino e incerto — uma forma de incluir pessoas com diversas expressões de gênero, bem como anotar imagens não poderia ser percebido a partir de pistas visuais (como muitas imagens de bebês ou mergulhadores).

Uma análise das anotações mostrou que, semelhante aos resultados da pesquisa, o conteúdo do ImageNet reflete um viés considerável. Pessoas anotadas como de pele escura, mulheres e adultos com mais de 40 anos foram sub-representadas na maioria das categorias.

Embora o processo de anotação incluísse controles de qualidade e exigisse que os anotadores chegassem a um consenso, preocupados com o possível dano de anotações incorretas, os pesquisadores optaram por não liberar anotações demográficas para imagens individuais. Em vez disso, eles projetaram uma ferramenta de interface da Web que permite aos usuários obter um conjunto de imagens que são demograficamente equilibradas de uma maneira que o usuário especifique. Por exemplo, a coleção completa de imagens na categoria “programador” pode incluir cerca de 90% de homens e 10% de mulheres, enquanto nos Estados Unidos cerca de 20% dos programadores de computador são mulheres. Um pesquisador poderia usar a nova ferramenta para recuperar um conjunto de imagens de programador representando 80% de homens e 20% de mulheres - ou uma divisão uniforme, dependendo do objetivo do pesquisador.

“Não queremos dizer qual é a maneira correta de equilibrar a demografia, porque não é uma questão muito direta”, disse Yang. “A distribuição pode ser diferente em diferentes partes do mundo – a distribuição de cores de pele nos Estados Unidos é diferente da distribuição em países da Ásia, por exemplo. Portanto, deixamos essa pergunta para o usuário e apenas fornecemos uma ferramenta para recuperar um subconjunto equilibrado das imagens.”

Atualmente, a equipe do ImageNet está trabalhando em atualizações técnicas de seu hardware e banco de dados, além de implementar a filtragem das categorias de pessoas e a ferramenta de rebalanceamento desenvolvida nesta pesquisa. O ImageNet será relançado em breve com essas atualizações e com uma solicitação de feedback da comunidade de pesquisa em visão computacional.

Princeton Ph.D. o estudante Klint Qinami e o professor assistente de Ciência da Computação Jia Deng foram co-autores do artigo junto com Yang, Li e Russakovsky. A pesquisa foi apoiada pela National Science Foundation.

Fonte: https://www.sciencedaily.com/releases/2020/02/200214105246.htm

local_img

Inteligência mais recente

local_img