OpenAI, o influente laboratório de pesquisa de inteligência artificial por trás de ferramentas inovadoras como ChatGPT e Sora, se viu em maus lençóis após uma entrevista recente com sua diretora de tecnologia, Mira Murati.
A entrevista, conduzido pela repórter do Wall Street Journal Joanna Stern, com foco no mais recente sistema de geração de imagem, ou melhor, vídeo, da OpenAI, Sora.
As preocupações giram em torno do potencial uso indevido de trabalhos protegidos por direitos autorais para treinar modelos de IA e o falta de transparência da OpenAI em relação às suas práticas de dados.
Os dados de treinamento de Sora estão em questão
No centro da controvérsia está a questão dos dados de treinamento, os enormes conjuntos de dados usados para treinar modelos de IA.
Quando questionado sobre as fontes de dados utilizadas para Sora, Murati deu a resposta padrão: o modelo foi treinado em “dados publicamente disponíveis e licenciados".
No entanto, investigações mais aprofundadas revelaram hesitação e incerteza por parte de Murati sobre os detalhes específicos deste conjunto de dados.
Esta resposta tem bandeiras vermelhas levantadas entre artistas, fotógrafos e especialistas em propriedade intelectual. Os sistemas de geração de imagens de IA dependem fortemente da ingestão de grandes quantidades de imagens, muitas das quais podem estar protegidas por direitos autorais. A falta de clareza em torno dos dados de treinamento de Sora levanta questões sobre se a OpenAI protegeu adequadamente os direitos dos criadores de conteúdo.
Uso do Shutterstock admitido posteriormente
Colocar lenha na fogueira foi a recusa inicial de Murati em abordar se as imagens do Shutterstock eram um componente do conjunto de dados de treinamento de Sora. Somente após a entrevista, em nota de rodapé acrescentada pelo Wall Street Journal, Murati confirmou o uso da biblioteca de imagens da Shutterstock.
Esta confirmação contradiz a postura pública da OpenAI de “dados publicamente disponíveis e licenciados”E sugere uma tentativa de ocultar práticas de fornecimento potencialmente problemáticas.
Shutterstock e OpenAI formaram uma parceria concedendo direitos da OpenAI para usar a biblioteca de imagens da Shutterstock no treinamento de modelos de geração de imagens como DALL-E 2 e potencialmente Sora.
Em troca, os colaboradores da Shutterstock (os fotógrafos e artistas cujas imagens estão na plataforma) recebem uma compensação quando seu trabalho é utilizado no desenvolvimento desses modelos de IA.
Um pesadelo de relações públicas se desenrola
É seguro dizer que a maioria do pessoal de relações públicas não consideraria esta entrevista uma obra-prima de relações públicas.
A falta de clareza de Murati surge em um momento delicado para a OpenAI, já enfrenta grandes ações judiciais de direitos autorais, incluindo um significativo apresentado pelo New York Times.
O público está examinando práticas como o suposto uso secreto de vídeos do YouTube pela OpenAI para treinamento de modelos, bem como relatado anteriormente por The Information. Com as partes interessadas, desde artistas a políticos, a exigirem responsabilização, o facto de Murati evitar apenas alimenta o fogo.
A abordagem opaca da OpenAI está dando errado espetacularmente, transformando a entrevista de Sora em um desastre de relações públicas.
Mira Murati, CTO da OpenAI, diz que Sora foi treinado em dados publicamente disponíveis e licenciados pic.twitter.com/rf7pZ0ZX00
- Czaratostra (@tsarnick) 13 de março de 2024
Transparência não é o tema mais discutido à toa
Este incidente sublinha uma verdade crítica: revelar a verdade é fundamental no mundo da IA. As respostas hesitantes da OpenAI minaram gravemente a confiança do público e intensificaram as questões sobre as suas práticas éticas. A controvérsia Sora destaca o coro crescente exigindo maior responsabilidade dentro da indústria de IA.
A relutância de Murati em divulgar os detalhes dos dados de treinamento de Sora gera desconfiança e abre um precedente perigoso.
Sem a clareza que os artistas, os criadores e o público exigem, os debates éticos e o potencial para ações legais só se intensificarão.
Não há anjos nesta terra
Embora grande parte do escrutínio atual recaia diretamente sobre a OpenAI, é crucial lembrar eles não são o único jogador no jogo.
Pesquisa de IA do Facebook Modelo LLaMA e Gêmeos do Google também enfrentaram alegações de fontes de dados de treinamento problemáticas.
Isto não é surpreendente, pois Relatórios do Business Insider que Meta já admitiu usando postagens do Instagram e do Facebook para treinar seus modelos de IA. Adicionalmente, O controle do Google sobre vastas áreas da Internet dá-lhes acesso incomparável a possíveis dados de treinamento, levantando preocupações éticas semelhantes sobre consentimento e direitos autorais.
A situação com Sora da OpenAI é apenas uma peça de um quebra-cabeça maior. Todo o campo do desenvolvimento da IA está a enfrentar um escrutínio relativamente às suas práticas de dados e às potenciais implicações éticas.
Crédito da imagem em destaque: Freepik.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://dataconomy.com/2024/03/15/openai-sora-training-data-controversy/