Zephyrnet Logo

O Congresso disse que as empresas de IA deveriam pagar por conteúdo protegido por direitos autorais

Data:

As empresas de tecnologia deveriam compensar os editores de notícias por treinarem modelos de IA em seu conteúdo protegido por direitos autorais, disseram especialistas em mídia aos senadores em uma audiência esta semana.

O Comitê do Senado dos EUA sobre o Judiciário líderes questionados de associações comerciais de mídia e da academia sobre como a IA generativa afeta a indústria do jornalismo.

O jornalismo sempre se adaptou à medida que novas tecnologias são inventadas. A ascensão da Internet cortou os jornais e empurrou a palavra escrita online. Os editores mudam suas estratégias editoriais para aparecer no topo do ranking do Google, atraindo leitores e anunciantes digitais. Mas como eles se sairão em relação aos grandes modelos de linguagem que podem gerar texto automaticamente?

Treinados em grandes quantidades de Internet, os modelos generativos de IA podem produzir todos os tipos de conteúdo. O New York Times processou recentemente a OpenAI, acusando a startup de copiar ilegalmente “milhões de [seus] artigos de notícias protegidos por direitos autorais, investigações aprofundadas, artigos de opinião, análises, guias de procedimentos e muito mais”.

Não só a OpenAI é acusada de ter roubado o seu trabalho, como o The New York Times alegou que agora estava a lucrar injustamente com a geração de passagens dos seus artigos literalmente, permitindo aos internautas escapar ao seu acesso pago. Numa tentativa de recuperar algum poder das empresas de tecnologia, os editores estão agora a lutar por compensações e a tentar negociar acordos de licenciamento. Mas é uma batalha difícil de vencer, especialmente se a lei não estiver do seu lado.

Não está claro se a IA generativa viola as leis atuais de direitos autorais. Os desenvolvedores dos modelos acreditam que o uso do conteúdo raspado provenientes da Internet devem ser protegidos pelo uso justo, uma vez que seus chatbots criam e produzem textos que transformam e transcendem o material original. OpenAI insistiram que o ChatGPT regurgitando conteúdo protegido por direitos autorais era um “bug raro”.

Roger Lynch, CEO da editora de revistas Condé Nast, discordou. “O uso justo é permitir críticas, paródias, estudos, pesquisas, reportagens”, disse ele aos senadores. “A lei é clara quando há um efeito adverso no mercado para o material protegido por direitos autorais… O uso justo não se destina simplesmente a enriquecer as empresas de tecnologia que preferem não pagar.”

Existem outras maneiras pelas quais ferramentas como o ChatGPT podem consumir os lucros dos editores, além da reprodução de suas histórias. Danielle Coffey, CEO da associação comercial News/Media Alliance, observou que os chatbots projetados para rastrear a web e agir como um mecanismo de busca, como o Microsoft Bing ou o Perplexity, também podem resumir artigos.

Os leitores poderiam pedir-lhes que extraíssem e condensassem informações de notícias, o que significaria que haveria menos incentivo para as pessoas visitarem os sites dos editores, levando a uma perda de tráfego e de receitas publicitárias. “Não haveria modelo de negócios para nós nesse ecossistema”, disse ela durante a audiência.

Os acordos de licenciamento manterão a indústria do jornalismo em funcionamento, uma vez que darão aos meios de comunicação social uma forma de ganhar dinheiro com a IA generativa. Os acordos precisam ser negociados de uma forma que não impeça os desenvolvedores menores de construir seus próprios grandes modelos de linguagem. Jeff Jarvis, que recentemente se aposentou da Newmark Graduate School of Journalism da Universidade da Cidade de Nova York, é contra o licenciamento para todos os usos e temia que isso pudesse abrir precedentes que afetariam jornalistas e pequenas empresas de código aberto que competem com as Big Tech.

É difícil descobrir uma maneira justa de compensar os editores sem saber exatamente qual conteúdo e quanto dele foi usado para treinar modelos de IA. Coffey apresentou a ideia de que as empresas de tecnologia deveriam construir um banco de dados pesquisável catalogando todos os sites que foram copiados. As empresas de IA podem argumentar que é muito complicado e complicado classificar as enormes quantidades de texto que acumularam ao longo do tempo.

Revelar suas fontes também pode fazer com que suas ferramentas de IA pareçam ruins, considerando a quantidade de texto impróprio que seus modelos ingeriram, incluindo informações pessoais de pessoas e conteúdo tóxico ou NSFW.

“A noção de que a indústria de tecnologia está dizendo que é muito complicado licenciar uma gama tão grande de proprietários de conteúdo não se sustenta”, disse Curtis LeGeyt, presidente e CEO da National Association of Broadcasters. “Ao longo das últimas três décadas, as emissoras de TV locais fizeram literalmente milhares de acordos com sistemas de cabo e satélite em todo o país para a distribuição da sua programação.”

Lynch instou o Congresso a esclarecer que o treinamento em materiais protegidos por direitos autorais é ilegal e não é de uso justo. LeGeyt, no entanto, disse que a aprovação de uma nova legislação para esclarecer a questão pode ser prematura se esta puder ser resolvida através de litígio. “Se tivermos clareza de que as leis atuais se aplicam à IA generativa, vamos deixar o mercado funcionar. Se for uma corrida armamentista para ver quem pode gastar mais em litígios, sabemos que a indústria de tecnologia supera todas as outras.”

Embora empresas como a OpenAI acreditem que o treinamento se enquadra no uso justo, a startup está agindo com mais cautela à medida que aumenta o número de ações judiciais contra ela. Até agora, obteve acordos de licenciamento com a Associated Press, Axel Springer, e está alegadamente em negociações com CNN, Fox Corp e Time. 

“Embora eles negociem conosco, o ponto de partida é ‘não queremos pagar por conteúdo que sabemos que deveríamos poder obter gratuitamente'”, disse Lynch. Se as empresas de tecnologia conseguirem o que querem e os tribunais decidirem que a IA generativa não viola os direitos autorais, elas ainda deverão pagar aos editores pelo uso de seus materiais, disse LeGeyt.

“Essas tecnologias deveriam licenciar nosso conteúdo. Se não estiverem, o Congresso deveria agir”, pediu aos senadores. ®

local_img

Inteligência mais recente

local_img