New York Times, CNN e ABC da Austrália impedem que o rastreador GPTBot da OpenAI acesse o conteúdo
LarLar > blog > New York Times, CNN e ABC da Austrália impedem que o rastreador GPTBot da OpenAI acesse o conteúdo

New York Times, CNN e ABC da Austrália impedem que o rastreador GPTBot da OpenAI acesse o conteúdo

Sep 01, 2023

Chicago Tribune e os jornais australianos Canberra Times e Newcastle Herald também parecem ter proibido o rastreador da web do criador do Chat GPT

Meios de comunicação, incluindo New York Times, CNN, Reuters e Australian Broadcasting Corporation (ABC), bloquearam uma ferramenta da OpenAI, limitando a capacidade da empresa de continuar acessando seu conteúdo.

OpenAI está por trás de um dos chatbots de inteligência artificial mais conhecidos, ChatGPT. Seu rastreador da web – conhecido como GPTBot – pode verificar páginas da web para ajudar a melhorar seus modelos de IA.

The Verge foi o primeiro a relatar que o New York Times bloqueou o GPTBot em seu site. O Guardian descobriu posteriormente que outros grandes sites de notícias, incluindo CNN, Reuters, Chicago Tribune, ABC e marcas Australian Community Media (ACM), como Canberra Times e Newcastle Herald, parecem também ter proibido o web crawler.

Os chamados grandes modelos de linguagem, como o ChatGPT, exigem grandes quantidades de informações para treinar seus sistemas e permitir que respondam às consultas dos usuários de maneiras que se assemelham aos padrões da linguagem humana. Mas as empresas por trás deles costumam ser discretas sobre a presença de material protegido por direitos autorais em seus conjuntos de dados.

O bloqueio no GPTBot pode ser visto nos arquivos robots.txt dos editores, que informam aos rastreadores dos mecanismos de busca e outras entidades quais páginas eles podem visitar.

“Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”, disse OpenAI em uma postagem de blog que incluía instruções sobre como proibir o rastreador.

Todos os veículos examinados adicionaram o bloco em agosto. Alguns também proibiram o CCBot, o rastreador da web para um repositório aberto de dados da web conhecido como Common Crawl, que também tem sido usado para projetos de IA.

A CNN confirmou ao Guardian Australia que bloqueou recentemente o GPTBot em seus títulos, mas não comentou se a marca planeja tomar outras medidas sobre o uso de seu conteúdo em sistemas de IA.

Um porta-voz da Reuters disse que revisa regularmente o robots.txt e os termos e condições do site. “Como a propriedade intelectual é a força vital do nosso negócio, é imperativo que protejamos os direitos autorais do nosso conteúdo”, disse ela.

Os termos de serviço do New York Times foram atualizados recentemente para tornar a proibição “da extração de nosso conteúdo para treinamento e desenvolvimento de IA… ainda mais clara”, de acordo com um porta-voz.

A partir de 3 de agosto, as regras do seu site proíbem explicitamente que o conteúdo do editor seja usado para “o desenvolvimento de qualquer programa de software, incluindo, mas não limitado a, treinamento de um sistema de aprendizado de máquina ou inteligência artificial (IA)” sem consentimento.

Os meios de comunicação social em todo o mundo enfrentam decisões sobre a utilização da IA ​​como parte da recolha de notícias e também sobre como lidar com o facto de o seu conteúdo ser potencialmente sugado para grupos de formação por empresas que desenvolvem sistemas de IA.

No início de Agosto, meios de comunicação como a Agence France-Presse e a Getty Images assinaram uma carta aberta apelando à regulamentação da IA, incluindo transparência sobre “a composição de todos os conjuntos de formação utilizados para criar modelos de IA” e consentimento para a utilização de material protegido por direitos de autor.

O Google propôs que os sistemas de IA sejam capazes de eliminar o trabalho dos editores, a menos que eles optem explicitamente por não participar.

Numa apresentação à revisão do governo australiano do quadro regulamentar em torno da IA, a empresa defendeu “sistemas de direitos de autor que permitam o uso apropriado e justo de conteúdo protegido por direitos de autor para permitir a formação de modelos de IA na Austrália numa gama ampla e diversificada de dados, enquanto apoiar opt-outs viáveis”.

Uma pesquisa da OriginalityAI, uma empresa que verifica a presença de conteúdo de IA, compartilhada esta semana, descobriu que grandes sites, incluindo Amazon e Shutterstock, também bloquearam o GPTBot.

O arquivo robot.txt do Guardian não proíbe o GPTBot.

O ABC, o Australian Community Media, o Chicago Tribune, o OpenAI e o Common Crawl não responderam dentro do prazo.