A IA está minando o grande acordo da web, e um acordo informal de décadas é a única coisa que impede
Na época, o principal objetivo desses rastreadores era indexar informações para que os resultados nos motores de busca melhorassem
Fonte: https://www.businessinsider.com/ai-killing-web-grand-bargain-2023-8
Os proprietários de conteúdo estão percebendo que seu trabalho está sendo usado gratuitamente pelas Big Techs para construir novas ferramentas de IA.
Bots como o Common Crawl estão raspando e armazenando bilhões de páginas de conteúdo para treinamento de IA.
Com menos incentivo para compartilhar online gratuitamente, a web poderia se tornar uma série de jardins murados.
A IA está minando o grande acordo da web, e um acordo de aperto de mão com décadas de existência é a única coisa que impede. Um único bit de código, robots.txt, foi proposto no final dos anos 1990 como uma forma de os sites dizerem aos rastreadores de bots que não querem que seus dados sejam raspados e coletados. Foi amplamente aceito como uma das regras não oficiais que sustentam a web.
Na época, o principal objetivo desses rastreadores era indexar informações para que os resultados nos motores de busca melhorassem. Google, Bing da Microsoft e outros motores de busca têm rastreadores. Eles indexam conteúdo para que possa ser posteriormente apresentado como links para bilhões de consumidores em potencial. Esse é o acordo essencial que criou a web florescente que conhecemos hoje: os criadores compartilham informações abundantes e trocam ideias online gratuitamente porque sabem que os consumidores visitarão e verão um anúncio, se inscreverão ou comprarão algo.
Agora, no entanto, a IA gerativa e os grandes modelos de linguagem estão mudando radical e rapidamente a missão dos rastreadores da web. Em vez de trabalhar para apoiar os criadores de conteúdo, essas ferramentas foram usadas contra eles.
OS BOTS QUE ALIMENTAM AS BIG TECHS
Os rastreadores da web agora coletam informações online para alimentar conjuntos de dados gigantes que são usados gratuitamente por empresas de tecnologia ricas para desenvolver modelos de IA. O CCBot alimenta o Common Crawl, um dos maiores conjuntos de dados de IA. O GPTbot alimenta dados para a OpenAI, a empresa por trás do ChatGPT e do GPT-4, atualmente o modelo de IA mais poderoso. O Google simplesmente chama seus dados de treinamento de LLM de "Infiniset", sem mencionar de onde vem a grande maioria dos dados. Embora 12,5% venham do C4, uma versão limpa do Common Crawl.
Os modelos usam todas essas informações gratuitas para aprender a responder às perguntas dos usuários imediatamente. Isso é bem diferente de indexar um site para que os usuários possam ser direcionados ao trabalho original.
Sem um suprimento de consumidores em potencial, há pouco incentivo para os criadores de conteúdo permitirem que os rastreadores da web continuem a sugar dados gratuitos online. O GPTbot já está sendo bloqueado pela Amazon, Airbnb, Quora e centenas de outros sites. O CCBot do Common Crawl também está começando a ser mais bloqueado.
'UMA FERRAMENTA CRUA'
O que não mudou é como bloquear esses rastreadores. Implementar o robots.txt em um site e excluir rastreadores específicos é a única opção. E não é muito bom.
"É um pouco uma ferramenta crua", disse Joost de Valk, ex-executivo da Wordpress, investidor em tecnologia e fundador da agência de marketing digital Yoast. "Não tem base na lei e é basicamente mantido pelo Google, embora eles digam que fazem isso junto com outros motores de busca."
Também está aberto a manipulação, especialmente dado o apetite voraz por dados de qualidade para IA. A única coisa que uma empresa como a OpenAI tem que mudar é o nome de seu rastreador de bots para contornar todas as regras de desativação que as pessoas colocam em prática usando o robots.txt, explicou de Valk.
Por ser voluntário, os rastreadores da web também podem simplesmente ignorar as instruções de bloqueio e sifonar as informações de um site de qualquer maneira. Alguns rastreadores, como o do Brave, um motor de busca mais recente, não se dão ao trabalho de divulgar o nome de seu rastreador, tornando impossível bloqueá-lo.
"Todo o conteúdo online está sendo sugado para um vácuo para os modelos", disse Nick Vincent, professor de ciência da computação que estuda a relação entre dados gerados por humanos e IA. "Há tanta coisa acontecendo sob o capô. Nos próximos seis meses, olharemos para trás e quereremos avaliar esses modelos de forma diferente."
REAÇÃO CONTRA BOTS DE IA
De Valk adverte que os proprietários e criadores de conteúdo online já podem estar atrasados em entender os riscos de permitir que esses bots peguem seus dados gratuitamente e os usem indiscriminadamente para desenvolver modelos de IA.
"No momento, não fazer nada significa: 'Estou bem com meu conteúdo estando em todas as IA e LLM do mundo'", disse de Valk. "Isso é simplesmente errado. Uma versão melhor do robots.txt poderia ser criada, mas seria muito estranho se isso fosse feito pelos motores de busca e pelas grandes partes de IA."
Várias grandes empresas e sites responderam recentemente, com alguns começando a implantar o robots.txt pela primeira vez.
Em 22 de agosto, 70 dos 1.000 sites mais populares usaram o robots.txt para bloquear o GPTBot desde que a OpenAI revelou o rastreador cerca de três semanas atrás, de acordo com a Originality.ai, uma empresa que verifica o conteúdo para ver se é gerado por IA ou plagiado.
A empresa também descobriu que 62 dos 1.000 sites mais populares estão bloqueando o CCBot do Common Crawl, com um número crescente fazendo isso apenas este ano à medida que a conscientização sobre a coleta de dados para IA cresceu.