Tudo o que esperamos no evento da Microsoft sobre Surface e IA na próxima semana
Os modelos de IA por trás dessa tecnologia são construídos usando conjuntos de dados de alta qualidade provenientes de milhões de fontes diferentes
O boom da IA generativa está alimentando uma "guerra oculta por dados".
Empresas de IA têm usado informações coletadas da internet para treinamento de modelos.
Uma reação está surgindo à medida que os criadores de conteúdo percebem que seus dados estão sendo usados para competir contra eles.
O boom da IA generativa começou com o impressionante sucesso do ChatGPT no final de 2022. Agora, parece que todas as empresas estão tentando usar a tecnologia.
Os modelos de IA por trás dessa tecnologia são construídos usando conjuntos de dados de alta qualidade provenientes de milhões de fontes diferentes. Estes são os materiais brutos para o "treinamento" do modelo, na linguagem da indústria.
"Esta é a história secreta logo abaixo da superfície do que está acontecendo", disse o ex-CEO do Github, Nat Friedman, em uma entrevista recente com o analista de tecnologia Ben Thompson.
As GPUs da Nvidia são o principal hardware necessário para o treinamento de modelos de IA.
"Mas a outra entrada chave é o dado", disse Friedman. "Então, o que está acontecendo atualmente abaixo da superfície é uma guerra oculta por dados onde os maiores laboratórios de IA estão gastando enormes quantias de dinheiro, como enormes quantias de dinheiro, para adquirir tokens mais valiosos, seja pagando especialistas para gerá-los, seja trabalhando através de empresas de rotulagem."
Raspados da Internet
Muitos desses dados de treinamento foram coletados da internet e usados sem permissão.
Empresas de tecnologia, famintas por ainda mais dados de treinamento, também estão concedendo a si mesmas novas permissões para usar muito mais de suas informações.
O uso de informações coletadas da internet gerou um debate sobre o futuro dos direitos autorais e licenciamento neste novo mundo de IA.
Comunidades online baseadas no compartilhamento de informações gratuitas também estão sendo abaladas. Por que continuar a compartilhar online quando esses dados provavelmente serão sugados para um modelo de IA que acaba competindo com você mais tarde?
Dados do Stack Overflow, um popular site de perguntas e respostas sobre programação, têm sido usados para treinamento de modelos de IA. Nos últimos meses, ele viu o tráfego cair à medida que modelos de IA oferecem respostas de codificação diretamente agora, eliminando a necessidade de visitar o site e fazer perguntas.
Há uma Reação em Formação
Empresas, criadores de conteúdo e outros negócios da web estão acordando para a realização de que seu trabalho está sendo secretamente usado contra eles.
Isso está minando o grande acordo da web e provocando uma reação.
"Empresas de mídia estão começando a acordar e perceber que muitas de suas informações foram roubadas — provavelmente algumas das suas também", disse Marc Benioff, CEO da Salesforce e proprietário da revista Time.
"Como proprietário de mídia, é um problema importante, porque eu vou aos modelos e encontro material da revista Time lá e digo: 'Espere um minuto, esse é o meu conteúdo'", acrescentou ele.
Mais sites estão bloqueando rastreadores da web, que são as ferramentas técnicas usadas para vasculhar a web coletando dados para treinamento de modelos de IA. O GPTbot, do criador do ChatGPT, OpenAI, foi bloqueado por mais de 15% dos 100 sites mais populares em apenas duas semanas, incluindo Amazon e Quora, informou o Insider em agosto.
O Reddit está exigindo ser pago por seus dados, que é uma fonte comum de treinamento de modelos de IA.
LexisNexis, um provedor líder de informações jurídicas, teve que alertar os clientes para não fazerem upload ou compartilharem seus dados com modelos de IA e bots relacionados.
Sarah Silverman processou a OpenAI e a Meta, alegando que usaram seu livro sem compensação ou permissão para treinar seus modelos de IA.
Mais de 8.000 autores, incluindo Margaret Atwood e James Patterson, assinaram uma carta aberta exigindo compensação de empresas de IA por usar suas obras para treinar IA sem permissão.
Esforços para Evitar Riscos Legais
Empresas de IA estão respondendo, principalmente tentando reduzir riscos legais.
A Meta e outras empresas de tecnologia pararam de divulgar os dados de treinamento que usam para treinar modelos de IA. Isso é parcialmente por razões competitivas, mas observadores dizem que isso também é para evitar exposição legal.
O ChatGPT da OpenAI está tentando esconder que foi treinado em material protegido por direitos autorais, como a série de livros Harry Potter de JK Rowling, de acordo com pesquisa publicada em agosto.
Outros pesquisadores desenvolveram um modelo de IA que pode remover dados para reduzir riscos legais. No processo, eles também criaram uma forma de medir como dados específicos contribuem para a saída de um modelo de IA.