A ameaça do "colapso de modelo" em IA pode quebrar a internet
Como resultado, provedores de informações precisas, como a mídia, podem decidir limitar o conteúdo que postam online
Fonte: https://www.businessinsider.com/ai-model-collapse-threatens-to-break-internet-2023-8
A IA generativa poderá em breve ser treinada em conteúdo gerado por IA, e especialistas estão soando o alarme. O fenômeno, que alguns especialistas chamam de "colapso de modelo", pode resultar em IA produzindo saídas de baixa qualidade no futuro. Esse novo termo surge à medida que o conteúdo gerado por IA, repleto de erros, continua a inundar a internet.
Especialistas alertam que o conteúdo gerado por IA pode representar uma ameaça à própria tecnologia de IA que o produziu. Em um recente artigo sobre como ferramentas de IA generativas, como o ChatGPT, são treinadas, uma equipe de pesquisadores de IA de instituições como a Universidade de Oxford e a Universidade de Cambridge descobriu que os grandes modelos de linguagem por trás da tecnologia podem potencialmente ser treinados em outro conteúdo gerado por IA à medida que ele se espalha massivamente pela internet - um fenômeno que eles denominaram "colapso de modelo". Em resposta, os pesquisadores afirmam que ferramentas de IA generativas podem responder a consultas de usuários com saídas de menor qualidade, à medida que seus modelos são treinados em "dados sintéticos" em vez do conteúdo criado por humanos que torna suas respostas únicas.
Outros pesquisadores de IA cunharam seus próprios termos para descrever o método de treinamento. Em um artigo lançado em julho, pesquisadores das universidades de Stanford e Rice chamaram esse fenômeno de "Transtorno de Autografia de Modelo", no qual o ciclo "autofágico" de IA treinando-se em conteúdo gerado por outra IA poderia resultar em ferramentas de IA gerativas "fadadas" a ter sua "qualidade" e "diversidade" de imagens e textos gerados comprometidos. Jathan Sadowski, um pesquisador sênior do Emerging Technologies Research Lab na Austrália, chamou esse fenômeno de "IA Habsburgo", argumentando que sistemas de IA fortemente treinados em saídas de outras ferramentas de IA generativas podem criar respostas "mutantes" que contêm "características exageradas e grotescas".
Enquanto os efeitos específicos desses fenômenos ainda são incertos, alguns especialistas em tecnologia acreditam que o "colapso de modelo" e a endogamia de IA podem tornar difícil identificar a fonte original da informação em que um modelo de IA é treinado. Como resultado, provedores de informações precisas, como a mídia, podem decidir limitar o conteúdo que postam online - até mesmo colocando-o atrás de paywalls - para evitar que seu conteúdo seja usado para treinar IA, o que poderia criar uma "idade das trevas da informação pública", segundo um ensaio escrito por Ray Wang, CEO da empresa de pesquisa de tecnologia Constellation Research.
Alguns especialistas em tecnologia estão menos preocupados com o crescimento do conteúdo gerado por IA na internet. Saurabh Baji, vice-presidente sênior de engenharia da empresa de IA Cohere, disse que a orientação humana ainda é "crucial para o sucesso e qualidade" de seus modelos gerados por IA, e outros disseram que o aumento do conteúdo gerado por IA só tornará o conteúdo criado por humanos mais valioso.
Esses novos termos surgem à medida que o conteúdo gerado por IA inundou a internet desde que a OpenAI lançou o ChatGPT em novembro passado. Em 28 de agosto, a NewsGuard, uma empresa que avalia a confiabilidade dos sites de notícias, identificou 452 "outlets de notícias gerados por IA não confiáveis com pouca ou nenhuma supervisão humana" que contêm histórias repletas de erros. Sites gerados por IA com nomes genéricos como iBusiness Day, Ireland Top News e Daily Time Update podem atrair consumidores como fontes precisas de informação, o que aumentaria a disseminação de desinformação, de acordo com a NewsGuard.
Não são apenas os sites gerados por IA que produziram artigos cheios de imprecisões. Em janeiro, a publicação de tecnologia CNET publicou 77 artigos usando um "motor de IA projetado internamente" e teve que emitir correções significativas após descobrir que seus artigos estavam repletos de erros básicos de matemática. Meses depois, o Gizmodo criticou executivos da empresa após o veículo de comunicação publicar artigos escritos por IA com imprecisões factuais. Mais recentemente, a Microsoft removeu uma série de artigos de seu blog de viagens, um dos quais foi descoberto ser um artigo gerado por IA recomendando aos visitantes em Ottawa visitar o Banco de Alimentos de Ottawa e "considerar entrar nele com o estômago vazio".
Agora que detectores de conteúdo de IA, como o ZeroGPT e o Classificador de Texto da OpenAI, foram considerados não confiáveis, as pessoas podem achar mais difícil descobrir informações precisas com supervisão humana online, disse Kai-Cheng Yang, pesquisador de ciências sociais computacionais que escreveu um artigo sobre os atores mal-intencionados que poderiam se aproveitar do chatbot da OpenAI.