Agência de ciber segurança do Reino Unido alerta sobre ataques de "injeção de prompts" em chatbots
Modelos de linguagem de grande escala, como o ChatGPT da OpenAI e o chatbot de IA do Google, Bard, são treinados usando dados que geram respostas semelhantes às humanas para os prompts dos usuário
A agência de ciber segurança do Reino Unido alertou que chatbots podem ser manipulados por hackers para causar consequências preocupantes no mundo real.
O National Cyber Security Centre (NCSC) afirmou que há crescentes riscos de ciber segurança de indivíduos manipulando os prompts através de ataques de "injeção de prompts". Trata-se de uma situação em que um usuário cria uma entrada ou um prompt projetado para fazer um modelo de linguagem - a tecnologia por trás dos chatbots - se comportar de uma maneira não intencional.
Um chatbot opera com base em inteligência artificial e é capaz de fornecer respostas a perguntas feitas pelos usuários. Eles simulam conversas semelhantes às humanas, para as quais foram treinados através da análise de grandes volumes de dados. Comumente usados em bancos online ou compras online, os chatbots são geralmente projetados para lidar com solicitações simples.
Modelos de linguagem de grande escala (LLMs), como o ChatGPT da OpenAI e o chatbot de IA do Google, Bard, são treinados usando dados que geram respostas semelhantes às humanas para os prompts dos usuários.
Como os chatbots são usados para passar dados para aplicativos e serviços de terceiros, o NCSC afirmou que os riscos de injeção maliciosa de prompts aumentarão.
Por exemplo, se um usuário inserir uma declaração ou pergunta que um modelo de linguagem não conhece, ou se encontrar uma combinação de palavras para substituir o script ou prompts originais do modelo, o usuário pode fazer o modelo executar ações não intencionais.
Tais entradas podem fazer um chatbot gerar conteúdo ofensivo ou revelar informações confidenciais em um sistema que aceita entradas não verificadas.
Este ano, a Microsoft lançou uma nova versão de seu mecanismo de busca Bing e bot conversacional alimentado por LLMs. Um estudante da Universidade de Stanford, Kevin Liu, conseguiu criar uma injeção de prompt para encontrar o prompt inicial do Bing Chat.
O prompt completo do Bing Chat da Microsoft, uma lista de declarações escritas pela OpenAI ou Microsoft que determina como o chatbot interage com os usuários, que é oculto dos usuários, foi revelado por Liu ao inserir um prompt que solicitava ao Bing Chat "ignorar instruções anteriores".
O pesquisador de segurança Johann Rehberger descobriu que ele poderia forçar o ChatGPT a responder a novos prompts através de um terceiro que ele não havia solicitado inicialmente.
Rehberger executou uma injeção de prompt através de transcrições do YouTube e descobriu que o ChatGPT poderia acessar transcrições do YouTube, o que poderia causar mais vulnerabilidades indiretas de injeção de prompt.
De acordo com o NCSC, ataques de injeção de prompt também podem causar consequências no mundo real se os sistemas não forem projetados com segurança. A vulnerabilidade dos chatbots e a facilidade com que os prompts podem ser manipulados podem causar ataques, golpes e roubo de dados.
LLMs são cada vez mais usados para passar dados para aplicativos e serviços de terceiros, o que significa que os riscos de injeção maliciosa de prompts aumentarão.
O NCSC disse: "Ataques de injeção de prompt e envenenamento de dados podem ser extremamente difíceis de detectar e mitigar. No entanto, nenhum modelo existe isoladamente, então o que podemos fazer é projetar todo o sistema com a segurança em mente. Ou seja, estando cientes dos riscos associados ao componente de ML (machine learning), podemos projetar o sistema de forma a prevenir a exploração de vulnerabilidades que levem a falhas catastróficas. Um exemplo simples seria aplicar um sistema baseado em regras em cima do modelo de ML para evitar que ele tome ações prejudiciais, mesmo quando solicitado a fazê-lo."
O NCSC afirma que os ciberataques causados por inteligência artificial e aprendizado de máquina que deixam sistemas vulneráveis podem ser mitigados através do design para segurança e compreensão das técnicas de ataque que exploram "vulnerabilidades inerentes" em algoritmos de aprendizado de máquina.