OpenAI aprimora sua ferramenta de geração de imagens com o DALL-E 3
O DALL-E 3 foi projetado para captar melhor as nuances e detalhes em suas descrições, criando imagens mais precisas, segundo a OpenAI
A OpenAI apresentou a próxima geração de sua ferramenta de criação de imagens. Conhecida como DALL-E 3, a nova versão foi projetada para entender melhor suas descrições em texto e criar imagens mais precisas e fiéis. Na nova página do DALL-E 3, a OpenAI não revelou muitos detalhes sobre a ferramenta, mas forneceu indícios de como pretende superar sua predecessora, o DALL-E 2.
O DALL-E 3 foi projetado para captar melhor as nuances e detalhes em suas descrições, criando imagens mais precisas, segundo a OpenAI. Os geradores de imagens atuais movidos por IA às vezes ignoram palavras em suas descrições, resultando em imagens que não atendem às expectativas. Com base nas imagens exibidas na página do DALL-E 3, a nova versão parece capaz de criar imagens mais precisas, detalhadas e imaginativas.
Com o crescente interesse em torno da IA, os geradores de imagens tornaram-se populares entre indivíduos e empresas. Ferramentas como DALL-E 2, Bing Image Creator da Microsoft, Midjourney, Stable Diffusion, DreamStudio e Craiyon funcionam de maneira semelhante. Usando um prompt, você descreve a imagem que deseja gerar, escolhe um estilo e outros atributos. Em resposta, a ferramenta cria uma ou mais imagens que, esperançosamente, correspondem ao seu pedido.
Mas, como muitos bots de IA de hoje, esses geradores de imagens podem ser desafiadores de usar. Normalmente, você precisa formular seu prompt de maneira muito específica. E mesmo assim, nem sempre interpretam seus pedidos corretamente. Reconhecendo que os sistemas modernos de texto para imagem forçam você a aprender a engenharia de prompts, a OpenAI afirmou que o DALL-E 3 representaria um grande avanço na geração de imagens que se alinham melhor às suas descrições.
Construído sobre o ChatGPT, o DALL-E 3 estará acessível através da plataforma ChatGPT. A vantagem aqui é que você poderá usar o ChatGPT para elaborar suas ideias e prompts de imagem. Você pode então fazer um pedido para criar uma imagem usando uma frase simples ou um parágrafo mais detalhado.
Nos exemplos oferecidos na página do DALL-E 3, a OpenAI mostrou como a nova versão funcionaria. Uma imagem foi gerada com base na descrição: "Pequenos reis batata usando coroas majestosas, sentados em tronos, supervisionando seu vasto reino de batatas repleto de súditos batata e castelos batata." Uma segunda foi criada a partir da descrição: "Uma ilustração de um abacate sentado na cadeira de um terapeuta, dizendo 'Eu só me sinto tão vazio por dentro', com um buraco do tamanho de um caroço em seu centro. O terapeuta, uma colher, faz anotações." E duas imagens foram geradas com base em uma descrição que dizia: "Uma pintura a óleo expressiva de um jogador de basquete enterrando a bola, retratada como uma explosão de uma nebulosa." Uma imagem usou o DALL-E 2, enquanto a outra usou o DALL-E 3.
A OpenAI também enfatizou que limitou a capacidade do DALL-E 3 de criar conteúdo violento, adulto ou odioso - como fez com as versões anteriores. Melhorias de segurança foram feitas em áreas como a criação de figuras públicas e certos vieses prejudiciais. Por exemplo, a ferramenta recusará prompts que peçam uma figura pública pelo nome.
As imagens geradas por IA também podem representar um problema quando usadas para retratar uma pessoa ou evento real, levando as pessoas a pensar que a imagem é real. Para combater esse problema, a OpenAI disse que está testando uma nova ferramenta interna que pode dizer se uma imagem foi ou não criada pelo DALL-E 3.
Atualmente em testes fechados, o DALL-E 3 está programado para ser lançado para os clientes ChatGPT Plus e Enterprise no início de outubro.