A espera pelo Jurassic Park acabou? Este modelo de IA utiliza tradução de imagem para imagem para dar vida a fósseis antigos
Esse processo transformador vai além da simples mudança de valores de pixels; ele envolve uma compreensão profunda das estruturas, semânticas e estilos subjacentes das imagens
A tradução de imagem para imagem (I2I) é um campo interessante dentro da visão computacional e aprendizado de máquina que tem o poder de transformar conteúdo visual de um domínio para outro de forma contínua. Esse processo transformador vai além da simples mudança de valores de pixels; ele envolve uma compreensão profunda das estruturas, semânticas e estilos subjacentes das imagens.
O I2I encontrou extensas aplicações em vários domínios, desde gerar representações artísticas de fotografias até converter imagens de satélite em mapas e até traduzir esboços em imagens foto realistas. Ele aproveita as capacidades de modelos de aprendizado profundo, como as Redes Adversariais Generativas (GANs) e as Redes Neurais Convolucionais (CNNs).
Conheçamos o Revive-2I, uma abordagem inovadora para I2I, que explora a tarefa de traduzir crânios em animais vivos, uma tarefa conhecida como Skull2Animal.
Skull2Animal é uma tarefa desafiadora que envolve a tradução de crânios em imagens de animais vivos. Esta tarefa apresenta um desafio significativo, pois requer a geração de novos recursos visuais, texturas e cores, além de fazer inferências sobre a geometria do domínio alvo.
Para superar os desafios da tradução I2I de longo prazo, o Revive-2I utiliza prompts de texto que descrevem as mudanças desejadas na imagem. Ele pode gerar resultados realistas e verificáveis. Esta abordagem oferece uma restrição mais rigorosa para traduções aceitáveis, garantindo que as imagens geradas estejam alinhadas com o domínio alvo pretendido.
O Revive-2I utiliza prompts de linguagem natural para realizar I2I de zero-shot por meio de modelos de difusão latente.
O Revive-2I consiste em dois passos principais: codificação e decodificação guiada por texto. No passo de codificação, a imagem de origem é transformada em uma representação latente usando um processo chamado difusão. Esta representação latente é então alterada para incorporar as mudanças desejadas.
A habilidade de realizar I2I de longo prazo tem implicações significativas em vários campos. Por exemplo, agências de aplicação da lei podem utilizar esta tecnologia para gerar imagens realistas de suspeitos com base em esboços, auxiliando na identificação. Conservacionistas da vida selvagem podem mostrar os efeitos das mudanças climáticas nos ecossistemas e habitats, traduzindo imagens de espécies em perigo em seus equivalentes vivos. Além disso, paleontólogos podem dar vida a fósseis antigos, traduzindo-os em imagens de sua forma viva. Parece que finalmente podemos ter o Jurassic Park.