DreamCraft3D: Uma Abordagem Hierárquica para a Criação de Modelos 3D Coesos e de Alta Fidelidade
A DreamFusion tem a capacidade de produzir materiais 3D extremamente inovadores, mantendo o potencial criativo dos modelos generativos 2D
A notável popularidade da modelagem generativa 2D tem impactado significativamente a produção de material visual. No entanto, as redes generativas profundas ainda enfrentam desafios ao criar tecidos 3D, essenciais para aplicações como jogos, filmes e realidade virtual. Embora a modelagem generativa 3D tenha produzido resultados notáveis para algumas categorias, mais dados 3D são necessários para gerar modelos 3D abrangentes.
Recentemente, modelos generativos de texto para imagem pré-treinados têm sido usados como guia, com resultados promissores. A empresa DreamFusion foi pioneira ao sugerir o uso de modelos pré-treinados de texto para imagem (T2I) para a criação 3D. Para aprimorar o modelo 3D, de modo que suas representações em diferentes perspectivas se alinhem à distribuição de imagens condicionadas por texto, é implementada uma perda de amostragem de destilação de pontuação (SDS).
A DreamFusion tem a capacidade de produzir materiais 3D extremamente inovadores, mantendo o potencial criativo dos modelos generativos 2D. Pesquisas recentes utilizam metodologias de otimização por etapas ou oferecem uma perda de destilação 2D aprimorada para abordar preocupações de desfoque e saturação excessiva, melhorando o fotorealismo.
Neste contexto, pesquisadores da Universidade Tsinghua e da DeepSeek AI apresentam o DreamCraft3D como uma metodologia para criar objetos 3D complexos, mantendo a consistência 3D abrangente. Eles exploram as possibilidades da geração hierárquica, inspirados pelo processo criativo manual. Primeiro, uma ideia abstrata é desenvolvida em um rascunho 2D. A geometria é esculpida, os detalhes geométricos são refinados e texturas de alta fidelidade são pintadas.
Além de empregar perda fotométrica na visualização de referência e a perda SDS para novas visualizações, eles apresentam outras estratégias para incentivar a consistência geométrica. Primeiramente, simulam a distribuição de opiniões únicas com base na imagem de referência usando o modelo de tradução de imagem condicionada por perspectiva Zero-1-to-3. Este modelo de difusão condicionada por perspectiva oferece um rico prévio 3D que aprimora a difusão 2D, pois é treinado em várias entradas 3D.
Adicionalmente, eles propõem o uso de destilação de pontuação inicializada para aprimorar significativamente a textura. A fidelidade dos modelos de difusão 2D contemporâneos é frequentemente superada por modelos de difusão condicionados por perspectiva treinados em 3D restrito. Em vez disso, eles usam representações multi-perspectiva da instância 3D em otimização para ajustar o modelo de difusão.
Em resumo, o DreamCraft3D tem um grande potencial para abrir novos caminhos criativos para a produção de conteúdo 3D. A implementação completa estará disponível para o público em geral.