Detecte qualquer coisa que você quiser com o UniDetector
Utilizando o espaço da linguagem, os pesquisadores exploram várias estruturas para treinar o detector efetivamente com espaços de rótulos heterogêneos
Fonte: https://www.marktechpost.com/2023/08/01/detect-anything-you-want-with-unidetector/
O aprendizado profundo e a IA fizeram progressos notáveis nos últimos anos, especialmente em modelos de detecção. Apesar desses avanços impressionantes, a eficácia dos modelos de detecção de objetos depende fortemente de grandes conjuntos de dados de referência. No entanto, o desafio reside na variação de categorias de objetos e cenas. No mundo real, existem diferenças significativas das imagens existentes, e novas classes de objetos podem surgir, necessitando da reconstrução de conjuntos de dados para garantir o sucesso dos detectores de objetos. Infelizmente, isso afeta severamente sua capacidade de generalizar em cenários de mundo aberto. Em contraste, os humanos, até mesmo as crianças, podem se adaptar rapidamente e generalizar bem em novos ambientes. Consequentemente, a falta de universalidade na IA permanece uma lacuna notável entre os sistemas de IA e a inteligência humana.
A chave para superar essa limitação é o desenvolvimento de um detector de objetos universal para alcançar capacidades de detecção em todos os tipos de objetos em qualquer cena dada. Tal modelo possuiria a notável capacidade de funcionar efetivamente em situações desconhecidas sem necessitar de treinamento adicional. Tal avanço se aproximaria significativamente do objetivo de tornar os sistemas de detecção de objetos tão inteligentes quanto os humanos.
Um detector de objetos universal deve possuir duas habilidades críticas. Em primeiro lugar, deve ser treinado usando imagens de várias fontes e espaços de rótulos diversos. O treinamento colaborativo em larga escala para classificação e localização é essencial para garantir que o detector obtenha informações suficientes para generalizar efetivamente. O conjunto de dados ideal para aprendizado em larga escala deve incluir muitos tipos de imagens, abrangendo o maior número possível de categorias, com anotações de caixa delimitadora de alta qualidade e extensos vocabulários de categoria. Infelizmente, alcançar tal diversidade é desafiador devido às limitações impostas pelos anotadores humanos. Na prática, enquanto conjuntos de dados de vocabulário pequeno oferecem anotações mais limpas, os maiores são mais ruidosos e podem sofrer de inconsistências. Além disso, conjuntos de dados especializados se concentram em categorias específicas. Para alcançar a universalidade, o detector deve aprender de várias fontes com espaços de rótulos variados para adquirir conhecimento abrangente e completo.
Em segundo lugar, o detector deve demonstrar robusta generalização para o mundo aberto. Deve ser capaz de prever com precisão as tags de categoria para novas classes não vistas durante o treinamento sem qualquer queda significativa no desempenho. No entanto, confiar apenas em informações visuais não pode alcançar esse propósito, pois o aprendizado visual abrangente necessita de anotações humanas para aprendizado totalmente supervisionado.
Para superar essas limitações, um novo modelo de detecção de objetos universal denominado "UniDetector" foi proposto.
A visão geral da arquitetura é relatada na ilustração abaixo.
Dois desafios correspondentes precisam ser enfrentados para alcançar as duas habilidades essenciais de um detector de objetos universal. O primeiro desafio refere-se ao treinamento com imagens de várias fontes, onde as imagens vêm de diferentes fontes e estão associadas a diversos espaços de rótulos. Os detectores existentes estão limitados a prever classes de apenas um espaço de rótulos, e as diferenças na taxonomia específica do conjunto de dados e a inconsistência de anotação entre os conjuntos de dados tornam difícil unificar vários espaços de rótulos heterogêneos.
O segundo desafio envolve a discriminação de novas categorias. Inspirados pelo sucesso do pré-treinamento de imagem-texto em pesquisas recentes, os autores aproveitam modelos pré-treinados com incorporações de linguagem para reconhecer categorias não vistas. No entanto, o treinamento totalmente supervisionado tende a enviesar o detector para se concentrar em categorias presentes durante o treinamento. Consequentemente, o modelo pode ser enviesado para classes base no momento da inferência e produzir previsões subconfiantes para novas classes. Embora as incorporações de linguagem ofereçam o potencial de prever novas classes, seu desempenho ainda está significativamente atrás das categorias base.
O UniDetector foi projetado para enfrentar os desafios mencionados. Utilizando o espaço da linguagem, os pesquisadores exploram várias estruturas para treinar o detector efetivamente com espaços de rótulos heterogêneos. Eles descobrem que empregar uma estrutura particionada facilita o compartilhamento de recursos enquanto evita conflitos de rótulos, o que é benéfico para o desempenho do detector.
Para melhorar a capacidade de generalização do estágio de proposta de região para novas classes, os autores separam o estágio de geração de proposta do estágio de classificação RoI (Região de Interesse), optando por treinamento separado em vez de treinamento conjunto. Essa abordagem aproveita as características únicas de cada estágio, contribuindo para a universalidade geral do detector. Além disso, eles introduzem uma rede de localização agnóstica de classe (CLN) para alcançar propostas de região generalizadas.
Além disso, os autores propõem uma técnica de calibração de probabilidade para desviar as previsões. Eles estimam a probabilidade anterior de todas as categorias e, em seguida, ajustam a distribuição de categoria prevista com base nessa probabilidade anterior. Essa calibração melhora significativamente o desempenho das novas classes dentro do sistema de detecção de objetos. De acordo com os autores, o UniDetector pode superar o Dyhead, o detector CNN de última geração, em 6,3% AP (Precisão Média).
Este foi o resumo do UniDetector, um novo framework de IA projetado para detecção universal de objetos. Se você estiver interessado e quiser saber mais sobre este trabalho, pode encontrar mais informações clicando nos links abaixo.