O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

A fotogrametria tem sido um item básico na reconstrução da cena 3D, mas seu pipeline tradicional, requisitos de imagem densos, estágios de processamento desconectados e erro cumulativo, tem sido um gargalo teimoso. Novo modelo Matrix3D da Appledetalhado em um lançado recentemente Trabalho de pesquisaApresenta uma estrutura unificada projetada para remover essas barreiras, integrando várias tarefas de fotogrametria em um único sistema generativo.

Diferentemente dos fluxos de trabalho tradicionais da fotogrametria, que dependem de ferramentas separadas para estimativa de pose, previsão de profundidade e síntese de visão nova, a Matrix3D lida com todas essas funções dentro de um modelo. Essa mudança é mais do que uma consolidação técnica. Representa uma evolução filosófica para sistemas adaptáveis e de ponta a ponta capazes de combater a reconstrução 3D com entrada mínima, Às vezes, mesmo de uma única imagem.

Uma abordagem tudo em um à fotogrametria

Matrix3d é construído em um Transformador de difusão multimodal (DIT) Arquitetura. Isso significa que ele não aprende apenas com imagens RGB, mas também com mapas de profundidade e poses de câmera, todas codificadas em uma representação 2D unificada. Por exemplo, converte a geometria 3D em mapas de profundidade 2.5D e representa informações sobre a câmera usando mapas de raios Plücker. Esse design permite aplicar técnicas de modelos de imagens generativas modernas à geração 3D de várias vistas.

O modelo opera aprendendo a prever modalidades ausentes a partir de entradas mascaradas. Durante o treinamento, o Matrix3D é exposto a conjuntos de dados parcialmente completos-alguns com apenas pares de pose de imagem, outros com pares de profundidade de imagem. A estratégia de mascaramento expande significativamente o pool de treinamento utilizável e ensina o modelo a generalizar nas configurações de entrada. Ao remover a dependência de conjuntos de dados completos, também aprimora a robustez do modelo em aplicativos práticos do mundo real.

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D — (Crédito da imagem)

Desempenho entre tarefas

Os pesquisadores da Apple compararam o Matrix3D em vários conjuntos de dados, incluindo CO3D, DTU e GSO. Para estimativa de pose sob condições de entrada esparsa, o Matrix3D superou modelos de última geração, como Raydiffusion e Dust3R. Sua capacidade de estimar as poses de câmera de apenas duas ou três imagens se mostrou superior na precisão de rotação e tradução.

Na síntese de novas visualizações, o modelo alcançou as pontuações competitivas do PSNR e do SSIM em várias configurações de câmera. Quando testado contra sistemas líderes como SyncdreamerAssim, Maravilha3de Zero123xlAssim, O Matrix3D forneceu consistentemente resultados de maior fidelidade. A adição de mapas de profundidade melhorou ainda mais essas métricas, mostrando a força de seu manuseio de modalidade híbrido.

Para estimativa de profundidade, o Matrix3D provou sua adaptabilidade novamente. Embora o modelo tenha sido treinado em várias visualizações, ele teve um bom desempenho em tarefas monoculares, superando modelos de profundidade especializados como Metric3D v2 e profundidade qualquer coisa V2. Isso foi particularmente evidente em cenas complexas do conjunto de dados DTU, onde o Matrix3D produziu um erro relativo menor e os escores de desvio quadrado médio da raiz.

Um dos recursos de destaque do Matrix3D é o seu Capacidade de reconstruir a geometria 3D de entradas extremamente limitadas. O modelo pode iniciar a partir de uma única imagem, estimar poses de câmera ausentes e mapas de profundidade e sintetizar visualizações adicionais necessárias para inicializar um pipeline 3D Gaussian Splatting (3DGS). Essas etapas anteriormente exigiam ferramentas separadas ou dados de entrada extensos. Agora, eles podem ser executados dentro de uma estrutura unificada que simplifica todo o processo de reconstrução.

Com o Matrix3D, mesmo os conjuntos de imagens esparsos não expostas se tornam viáveis para a reconstrução 3D. O modelo estimativa autonomamente representa, preenche vistas ausentes e prepara a entrada para os motores de renderização. Seus resultados foram validados contra benchmarks e comparações visuais, mostrando precisão promissora, apesar de operar com menos recursos do que os métodos concorrentes. O Matrix3D fornece resultados comparáveis a sistemas multi-GPU como o CAT3D enquanto executa com eficiência em uma única GPU.

Nas tarefas híbridas, o Matrix3D está posicionado exclusivamente. Pode ingerir combinações arbitrárias de insumos RGB, pose e profundidade e gerar as saídas correspondentes sem precisar de reciclagem ou alterações arquitetônicas. Esse recurso abre portas para aplicação mais ampla em design 3D interativo, geração de conteúdo AR/VR e digitalização ambiental em tempo real.

QuantitativamenteMatrix3D define novos benchmarks em várias tarefas de fotogrametria. Na estimativa de pose, atinge mais de 96 % de precisão de rotação relativa com apenas duas visualizações. Para uma nova síntese de visualização, ele oferece pontuações superiores do SSIM e PSNR em várias configurações. Em previsão de profundidade, ele registra erros relativos absolutos mais baixos e proporções mais altas de inlier em comparação com linhas de base especializadas.
Qualitativamenteas melhorias são igualmente impressionantes. As saídas visuais mostram geometria mais nítida, menos artefatos e melhor consistência nos pontos de vista. Comparado aos modelos anteriores, o Matrix3D oferece renderizações estáveis, mesmo sob restrições difíceis de entrada. Isso reforça a utilidade de pipelines de fotogrametria unificada e baseada em difusão como a próxima fronteira na geração 3D.

Crédito da imagem em destaque