Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

byAytun Çelebi
14 Maio 2025
in Research
Home Research
Share on FacebookShare on Twitter

A fotogrametria tem sido um item básico na reconstrução da cena 3D, mas seu pipeline tradicional, requisitos de imagem densos, estágios de processamento desconectados e erro cumulativo, tem sido um gargalo teimoso. Novo modelo Matrix3D da Appledetalhado em um lançado recentemente Trabalho de pesquisaApresenta uma estrutura unificada projetada para remover essas barreiras, integrando várias tarefas de fotogrametria em um único sistema generativo.

Diferentemente dos fluxos de trabalho tradicionais da fotogrametria, que dependem de ferramentas separadas para estimativa de pose, previsão de profundidade e síntese de visão nova, a Matrix3D lida com todas essas funções dentro de um modelo. Essa mudança é mais do que uma consolidação técnica. Representa uma evolução filosófica para sistemas adaptáveis ​​e de ponta a ponta capazes de combater a reconstrução 3D com entrada mínima, Às vezes, mesmo de uma única imagem.

Uma abordagem tudo em um à fotogrametria

Matrix3d ​​é construído em um Transformador de difusão multimodal (DIT) Arquitetura. Isso significa que ele não aprende apenas com imagens RGB, mas também com mapas de profundidade e poses de câmera, todas codificadas em uma representação 2D unificada. Por exemplo, converte a geometria 3D em mapas de profundidade 2.5D e representa informações sobre a câmera usando mapas de raios Plücker. Esse design permite aplicar técnicas de modelos de imagens generativas modernas à geração 3D de várias vistas.

O modelo opera aprendendo a prever modalidades ausentes a partir de entradas mascaradas. Durante o treinamento, o Matrix3D é exposto a conjuntos de dados parcialmente completos-alguns com apenas pares de pose de imagem, outros com pares de profundidade de imagem. A estratégia de mascaramento expande significativamente o pool de treinamento utilizável e ensina o modelo a generalizar nas configurações de entrada. Ao remover a dependência de conjuntos de dados completos, também aprimora a robustez do modelo em aplicativos práticos do mundo real.

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D
(Crédito da imagem)

Desempenho entre tarefas

Os pesquisadores da Apple compararam o Matrix3D em vários conjuntos de dados, incluindo CO3D, DTU e GSO. Para estimativa de pose sob condições de entrada esparsa, o Matrix3D superou modelos de última geração, como Raydiffusion e Dust3R. Sua capacidade de estimar as poses de câmera de apenas duas ou três imagens se mostrou superior na precisão de rotação e tradução.

Na síntese de novas visualizações, o modelo alcançou as pontuações competitivas do PSNR e do SSIM em várias configurações de câmera. Quando testado contra sistemas líderes como SyncdreamerAssim, Maravilha3de Zero123xlAssim, O Matrix3D forneceu consistentemente resultados de maior fidelidade. A adição de mapas de profundidade melhorou ainda mais essas métricas, mostrando a força de seu manuseio de modalidade híbrido.

Para estimativa de profundidade, o Matrix3D provou sua adaptabilidade novamente. Embora o modelo tenha sido treinado em várias visualizações, ele teve um bom desempenho em tarefas monoculares, superando modelos de profundidade especializados como Metric3D v2 e profundidade qualquer coisa V2. Isso foi particularmente evidente em cenas complexas do conjunto de dados DTU, onde o Matrix3D produziu um erro relativo menor e os escores de desvio quadrado médio da raiz.

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D
(Crédito da imagem)

Um dos recursos de destaque do Matrix3D é o seu Capacidade de reconstruir a geometria 3D de entradas extremamente limitadas. O modelo pode iniciar a partir de uma única imagem, estimar poses de câmera ausentes e mapas de profundidade e sintetizar visualizações adicionais necessárias para inicializar um pipeline 3D Gaussian Splatting (3DGS). Essas etapas anteriormente exigiam ferramentas separadas ou dados de entrada extensos. Agora, eles podem ser executados dentro de uma estrutura unificada que simplifica todo o processo de reconstrução.

Com o Matrix3D, mesmo os conjuntos de imagens esparsos não expostas se tornam viáveis ​​para a reconstrução 3D. O modelo estimativa autonomamente representa, preenche vistas ausentes e prepara a entrada para os motores de renderização. Seus resultados foram validados contra benchmarks e comparações visuais, mostrando precisão promissora, apesar de operar com menos recursos do que os métodos concorrentes. O Matrix3D fornece resultados comparáveis ​​a sistemas multi-GPU como o CAT3D enquanto executa com eficiência em uma única GPU.

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D
(Crédito da imagem)

Nas tarefas híbridas, o Matrix3D está posicionado exclusivamente. Pode ingerir combinações arbitrárias de insumos RGB, pose e profundidade e gerar as saídas correspondentes sem precisar de reciclagem ou alterações arquitetônicas. Esse recurso abre portas para aplicação mais ampla em design 3D interativo, geração de conteúdo AR/VR e digitalização ambiental em tempo real.

  • QuantitativamenteMatrix3D define novos benchmarks em várias tarefas de fotogrametria. Na estimativa de pose, atinge mais de 96 % de precisão de rotação relativa com apenas duas visualizações. Para uma nova síntese de visualização, ele oferece pontuações superiores do SSIM e PSNR em várias configurações. Em previsão de profundidade, ele registra erros relativos absolutos mais baixos e proporções mais altas de inlier em comparação com linhas de base especializadas.
  • Qualitativamenteas melhorias são igualmente impressionantes. As saídas visuais mostram geometria mais nítida, menos artefatos e melhor consistência nos pontos de vista. Comparado aos modelos anteriores, o Matrix3D oferece renderizações estáveis, mesmo sob restrições difíceis de entrada. Isso reforça a utilidade de pipelines de fotogrametria unificada e baseada em difusão como a próxima fronteira na geração 3D.

Crédito da imagem em destaque

Tags: MaçãMatrix3d

Related Posts

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

14 Maio 2025
O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

14 Maio 2025
Adele da Microsoft quer dar um perfil cognitivo à sua IA

Adele da Microsoft quer dar um perfil cognitivo à sua IA

14 Maio 2025
Pesquisa: o padrão -ouro para avaliação de Genai

Pesquisa: o padrão -ouro para avaliação de Genai

12 Maio 2025
Ai finalmente resolve o quebra -cabeça mais difícil da biologia

Ai finalmente resolve o quebra -cabeça mais difícil da biologia

6 Maio 2025
A obra -prima de Raphael pode não ser toda a sua

A obra -prima de Raphael pode não ser toda a sua

5 Maio 2025

Recent Posts

  • Pronto para um chatgpt que realmente o conhece?
  • As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem
  • O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?
  • Adele da Microsoft quer dar um perfil cognitivo à sua IA
  • O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.