Você acha que prever taxas de mortalidade por demência ou mapear o ruído da cidade exigiria equipes de especialistas, pesquisas no solo e empresas de imagens de satélite. Mas um novo modelo de IA – desenvolvido por pesquisadores Na Universidade de Pequim Jiaotong e na Universidade de Montreal – compara a fazer tudo isso de uma só vez, apenas olhando mapas, tweets e imagens. O sistema é chamado Omnigeoe se a pesquisa faz jus à sua promessa, pode redefinir como lemos cidades, desastres e ambientes humanos em tempo real.
Por que a decodificação de dados geoespaciais é tão difícil
Geoai – atinge a inteligência artificial geoespacial – sempre foi um jogo complicado. Pense desta maneira: é como tentar entender uma cidade lendo cinco idiomas ao mesmo tempo. Você tem imagens de satélite, fotos em nível de rua, estatísticas de saúde pública, tweets cheios de gírias e hashtags e dados de localização de milhares de lugares presos. Cada um desses tipos de dados fala um dialeto diferente – e a maioria dos sistemas de IA hoje é fluente apenas em um ou dois.
Os modelos existentes podem ser bons em classificar imagens de sensoriamento remoto ou locais de marcação no texto, mas quando você joga todas essas tarefas em uma panela, as coisas desmoronam. É aí que o Omnigeo entra: é um único sistema de IA treinado para lidar com todos eles.
A equipe por trás do Omnigeo projetou um Modelo de grande linguagem multimodal (MLLM)– Um tipo de IA que pode interpretar imagens de satélite, metadados geoespaciais e linguagem natural de uma só vez. É baseado em modelos de código aberto como LLAVA e QWEN2, mas é ajustado para cinco domínios principais: geografia de saúde, geografia urbana, sensoriamento remoto, percepção urbana e semântica geoespacial.
Em vez de construir um modelo para cada tarefa, Omnigeo lida com todos eles simultaneamente. O segredo? O aprendizado baseado em instrução combinou com o que os pesquisadores chamam de “ajuste fino multimodal”. Em termos simples, aprende com pares de capturas de imagem, dados de séries temporais, vetores espaciais e muito mais-todos alinhados em torno dos mesmos locais.
Vamos conversar sobre aplicativos do mundo real
Aqui é onde as coisas ficam interessantes. Omnigeo foi treinado para:
- Prevê-se as taxas de mortalidade relacionadas à demência no nível do condado, usando dados históricos e imagens de satélite.
- Detecte a função principal dos bairros urbanos-como se uma área é dominada por escolas ou escritórios comerciais-baseada nas contagens de dados e POI (ponto de interesse).
- Avalie como uma rua “barulhenta” ou “animada” é, com base puramente em imagens e legendas associadas.
- Analisar as descrições de localização em tweets durante desastres naturais – como extrair “21719 Grand Hollow Lane, Katy, TX” de um pedido de resgate de inundação.
Esse último caso de uso sozinho é suficiente para sugerir o potencial deste modelo em resposta a emergências e gerenciamento de cidades inteligentes.
Como Omnigeo vê o mundo
Tecnicamente falando, Omnigeo trabalha convertendo dados geográficos em narrativas legíveis. Por exemplo, imagens de satélite são transformadas em legendas de linguagem natural (“áreas verdes com zonas industriais esparsas”) e depois alinhadas com dados estruturados, como taxas de mortalidade ou distribuições de POI. Tudo isso é envolvido em um conjunto de dados de instruções, permitindo que o modelo aprenda no contexto, como um humano faria.
Não é apenas teórico. Omnigeo superou o GPT-4O e outros modelos principais em tarefas geoespaciais importantes, incluindo Classificação da cenaAssim, Reconhecimento de localizaçãoe Previsão da função urbana. Em alguns casos, cortou as taxas de erro em mais da metade. Mesmo em áreas subjetivas como a percepção urbana – como a aparência “bonita” ou “deprimente” de uma rua – se mostrou impressionantemente precisa.
Por que agora?
As cidades estão se tornando mais difíceis de gerenciar e mais fáceis de pesquisar. Com eventos climáticos, booms populacionais e crises de saúde pública atingindo tudo de uma só vez, os formuladores de políticas precisam de ferramentas mais rápidas para interpretar o caos geoespacial. Omnigeo está chegando em um momento em que a IA é finalmente capaz de absorver dados de alta dimensão entre os formatos.
A diferença? A maioria dos grandes modelos hoje apenas fala. Omnigeo vê, ouve e entende o espaço.
Omnigeo é um plano para a aparência do futuro IA geoespacial: um sistema treinado entre modalidades, alinhado com entradas do mundo real e pronto para generalizar.
Se chatgpt é seu assistente de idioma, Omnigeo pode ser o próximo cérebro de emergência da sua cidade-Translação do caos visual e a localização em tempo real e acionável.
E faz tudo sem nunca sair.
Crédito da imagem em destaque: Kerem Gülen/Midjourney