Mudança urbana geralmente se esgueiram. Um novo café aqui. Um viaduto pintado lá. Mas e se você pudesse ver uma década inteira da transformação visual de uma cidade, capturada, classificada e explicada automaticamente pela IA?
É exatamente como chamou um novo projeto de pesquisa Crônicas visuais decidir fazer. Desenvolvido por pesquisadores De Stanford e Google Deepmind, esse sistema usou modelos de grandes idiomas multimodais (MLLMs) para analisar mais de 40 milhões de imagens do Google Street View da cidade de Nova York e São Francisco. Ele viu tendências que os humanos não notariam facilmente.
O problema impossível de escala
Rastrear pequenas mudanças ao longo do tempo não é novidade na visão computacional. Mas a maioria dos trabalhos anteriores precisava de etiquetas ou focada em coisas específicas, como carros ou rostos. Este projeto foi diferente. O objetivo foi aberto: o que mudou com mais frequência nessas cidades, mais de uma década?
Pergunta simples. Brutalmente duro na prática.
Modelos de idiomas grandes são bons em raciocínio sobre imagens, mas lutam quando o conjunto de dados cresce além de alguns milhares de imagens. As Crônicas Visuais estavam lidando com milhões. Então, os pesquisadores projetaram uma estratégia de baixo para cima. Primeiro, detecte pequenas mudanças locais como um novo sinal ou uma árvore removida. Em seguida, agrupe-os em tendências mais amplas em toda a cidade.
Trabalho de detetive da IA nas ruas
Aqui está como funcionou em ação:
- Etapa 1: Compare imagens do mesmo local ao longo do tempo.
- Etapa 2: Peça à IA para descrever o que mudou, com evidências das imagens.
- Etapa 3: Grupo mudanças semelhantes encontradas em toda a cidade.
- Etapa 4: Verifique essas tendências com mais verificações de IA.
Essa abordagem híbrida permite que o sistema detecte mudanças sutis. Configurações de refeições ao ar livre após Covid-19. Novos painéis solares nos telhados. Tudo manchado sem se afogar em dados ou gerar respostas abstratas como “crescimento econômico”.
Então, o que ele encontrou?
Na cidade de Nova York, a IA viu um aumento dramático em:
- Câmeras de segurança: 745 novas instalações em bairros.
- Cercas em torno de estacionamentos: 509 novas adições.
- Atualizações da calçada: 519 Novas almofadas de aviso ADA vermelhas.
Em São Francisco, as tendências de assinatura da década pareciam diferentes:
- Painéis solares: 1504 New Rooftop instala, especialmente visível a partir de rodovias elevadas.
- Pistas de ônibus dedicadas: 751 novas conversões de pista para transporte público.
- Racks de bicicleta: 1799 Novas prateleiras, principalmente perto do centro da cidade.
Os anos covid deixaram impressões digitais visuais em todos os lugares
Os pesquisadores também se concentraram no período pandêmico, capturando como as ruas da cidade se adaptaram após 2020. Jantar ao ar livre explodiu em São Francisco, com 1482 novas configurações registradas entre 2020 e 2022.
E depois havia o viaduto azul. Uma seção de rodovia em São Francisco foi pintada de ‘Coronado Blue’, um detalhe avistado 481 vezes nas imagens de View Street View após 2020.
Em Nova York, o sistema também foi usado para rastrear mudanças nas lojas de varejo. Revelou duas tendências opostas:
- Aberturas de padarias e lojas de sucos em áreas gentrificantes.
- Fechamentos de supermercados e agências bancárias em zonas de varejo mais antigas.
Porque por que não. Os pesquisadores publicaram um experimento final, pedindo à IA que analisasse imagens aleatórias e encontre “coisas incomuns”.
O vencedor? Esculturas abstratas gigantes espalhadas pela cidade de Nova York. Mais de 200 instâncias de instalações de arte pública, todas agrupadas pelo modelo.
Os modelos de IA confiam em seus reguladores?
Por que isso importa muito além da vista da rua
Crônicas visuais mostra como as ferramentas futuras da IA podem permitir que empresas, governos ou pesquisadores rastreem mudanças em qualquer conjunto de dados visuais grande. Imagens de satélite. Pisos de fábrica. Qualquer lugar que mude com o tempo.
É também um aviso. AI não apenas “veja” imagens. Isso os explica de volta para nós de maneiras que moldam o que acreditamos que está acontecendo. Quanto mais confiamos nesses relatórios de tendências automatizadas, mais precisamos de sistemas que equilibram a velocidade da IA com a cautela humana.
O Visual Chronicles é um exemplo inicial desse tipo de sistema. É preciso o suficiente para encontrar padrões reais, escaláveis o suficiente para lidar com milhões de imagens e fundamentadas o suficiente para deixar a narrativa apoiada por evidências.