Ouvimos constantemente sobre os feitos incríveis de IA como GPT-4O e Gêmeos-Código de Escrita, Crie Poesia, Exames de Anting. Você pode pensar que esses poderosos modelos multimodais de grandes idiomas (MLLMs), que entendem o texto e as imagens, estão a caminho de dominar tudo. Mas o que acontece quando você pede que façam algo aparentemente simples, como seguir as instruções do Lego?
De acordo com um novo estudar Dos pesquisadores do Laboratório de Xangai AI e da Universidade Tongji, a resposta é: eles falham em grande parte. Acontece que esses bruxos de IA são surpreendentemente desajeitados quando se trata de entender e raciocinar sobre objetos no espaço em várias etapas – uma habilidade crucial para interagir com o mundo real.
Por que testar a IA com Legos?
Os pesquisadores criaram um benchmark inteligente chamado LEGO-PUZZLES Precisamente porque a construção de Legos reflete como os humanos desenvolvem “inteligência espacial”. Seguir esses pequenos diagramas requer compreensão de formas 3D, como elas se encaixam, sua orientação e a sequência correta de ações. Se uma IA não consegue lidar com isso, como podemos esperar que ele guie um braço de robô montando um produto ou navegue em um carro autônomo por uma zona de construção complexa?
O benchmark de Lego-Puzzles não é a brincadeira de criança. Inclui mais de 1.100 perguntas visuais, abrangendo 11 tarefas diferentes. Eles variam de verificações básicas (“Esta peça é mais alta que a que uma?”, “Esses dois blocos estão tocando?”) Para sequências complexas (“Coloque essas etapas de montagem na ordem certa”, “Qual imagem mostra o errado etapa?”).
O Scorecard surpreendente: ai vs humanos
Então, como os principais modelos de IA de hoje se saíram sobre esses desafios da LEGO? Os resultados foram impressionantes e, francamente, um pouco embaraçosos para a IA.
- Gap MASSIVE: Até os melhores modelos, como o GPT-4O do OpenAi e o Gemini-2.0-Flash do Google, só respondeu sobre 50-58% das perguntas corretamente.
- Triunfo humano: Participantes humanos, por outro lado, brilharam pelos quebra -cabeças com mais de 90% precisão.
- Lutas de código aberto: Muitos MLLMs de código aberto tiveram um desempenho apenas um pouco melhor do que a adivinhação aleatória. Algumas tarefas específicas falhadas completamente, como solicitar etapas de montagem, às vezes apenas produzindo a mesma letra errada para quase todas as perguntas.
A IA lutou particularmente com tarefas envolvendo:
- Percepção de altura: Muitas vezes confundindo uma projeção de imagem 2D com realidade em 3D (pense ilusões ópticas).
- Rotação: Compreendendo como os objetos cuidam depois de serem virados.
- Raciocínio de várias etapas: Quanto mais etapas envolvidas em uma sequência, pior a IA foi executada, destacando uma falha em rastrear mudanças ao longo do tempo.
O Kaist cultivou cérebros para a IA que pode aprender imediatamente dispositivos
A IA pode até nos mostrar o próximo passo?
Talvez ainda mais revelador fosse o teste de geração de imagens. Os pesquisadores pediram à MLLMS para gerar uma imagem mostrando o resultado de uma etapa específica de montagem LEGO.
O resultado? Uma falha quase total. A maioria dos modelos ignorou as instruções, simplesmente copiava a imagem de entrada ou gerou algo completamente não relacionado. Somente Gemini-2.0-Flash e GPT-4O mostraram uma “habilidade limitada”-Gêmeos era melhor em editar a imagem existente com precisão, enquanto o GPT-4O parecia regenerar a cena conceitualmente, geralmente perdendo a consistência visual. Os modelos de código aberto foram irremediavelmente perdidos.
Esta pesquisa expõe uma fraqueza crítica no desenvolvimento atual da IA. Enquanto os modelos se destacam na correspondência de padrões em linguagem e imagens estáticas, eles não têm uma compreensão robusta de Raciocínio espacial em várias etapas – A compreensão dinâmica de como as coisas funcionam no espaço físico e no tempo.
O estudo constatou que mesmo solicitando técnicas como “cadeia de pensamento” (pedindo à IA que “pense passo a passo”), que geralmente ajuda nos problemas de texto, proporcionou um benefício mínimo e às vezes até mesmo impedido Desempenho nessas tarefas espaciais, especialmente as complexas.
Parece que realmente entender nosso mundo 3D e como as ações se desenrolam nele requer mais do que apenas processar quantidades enormes de texto e imagens. Os MLLMs precisam de maneiras melhores de representar o espaço, rastrear mudanças sequencialmente e talvez desenvolver uma forma de “memória visual”.
Crédito da imagem em destaque: Kerem Gülen/Imagen 3