Quando um cachorro late em um brinquedo estridente ou um mecânico de repente para de falar no meio da frase, você não precisa de um doutorado em ciência cognitiva para descobrir o que está acontecendo-você apenas assiste, ouça e entende. Mas para os modelos multimodais de IA, esse reflexo humano simples continua surpreendentemente difícil de replicar. Apesar de todo o hype recente em torno de modelos “Frontier” como GPT-4O e Gemini 1.5 Pro, a maioria deles ainda se atrapalha quando forçada a sintetizar verdadeiramente o que vêem e ouvir. Esse é exatamente o problema que Maverix está tentando resolver.
Onde os benchmarks ficam aquém – e Maverix intermes
Os principais benchmarks multimodais de hoje podem afirmar que testam o raciocínio do mundo real, mas muitos deles trapaceiam. Eles recompensam os modelos que podem sobreviver com apenas visão ou apenas transcrições de texto, em vez de forçá -los a integrar vários sentidos, como os humanos. Maverix (abreviação de índice de raciocínio de avaliação audiovisual multimodal) é uma nova referência que finalmente eleva a fasquia, exigindo um raciocínio audiovisual fortemente acoplado em 700 vídeos e mais de 2.500 perguntas.
Pense nisso como um curso intensivo de bom senso para a IA: se você ouvir um zumbido e vê uma abelha perto da câmera, provavelmente deve descartar “Dispositivo mecânico fora da tela”. Mas o Maverix não apenas modela alguns quebra -cabeças fáceis. Ele vem com perguntas de múltipla escolha de oito opções (para matar as suposições) e instruções abertas (para testar o verdadeiro entendimento), empurrando modelos além do reconhecimento de padrões para a coordenação cognitiva completa.
Perguntas do mundo real, complexidade humana real
As perguntas de Maverix são projetadas como testes psicológicos de Rorschach para máquinas – cobrindo o raciocínio causal, inferência emocional, consciência espacial e contexto dinâmico. Imagine um vídeo de duas pessoas discutindo. Eles estão lutando de verdade, agindo em um filme ou simplesmente imitando a WWE lutando para rir? Essa resposta pode depender do tapa e a faixa de risada. Você precisa ver e ouvir para entender.
Para fazer com que tudo funcionasse, a equipe do Maverix construiu um pipeline meticuloso que combina a experiência humana com a validação da IA. Cada vídeo vem com legendas, sons categorizados (fala, música, ruído natural) e quadros -chave anotados. Toda pergunta é examinada para garantir que os atalhos unimodais – como apenas ler as legendas – não o correm. Se um modelo puder responder sem usar as duas modalidades, a pergunta será reescrita ou lançada.
Então, quão bem o AIS de hoje realmente se apresenta?
Não é ótimo. Mesmo com o acesso direto ao áudio e ao vídeo, o melhor artista – a NEMINI 1.5 Pro – escreveu cerca de 71,9% de precisão. Isso é perto dos seres humanos, mas ainda para trás. Os seres humanos, com entrada audiovisual completa, registram mais de 80%. Mas aqui está o kicker: alguns modelos de código aberto mal quebram 30%. E quando você retira áudio ou vídeo, o desempenho cai como um microfone.
Em tarefas abertas em que os modelos devem gerar suas próprias explicações, as coisas ficam mais confusas. O modelo médio obteve apenas 1,9 em 5 na coerência e raciocínio do GPT-4O-julgados. Os humanos marcaram 2,79. Essa lacuna aumenta ainda mais quando as tarefas envolvem pistas emocionais complexas ou eventos fora da tela-como adivinhar por que uma multidão muda de mesas em um jogo de pôquer ou se dois dançarinos estão lutando ou apenas ensaiando.
Nem todos os modelos lutam da mesma maneira
Uma das contribuições mais reveladoras do Maverix é como ele expõe quais modelos diferentes realmente confie em. Gemini tem um desempenho melhor quando recebe áudio bruto, enquanto a maioria dos outros modelos se sai melhor com as legendas. Isso diz muito sobre o que está acontecendo sob o capô – alguns modelos “escuta”, outros apenas “leem”. Mas nenhum dos dois corresponde à percepção em nível humano em todos os aspectos.
Curiosamente, tarefas como fazer compras – onde os dados factuais são importantes – estão onde as máquinas brilham. Mas para comentários esportivos, estratégia de jogo ou interpretação de emoções humanas? Os humanos os esmagam. Essas lacunas mostram que a IA atual é muito melhor nos catálogos de varredura do que analisar nuances ou contexto social que evolui com o tempo.
Os níveis de dificuldade são importantes, e a modalidade também
As tarefas fáceis deram o maior impulso de entradas multimodais – sugerindo que alguns modelos usam áudio e vídeo para refinar respostas óbvias. Mas quando as perguntas ficaram mais difíceis, muitos modelos se apoiaram fortemente na visão e ignoraram o áudio. Claude 3,5 sonetos, por exemplo, melhorou 41,5% em vídeos fáceis com entrada multimodal, mas apenas 17% nos difíceis.
Isso destaca uma questão mais profunda: a maioria dos modelos não está realmente fundindo modalidades. Eles estão empilhando -os. Você pode dar a eles tanto áudio quanto em vídeo, mas a menos que o modelo precisa Ambos para resolver a tarefa, ele escolherá um favorito. O Maverix pretende mudar isso projetando perguntas que exigem fusão verdadeira – onde a resposta depende da interação entre som e visão.
Para preencher a lacuna de desempenho, precisaremos de melhores arquiteturas que tratem o áudio como mais do que uma reflexão tardia. Precisamos de novas estratégias de treinamento que recompensem o entendimento sincronizado, em vez de previsões isoladas. E acima de tudo, precisaremos de benchmarks como Maverix que não se contentam com o que é fácil de medir, mas pergunte as perguntas difíceis sobre como as máquinas realmente entender.
Portanto, da próxima vez que seu assistente de IA estrague um comando simples ou interpreta mal um tom, lembre -se: pode não ser surdo – ele ainda não passou no teste do Maverix.