Por que jogar mais computação de IA na verificação pode ser um erro

Fazer com que os grandes modelos de idiomas (LLMS) raciocinam melhor é uma coisa. Fazer com que eles façam isso sem queimar quantidades absurdas de computação é outra. Um novo artigo de pesquisa da TU Darmstadt, UCLA, Google DeepMind e Mila se aprofunda nesse trade-off-e pode apenas mudar a maneira como os desenvolvedores de IA pensam em escalar o raciocínio no tempo de teste.

A tensão central? Se os LLMs devem gastar sua computação gerando mais respostas (o que é conhecido como autoconsistência, ou SC) ou verificando algumas respostas promissoras usando modelos de recompensa generativos (GENRMS). Acontece que escolher errado pode fazer com que o seu modelo desperdice até 128 vezes mais compunda – para um aumento de desempenho quase perceptível.

A nova matemática do raciocínio em escala

LLMs como GPT-4, Llama ou Qwen ficaram chocantes em resolver problemas de matemática e ciências, gerando várias cadeias de pensamento (COTS) e escolhendo o resultado mais comum. Essa é a idéia por trás da SC – Sabedoria da Força Bruta da multidão. Mas os pesquisadores também foram empolgados com o GENRMS, uma abordagem mais recente que permite que o LLMS age como seu próprio juiz, verificando as respostas através do raciocínio adicional da cadeia de pensamentos.

As comparações anteriores fizeram com que o GENRM parecesse muito eficiente: combinando a precisão do SC com 4 × menos soluções. Mas este artigo chama isso de enquadramento – difícil. Por que? Porque ninguém estava contando o verdadeiro custo de computação de todas essas etapas de verificação.

Os orçamentos de computação mudam tudo

Este estudo apresenta uma estrutura limpa para medir o custo real das abordagens SC e GENRM sob um orçamento de computação fixa. Funciona assim: você pode gastar computação gerando mais respostas (SC) ou dividir esse orçamento entre algumas respostas e muitas verificações (GENRM). Seu modelo para calcular a computação total de inferência é refrescante: c (s, v) = s (1 + λv), onde s é o número de soluções, v o número de verificações e λ reflete o comprimento da verificação em relação às soluções.

O resultado brutal: SC ainda é rei (a menos que você seja rico)

Os experimentos deixaram pouca dúvida. Nos modelos LLAMA e QWEN, de parâmetros de 7b a 70b, e nas tarefas de raciocínio de matemática e ciências, a história repetida: o SC superou o GENRM com orçamentos de computação mais baixos. Somente quando o computação foi escalado por 8 × genrm alcançou. E obter um modesto aumento de desempenho de 3,8% sobre o SC exigiu uma computação de 128 × mais de água nos olhos.

Esse resultado se sustentou mesmo para “modelos de pensamento” avançados como o QWQ-32B e em conjuntos de dados de matemática dura como AIME24. O SC vence quando o computação é apertado. O GENRM só faz sentido quando o computação é praticamente livre – ou quando os problemas são tão difíceis que a verificação compensa drasticamente.

Avisa da IEA: a IA pode dobrar o uso de energia do Data Center global até 2030

A maneira inteligente de usar o GenRM (se você precisar)

Ainda assim, o estudo não descarta completamente o Genrm. De fato, deriva Leis de escala de inferência Para GenRM-um plano para a solução de problemas ideais de computação. A principal descoberta? Ao dimensionar o GENRM, aloque a computação para gerar soluções mais rapidamente que as verificações – aproximadamente 1,5 a 2 vezes mais rápido. Em números, suas leis de escala encontraram escalas ideais de contagem de soluções com orçamento de computação como S ∝ C^0,57, enquanto as verificações ideais escalam como v ∝ c^0,39.

Esta pesquisa deixa os profissionais com um guia muito prático: se a computação for limitada, confie em SC e gaste -a na geração de mais soluções. Se a computação for abundante, e especialmente se você estiver lidando com tarefas de raciocínio mais difíceis, usar o GENRM com o saldo de escala certo pode valer a pena – mas apenas com otimização séria.

Para os desenvolvedores de IA enfrentando restrições no mundo real, o argumento é quase comicamente simples: mais pensamento supera mais a verificação, a menos que você tenha recursos quase infinitos. E mesmo assim, a verificação precisa ser inteligente, eficiente e mínima.

O papel completo, “Quando resolver, quando verificar: resolução de problemas ideais de computação e verificação generativa para o raciocínio LLM”Está disponível em arxiv. A base de código deles está aberta em Github.

Crédito da imagem em destaque

Tags: Ai LLMs

Por que jogar mais computação de IA na verificação pode ser um erro

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

Modelos padrão de IA falham em matemática simples sem treinamento especializado

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

Cientistas descobrem mais de 17 mil novas espécies

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Por que jogar mais computação de IA na verificação pode ser um erro

A nova matemática do raciocínio em escala

Os orçamentos de computação mudam tudo

O resultado brutal: SC ainda é rei (a menos que você seja rico)

A maneira inteligente de usar o GenRM (se você precisar)

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

Modelos padrão de IA falham em matemática simples sem treinamento especializado

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

Cientistas descobrem mais de 17 mil novas espécies

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us