Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Por que jogar mais computação de IA na verificação pode ser um erro

byKerem Gülen
11 Abril 2025
in Research
Home Research
Share on FacebookShare on Twitter

Fazer com que os grandes modelos de idiomas (LLMS) raciocinam melhor é uma coisa. Fazer com que eles façam isso sem queimar quantidades absurdas de computação é outra. Um novo artigo de pesquisa da TU Darmstadt, UCLA, Google DeepMind e Mila se aprofunda nesse trade-off-e pode apenas mudar a maneira como os desenvolvedores de IA pensam em escalar o raciocínio no tempo de teste.

A tensão central? Se os LLMs devem gastar sua computação gerando mais respostas (o que é conhecido como autoconsistência, ou SC) ou verificando algumas respostas promissoras usando modelos de recompensa generativos (GENRMS). Acontece que escolher errado pode fazer com que o seu modelo desperdice até 128 vezes mais compunda – para um aumento de desempenho quase perceptível.

A nova matemática do raciocínio em escala

LLMs como GPT-4, Llama ou Qwen ficaram chocantes em resolver problemas de matemática e ciências, gerando várias cadeias de pensamento (COTS) e escolhendo o resultado mais comum. Essa é a idéia por trás da SC – Sabedoria da Força Bruta da multidão. Mas os pesquisadores também foram empolgados com o GENRMS, uma abordagem mais recente que permite que o LLMS age como seu próprio juiz, verificando as respostas através do raciocínio adicional da cadeia de pensamentos.

As comparações anteriores fizeram com que o GENRM parecesse muito eficiente: combinando a precisão do SC com 4 × menos soluções. Mas este artigo chama isso de enquadramento – difícil. Por que? Porque ninguém estava contando o verdadeiro custo de computação de todas essas etapas de verificação.

Os orçamentos de computação mudam tudo

Este estudo apresenta uma estrutura limpa para medir o custo real das abordagens SC e GENRM sob um orçamento de computação fixa. Funciona assim: você pode gastar computação gerando mais respostas (SC) ou dividir esse orçamento entre algumas respostas e muitas verificações (GENRM). Seu modelo para calcular a computação total de inferência é refrescante: c (s, v) = s (1 + λv), onde s é o número de soluções, v o número de verificações e λ reflete o comprimento da verificação em relação às soluções.

O resultado brutal: SC ainda é rei (a menos que você seja rico)

Os experimentos deixaram pouca dúvida. Nos modelos LLAMA e QWEN, de parâmetros de 7b a 70b, e nas tarefas de raciocínio de matemática e ciências, a história repetida: o SC superou o GENRM com orçamentos de computação mais baixos. Somente quando o computação foi escalado por 8 × genrm alcançou. E obter um modesto aumento de desempenho de 3,8% sobre o SC exigiu uma computação de 128 × mais de água nos olhos.

Esse resultado se sustentou mesmo para “modelos de pensamento” avançados como o QWQ-32B e em conjuntos de dados de matemática dura como AIME24. O SC vence quando o computação é apertado. O GENRM só faz sentido quando o computação é praticamente livre – ou quando os problemas são tão difíceis que a verificação compensa drasticamente.


Avisa da IEA: a IA pode dobrar o uso de energia do Data Center global até 2030


A maneira inteligente de usar o GenRM (se você precisar)

Ainda assim, o estudo não descarta completamente o Genrm. De fato, deriva Leis de escala de inferência Para GenRM-um plano para a solução de problemas ideais de computação. A principal descoberta? Ao dimensionar o GENRM, aloque a computação para gerar soluções mais rapidamente que as verificações – aproximadamente 1,5 a 2 vezes mais rápido. Em números, suas leis de escala encontraram escalas ideais de contagem de soluções com orçamento de computação como S ∝ C^0,57, enquanto as verificações ideais escalam como v ∝ c^0,39.

Esta pesquisa deixa os profissionais com um guia muito prático: se a computação for limitada, confie em SC e gaste -a na geração de mais soluções. Se a computação for abundante, e especialmente se você estiver lidando com tarefas de raciocínio mais difíceis, usar o GENRM com o saldo de escala certo pode valer a pena – mas apenas com otimização séria.

Para os desenvolvedores de IA enfrentando restrições no mundo real, o argumento é quase comicamente simples: mais pensamento supera mais a verificação, a menos que você tenha recursos quase infinitos. E mesmo assim, a verificação precisa ser inteligente, eficiente e mínima.

O papel completo, “Quando resolver, quando verificar: resolução de problemas ideais de computação e verificação generativa para o raciocínio LLM”Está disponível em arxiv. A base de código deles está aberta em Github.


Crédito da imagem em destaque

Tags: AiLLMs

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Modelos padrão de IA falham em matemática simples sem treinamento especializado

Modelos padrão de IA falham em matemática simples sem treinamento especializado

30 Dezembro 2025
As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

30 Dezembro 2025
IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Cientistas descobrem mais de 17 mil novas espécies

Cientistas descobrem mais de 17 mil novas espécies

26 Dezembro 2025
GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

24 Dezembro 2025

Recent Posts

  • Novo carro-chefe da Xiaomi com eSIM entra em produção em massa no próximo ano
  • Meta compra Manus, empresa de IA em rápido crescimento, em negócio de 2 bilhões de dólares
  • Gallery TV junta-se à linha de estilo de vida da LG com serviço de arte exclusivo
  • Por que o acordo Groq da Nvidia é tão importante para o futuro da IA
  • Altos custos de DDR5 levam ASUS a aumentar a produção de placas DDR4

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.