Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Por que jogar mais computação de IA na verificação pode ser um erro

byKerem Gülen
11 Abril 2025
in Pesquisar
Home Pesquisar
Share on FacebookShare on Twitter
Google Preferred Source

Fazer com que os grandes modelos de idiomas (LLMS) raciocinam melhor é uma coisa. Fazer com que eles façam isso sem queimar quantidades absurdas de computação é outra. Um novo artigo de pesquisa da TU Darmstadt, UCLA, Google DeepMind e Mila se aprofunda nesse trade-off-e pode apenas mudar a maneira como os desenvolvedores de IA pensam em escalar o raciocínio no tempo de teste.

A tensão central? Se os LLMs devem gastar sua computação gerando mais respostas (o que é conhecido como autoconsistência, ou SC) ou verificando algumas respostas promissoras usando modelos de recompensa generativos (GENRMS). Acontece que escolher errado pode fazer com que o seu modelo desperdice até 128 vezes mais compunda – para um aumento de desempenho quase perceptível.

A nova matemática do raciocínio em escala

LLMs como GPT-4, Llama ou Qwen ficaram chocantes em resolver problemas de matemática e ciências, gerando várias cadeias de pensamento (COTS) e escolhendo o resultado mais comum. Essa é a idéia por trás da SC – Sabedoria da Força Bruta da multidão. Mas os pesquisadores também foram empolgados com o GENRMS, uma abordagem mais recente que permite que o LLMS age como seu próprio juiz, verificando as respostas através do raciocínio adicional da cadeia de pensamentos.

As comparações anteriores fizeram com que o GENRM parecesse muito eficiente: combinando a precisão do SC com 4 × menos soluções. Mas este artigo chama isso de enquadramento – difícil. Por que? Porque ninguém estava contando o verdadeiro custo de computação de todas essas etapas de verificação.

Os orçamentos de computação mudam tudo

Este estudo apresenta uma estrutura limpa para medir o custo real das abordagens SC e GENRM sob um orçamento de computação fixa. Funciona assim: você pode gastar computação gerando mais respostas (SC) ou dividir esse orçamento entre algumas respostas e muitas verificações (GENRM). Seu modelo para calcular a computação total de inferência é refrescante: c (s, v) = s (1 + λv), onde s é o número de soluções, v o número de verificações e λ reflete o comprimento da verificação em relação às soluções.

O resultado brutal: SC ainda é rei (a menos que você seja rico)

Os experimentos deixaram pouca dúvida. Nos modelos LLAMA e QWEN, de parâmetros de 7b a 70b, e nas tarefas de raciocínio de matemática e ciências, a história repetida: o SC superou o GENRM com orçamentos de computação mais baixos. Somente quando o computação foi escalado por 8 × genrm alcançou. E obter um modesto aumento de desempenho de 3,8% sobre o SC exigiu uma computação de 128 × mais de água nos olhos.

Esse resultado se sustentou mesmo para “modelos de pensamento” avançados como o QWQ-32B e em conjuntos de dados de matemática dura como AIME24. O SC vence quando o computação é apertado. O GENRM só faz sentido quando o computação é praticamente livre – ou quando os problemas são tão difíceis que a verificação compensa drasticamente.


Avisa da IEA: a IA pode dobrar o uso de energia do Data Center global até 2030


A maneira inteligente de usar o GenRM (se você precisar)

Ainda assim, o estudo não descarta completamente o Genrm. De fato, deriva Leis de escala de inferência Para GenRM-um plano para a solução de problemas ideais de computação. A principal descoberta? Ao dimensionar o GENRM, aloque a computação para gerar soluções mais rapidamente que as verificações – aproximadamente 1,5 a 2 vezes mais rápido. Em números, suas leis de escala encontraram escalas ideais de contagem de soluções com orçamento de computação como S ∝ C^0,57, enquanto as verificações ideais escalam como v ∝ c^0,39.

Esta pesquisa deixa os profissionais com um guia muito prático: se a computação for limitada, confie em SC e gaste -a na geração de mais soluções. Se a computação for abundante, e especialmente se você estiver lidando com tarefas de raciocínio mais difíceis, usar o GENRM com o saldo de escala certo pode valer a pena – mas apenas com otimização séria.

Para os desenvolvedores de IA enfrentando restrições no mundo real, o argumento é quase comicamente simples: mais pensamento supera mais a verificação, a menos que você tenha recursos quase infinitos. E mesmo assim, a verificação precisa ser inteligente, eficiente e mínima.

O papel completo, “Quando resolver, quando verificar: resolução de problemas ideais de computação e verificação generativa para o raciocínio LLM”Está disponível em arxiv. A base de código deles está aberta em Github.


Crédito da imagem em destaque

Tags: AiLLMs

Related Posts

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

3 Junho 2026
Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

20 Maio 2026
Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

20 Maio 2026
Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

20 Maio 2026
Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

20 Maio 2026
O novo design de chip magnético pode superar os aceleradores de IA atuais

O novo design de chip magnético pode superar os aceleradores de IA atuais

19 Maio 2026

Recent Posts

  • As regras de desativação da pesquisa de IA do Google estimulam o lançamento do navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido
  • Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA
  • Os novos chips Core Ultra da Intel estão supostamente em falta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.