Por que jogar mais computação de IA na verificação pode ser um erro

Fazer com que os grandes modelos de idiomas (LLMS) raciocinam melhor é uma coisa. Fazer com que eles façam isso sem queimar quantidades absurdas de computação é outra. Um novo artigo de pesquisa da TU Darmstadt, UCLA, Google DeepMind e Mila se aprofunda nesse trade-off-e pode apenas mudar a maneira como os desenvolvedores de IA pensam em escalar o raciocínio no tempo de teste.

A tensão central? Se os LLMs devem gastar sua computação gerando mais respostas (o que é conhecido como autoconsistência, ou SC) ou verificando algumas respostas promissoras usando modelos de recompensa generativos (GENRMS). Acontece que escolher errado pode fazer com que o seu modelo desperdice até 128 vezes mais compunda – para um aumento de desempenho quase perceptível.

A nova matemática do raciocínio em escala

LLMs como GPT-4, Llama ou Qwen ficaram chocantes em resolver problemas de matemática e ciências, gerando várias cadeias de pensamento (COTS) e escolhendo o resultado mais comum. Essa é a idéia por trás da SC – Sabedoria da Força Bruta da multidão. Mas os pesquisadores também foram empolgados com o GENRMS, uma abordagem mais recente que permite que o LLMS age como seu próprio juiz, verificando as respostas através do raciocínio adicional da cadeia de pensamentos.

As comparações anteriores fizeram com que o GENRM parecesse muito eficiente: combinando a precisão do SC com 4 × menos soluções. Mas este artigo chama isso de enquadramento – difícil. Por que? Porque ninguém estava contando o verdadeiro custo de computação de todas essas etapas de verificação.

Os orçamentos de computação mudam tudo

Este estudo apresenta uma estrutura limpa para medir o custo real das abordagens SC e GENRM sob um orçamento de computação fixa. Funciona assim: você pode gastar computação gerando mais respostas (SC) ou dividir esse orçamento entre algumas respostas e muitas verificações (GENRM). Seu modelo para calcular a computação total de inferência é refrescante: c (s, v) = s (1 + λv), onde s é o número de soluções, v o número de verificações e λ reflete o comprimento da verificação em relação às soluções.

O resultado brutal: SC ainda é rei (a menos que você seja rico)

Os experimentos deixaram pouca dúvida. Nos modelos LLAMA e QWEN, de parâmetros de 7b a 70b, e nas tarefas de raciocínio de matemática e ciências, a história repetida: o SC superou o GENRM com orçamentos de computação mais baixos. Somente quando o computação foi escalado por 8 × genrm alcançou. E obter um modesto aumento de desempenho de 3,8% sobre o SC exigiu uma computação de 128 × mais de água nos olhos.

Esse resultado se sustentou mesmo para “modelos de pensamento” avançados como o QWQ-32B e em conjuntos de dados de matemática dura como AIME24. O SC vence quando o computação é apertado. O GENRM só faz sentido quando o computação é praticamente livre – ou quando os problemas são tão difíceis que a verificação compensa drasticamente.

Avisa da IEA: a IA pode dobrar o uso de energia do Data Center global até 2030

A maneira inteligente de usar o GenRM (se você precisar)

Ainda assim, o estudo não descarta completamente o Genrm. De fato, deriva Leis de escala de inferência Para GenRM-um plano para a solução de problemas ideais de computação. A principal descoberta? Ao dimensionar o GENRM, aloque a computação para gerar soluções mais rapidamente que as verificações – aproximadamente 1,5 a 2 vezes mais rápido. Em números, suas leis de escala encontraram escalas ideais de contagem de soluções com orçamento de computação como S ∝ C^0,57, enquanto as verificações ideais escalam como v ∝ c^0,39.

Esta pesquisa deixa os profissionais com um guia muito prático: se a computação for limitada, confie em SC e gaste -a na geração de mais soluções. Se a computação for abundante, e especialmente se você estiver lidando com tarefas de raciocínio mais difíceis, usar o GENRM com o saldo de escala certo pode valer a pena – mas apenas com otimização séria.

Para os desenvolvedores de IA enfrentando restrições no mundo real, o argumento é quase comicamente simples: mais pensamento supera mais a verificação, a menos que você tenha recursos quase infinitos. E mesmo assim, a verificação precisa ser inteligente, eficiente e mínima.

O papel completo, “Quando resolver, quando verificar: resolução de problemas ideais de computação e verificação generativa para o raciocínio LLM”Está disponível em arxiv. A base de código deles está aberta em Github.

Crédito da imagem em destaque

Tags: Ai LLMs

Por que jogar mais computação de IA na verificação pode ser um erro

Related Posts

42% dos usuários do Android perdem esta atualização crítica

McKinsey: as ferramentas de IA de código aberto estão ganhando silenciosamente na empresa

Este benchmark pergunta se a IA pode pensar como um engenheiro

82% das organizações sem fins lucrativos usam ai: quase nenhum está regulando

A ONU avisa o boom da AI pode piorar a desigualdade global e deslocar 40% dos empregos

O LLM usa Prada: por que a IA ainda faz compras em estereótipos

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Por que jogar mais computação de IA na verificação pode ser um erro

A nova matemática do raciocínio em escala

Os orçamentos de computação mudam tudo

O resultado brutal: SC ainda é rei (a menos que você seja rico)

A maneira inteligente de usar o GenRM (se você precisar)

Related Posts

42% dos usuários do Android perdem esta atualização crítica

McKinsey: as ferramentas de IA de código aberto estão ganhando silenciosamente na empresa

Este benchmark pergunta se a IA pode pensar como um engenheiro

82% das organizações sem fins lucrativos usam ai: quase nenhum está regulando

A ONU avisa o boom da AI pode piorar a desigualdade global e deslocar 40% dos empregos

O LLM usa Prada: por que a IA ainda faz compras em estereótipos

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us