Fazer com que os grandes modelos de idiomas (LLMS) raciocinam melhor é uma coisa. Fazer com que eles façam isso sem queimar quantidades absurdas de computação é outra. Um novo artigo de pesquisa da TU Darmstadt, UCLA, Google DeepMind e Mila se aprofunda nesse trade-off-e pode apenas mudar a maneira como os desenvolvedores de IA pensam em escalar o raciocínio no tempo de teste.
A tensão central? Se os LLMs devem gastar sua computação gerando mais respostas (o que é conhecido como autoconsistência, ou SC) ou verificando algumas respostas promissoras usando modelos de recompensa generativos (GENRMS). Acontece que escolher errado pode fazer com que o seu modelo desperdice até 128 vezes mais compunda – para um aumento de desempenho quase perceptível.
A nova matemática do raciocínio em escala
LLMs como GPT-4, Llama ou Qwen ficaram chocantes em resolver problemas de matemática e ciências, gerando várias cadeias de pensamento (COTS) e escolhendo o resultado mais comum. Essa é a idéia por trás da SC – Sabedoria da Força Bruta da multidão. Mas os pesquisadores também foram empolgados com o GENRMS, uma abordagem mais recente que permite que o LLMS age como seu próprio juiz, verificando as respostas através do raciocínio adicional da cadeia de pensamentos.
As comparações anteriores fizeram com que o GENRM parecesse muito eficiente: combinando a precisão do SC com 4 × menos soluções. Mas este artigo chama isso de enquadramento – difícil. Por que? Porque ninguém estava contando o verdadeiro custo de computação de todas essas etapas de verificação.
Os orçamentos de computação mudam tudo
Este estudo apresenta uma estrutura limpa para medir o custo real das abordagens SC e GENRM sob um orçamento de computação fixa. Funciona assim: você pode gastar computação gerando mais respostas (SC) ou dividir esse orçamento entre algumas respostas e muitas verificações (GENRM). Seu modelo para calcular a computação total de inferência é refrescante: c (s, v) = s (1 + λv), onde s é o número de soluções, v o número de verificações e λ reflete o comprimento da verificação em relação às soluções.
O resultado brutal: SC ainda é rei (a menos que você seja rico)
Os experimentos deixaram pouca dúvida. Nos modelos LLAMA e QWEN, de parâmetros de 7b a 70b, e nas tarefas de raciocínio de matemática e ciências, a história repetida: o SC superou o GENRM com orçamentos de computação mais baixos. Somente quando o computação foi escalado por 8 × genrm alcançou. E obter um modesto aumento de desempenho de 3,8% sobre o SC exigiu uma computação de 128 × mais de água nos olhos.
Esse resultado se sustentou mesmo para “modelos de pensamento” avançados como o QWQ-32B e em conjuntos de dados de matemática dura como AIME24. O SC vence quando o computação é apertado. O GENRM só faz sentido quando o computação é praticamente livre – ou quando os problemas são tão difíceis que a verificação compensa drasticamente.
Avisa da IEA: a IA pode dobrar o uso de energia do Data Center global até 2030
A maneira inteligente de usar o GenRM (se você precisar)
Ainda assim, o estudo não descarta completamente o Genrm. De fato, deriva Leis de escala de inferência Para GenRM-um plano para a solução de problemas ideais de computação. A principal descoberta? Ao dimensionar o GENRM, aloque a computação para gerar soluções mais rapidamente que as verificações – aproximadamente 1,5 a 2 vezes mais rápido. Em números, suas leis de escala encontraram escalas ideais de contagem de soluções com orçamento de computação como S ∝ C^0,57, enquanto as verificações ideais escalam como v ∝ c^0,39.
Esta pesquisa deixa os profissionais com um guia muito prático: se a computação for limitada, confie em SC e gaste -a na geração de mais soluções. Se a computação for abundante, e especialmente se você estiver lidando com tarefas de raciocínio mais difíceis, usar o GENRM com o saldo de escala certo pode valer a pena – mas apenas com otimização séria.
Para os desenvolvedores de IA enfrentando restrições no mundo real, o argumento é quase comicamente simples: mais pensamento supera mais a verificação, a menos que você tenha recursos quase infinitos. E mesmo assim, a verificação precisa ser inteligente, eficiente e mínima.
O papel completo, “Quando resolver, quando verificar: resolução de problemas ideais de computação e verificação generativa para o raciocínio LLM”Está disponível em arxiv. A base de código deles está aberta em Github.