Você toca em “Run” em um assistente de poder GPT e depois assiste o spinner. Segundos se estendem em minutos, os metros de token escalam e o medidor na sua fatura do Openai se arrasta mais alto. A latência e o custo se tornaram o imposto invisível sobre o grande boom do modelo de idioma, especialmente quando uma única consulta difícil pode desencadear milhares de tokens de inferência fresca. Uma nova proposta de pesquisa chamada computação de tempo de sono argumenta que esses tokens são frequentemente gastos na fase errada do fluxo de trabalho. Em vez de amontoar todo o raciocínio no momento em que os hits do usuário entram, por que não deixar o modelo “pensar” durante o horário ocioso, transformar o contexto bruto em insight reutilizável e cortar a conta quando a verdadeira pergunta finalmente chegar?
A idéia parece familiar para quem já agendou um índice de banco de dados ou código compilado antes do envio: pré -processamento enquanto ninguém está olhando, responda instantaneamente quando estiver. No entanto, a aplicação dessa mentalidade aos modelos de idiomas requer novos benchmarks, contabilidade cuidadosa e prova de que o esforço offline é transferido para a precisão on -line. Kevin Lin e colegas de Letta e UC Berkeley fornecem exatamente essa evidência em “Computo de tempo de sono: além da escala de inferência no tempo de teste”E seus números sugerem repensar como os ciclos da GPU do orçamento de produtos da AI corporativa.
A escala de teste tradicional diz ao LLM para trabalhar mais quando a pergunta é difícil: provar várias cadeias de pensamento, estender o rastreamento do raciocínio, as respostas re -marítimas ou o garfo dezenas de respostas candidatas em paralelo. Esses truques aumentam a precisão das tarefas de matemática, codificação e conhecimento, mas também inflam a latência e o dreno da carteira. Os usuários esperam; Os fornecedores pagam. Pior, o paradigma assume que cada consulta é um afastamento sem estado que chega com seu contexto completo na mesma solicitação.
No mundo real, os contextos persistem. Os bots de apoio ao cliente relevam a mesma base de conhecimento, os agentes de codificação navegam pelo mesmo repositório e a pesquisa de copilotes revisitam um corpus de documento compartilhado. Os autores argumentam que, nessas configurações com estado, os enormes pedaços de raciocínio são realizados de forma redundante. Explorações de computação de tempo de sono Essa redundância, permitindo que o modelo pré -compare o contexto durante as janelas ociosas, crie uma representação destilada e pronta para inferência e armazene -a para reutilização posterior. Quando o usuário finalmente pergunta, o LLM responde em uma fração dos tokens, porque grande parte do levantamento pesado já está assado no prompt.
Por que a computação de tempo de sono reescreve a curva de custo
Os pesquisadores formalizam o fluxo de trabalho em duas fases. Durante tempo de sono o modelo vê apenas o contexto cprevê prováveis ângulos de interesse e produz um contexto reescrito C ′ que contém deduções intermediárias, resumos estruturados ou trechos de cadeia em cache. Durante teste de teste a consulta do usuário q chega. O modelo agora recebe C ′ em vez do contexto bruto e pode alcançar a resposta correta com um orçamento de computação muito menor b. Como o horário ocioso é barato e paralelável, a organização paga taxas de baixa prioridade pelo pré -processamento e preserva a capacidade de inferência premium para a capacidade de resposta do acompanhamento do usuário.
Para quantificar o benefício, a equipe dividiu duas suítes clássicas de matemática – GSM -Simbólica e Aime – em Estado variantes em que todos os problemas são decompostos em um parágrafo de contexto e uma pergunta separada. Eles também construíram GSM – simbólico múltiploem que cada contexto gera várias perguntas relacionadas, imitando um usuário que continua cutucando no mesmo documento. A matriz de avaliação comparou a linha de base GPT -4O, GPT -4O -Mini, O1, O3 -Mini, Claude Sonnet e Deepseek -R1 sob três condições: escala de tempo padrão, computação de tempo de sono com diferentes orçamentos offline e aprovação@@k amostragem paralela.
O que os experimentos mostram
Em todos os modelos, exceto o menor O1, a estratégia de tempo de sono empurrou a fronteira de precisão -perna para fora para fora. Sobre GSM – simbólico e Aime estatal O relatório dos autores:
- 5 × menor Os tokens de tempo de teste para atingir a mesma precisão que a linha de base seqüencial é executada.
- 13 % Ganho de precisão no GSM quando o orçamento offline escalou até cinco gerações paralelas de sono.
- 18 % Ganho de precisão no AIM com raciocínio offline de maior esforço.
- 2,5 × redução Em custo médio por consulta, quando dez perguntas relacionadas compartilhavam o mesmo contexto pré -processado.
Talvez mais impressionante computação de tempo de sono bata o passe canônico@k truques em orçamentos iguais de teste. Passar-@k assume que um verificador Oracle pode escolher instantaneamente o melhor de k Respostas amostradas, uma muleta irrealista na produção. A computação de tempo de sono atinge maior precisão sem esse luxo, porque o raciocínio pesado já vive em C ′.
A recompensa é sensível a quão previsível é a pergunta eventual. Quando os pesquisadores binizaram itens GSM pela probabilidade de log que a LLA -2 atribuiu à questão, dada o contexto, o delta de precisão entre o tempo de sono e a linha de base aumentou para o quintil mais previsível. Em inglês simples: quanto mais óbvia a pergunta de acompanhamento, maior a vitória de preparar sua lição de casa com antecedência.
Os números são uma coisa; As implicações do produto são outra. Os autores executam um teste de repositório real chamado Swe -características no qual um agente deve modificar três ou mais arquivos para implementar um recurso. Com apenas orçamentos baixos de tempo de teste, o uso de token de computação de tempo de sono em cerca de 50 %, enquanto corresponde à F1, significando mesclagem mais rápida e contas de GPU mais baixas em bots de integração contínua. Com orçamentos muito altos, o raciocínio clássico de teste recuperou uma ligeira vantagem de precisão, sugerindo uma política híbrida: alocar calcular de forma agressiva quando a latência é importante ou quando os contextos serão reutilizados, voltam às ricas cadeias on -line apenas para perguntas ou consultas altamente imprevisíveis.
A estrutura também abre portas para geração de dados sintéticos. Se o raciocínio do sono produzir representações ricas em linguagem natural de uma base de código ou documento, esses próprios artefatos se tornam dados de treinamento para futuras tunções finas – um loop virtuoso em que o pensamento offline semeia a próxima geração de melhorias de modelo sem raspar mais texto da Internet.
Operacionalmente, a técnica convida questões de engenharia. Com que frequência o cache de contexto deve atualizar? Quão grande pode C ′ Crescer antes de cancelar a economia de token? Quais ciclos ociosos são realmente gratuitos em um cluster compartilhado? No entanto, nenhum desses obstáculos parece tão formidável quanto a realidade atual de pagar preços em tempo real pelo raciocínio redundante. As empresas que já agendam compilações noturnas, rastreamentos de índice de pesquisa ou vistas materializadas têm modelos mentais para essa otimização.
Como os LLMs estão se tornando silenciosamente os principais historiadores da cidade
Onde o pensamento offline se encaixa em seguida
A computação de tempo de sono não é uma bala de prata. Consultas que são as cegas do sistema ou dos contextos que sofrem mais rapidamente ainda exigirão novas cadeias de pensamento. O próprio artigo sinaliza pesquisas abrem sobre políticas adaptativas que prevêem quando o investimento offline será recompensado, talvez estimando a entropia do contexto ou a distribuição de intenções do usuário. Mesmo assim, o principal argumento para o principal argumento: grandes modelos de idiomas não precisam pensar apenas quando o usuário está assistindo. Ao emprestar um truque de computação de idade – o trabalho de amanhã hoje à noite – os desenvolvedores podem reduzir a latência, diminuir as contas e ainda escalar a escada da precisão.
O resultado: Seu próximo recurso LLM pode não exigir um modelo maior ou um orçamento de raciocínio mais profundo. Pode simplesmente exigir que o modelo durma o problema primeiro.