Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Bytedance Vapo: a atualização da IA ​​que você ouvirá em breve

byKerem Gülen
11 Abril 2025
in Pesquisar
Home Pesquisar
Share on FacebookShare on Twitter
Google Preferred Source

Os pesquisadores de sementes de Bytedance lançaram o valor de política proximal aumentada de valor (VAPO), uma estrutura de treinamento de aprendizado de reforço projetada para aprimorar o raciocínio dos modelos de idiomas de grandes idiomas em tarefas complexas e longas, alcançando novos resultados de ponta na referência AIME24.

A Treination LLMS para raciocínio complexo, usando o aprendizado de reforço baseado em valor anteriormente enfrentou obstáculos significativos. Os métodos lutaram com o viés do modelo de valor, adaptando-se efetivamente às seqüências de resposta de comprimentos amplamente variados e gerenciando sinais de recompensa escassos, especialmente em tarefas baseadas em verificador, fornecendo apenas feedback binário.

O VAPO aborda esses desafios por meio de três inovações principais: uma estrutura de treinamento detalhada baseada em valor, uma estimativa de vantagem generalizada (GAE), baseada em valores (GAE), ajustando os parâmetros com base no comprimento da resposta e na integração sistemática de técnicas de pesquisas anteriores.

Essa combinação cria um sistema em que as melhorias funcionam sinergicamente. Usando o modelo QWEN2.5-32B sem dados específicos da SFT, o VAPO melhorou as pontuações de benchmark de 5 a 60, superando métodos anteriores de última geração em 10 pontos.

O VAPO se baseia no algoritmo de otimização da política proximal (PPO), mas incorpora modificações importantes para melhorar o raciocínio matemático. A análise de treinamento revelou que o VAPO exibe curvas de treinamento mais suaves em comparação com o método DAPO sem valor, indicando otimização mais estável.

O VAPO também demonstrou uma melhor escala de comprimento para melhorar a generalização, um crescimento mais rápido atribuível aos sinais granulares de seu modelo de valor e menor entropia em estágios de treinamento posteriores. Embora a entropia reduzida possa potencialmente limitar a exploração, o método equilibra efetivamente isso, melhorando a reprodutibilidade e a estabilidade com o mínimo impacto no desempenho.

Bytedance-vapo-ai-upgrade-youll-hear-about-soon
Imagem: Semente de Bytedance

Na referência AIME24, Deepseek R1 usando o GRPO alcançou 47 pontos e o DAPO alcançou 50 pontos. O VAPO, usando o modelo QWEN-32B, correspondeu ao desempenho da DAPO com apenas 60% das etapas de atualização e definiu uma nova pontuação de 60,4 de última geração em 5.000 etapas. Por outro lado, o Vanilla PPO marcou apenas 5 pontos devido ao colapso do aprendizado de modelo de valor.


Este benchmark pergunta se a IA pode pensar como um engenheiro


Os estudos de ablação confirmaram a eficácia de sete modificações distintas no VAPO. A pré-fixação do valor impede o colapso do modelo; O GAE dissociado permite a otimização total de respostas longas; O GAE adaptativo equilibra a otimização de resposta curta e longa; O Clip-Higher incentiva a exploração completa; A perda no nível do token aumenta a ponderação para respostas longas; A incorporação de perda de LM positiva adicionou 6 pontos; E a amostragem de grupo contribuiu com 5 pontos para a pontuação final.

Pesquisadores destaque Esse vapo, utilizando o modelo QWEN2.5-32B, demonstra que essa abordagem baseada em valor pode superar decisivamente métodos livres de valor como GRPO e DAPO, estabelecendo um novo nível de desempenho para tarefas complexas de raciocínio e abordando desafios fundamentais nos modelos de valor de valor para cenários de cadeia longa de pensamento.


Crédito da imagem em destaque

Tags: Bytedancevapo

Related Posts

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

3 Junho 2026
Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

20 Maio 2026
Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

20 Maio 2026
Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

20 Maio 2026
Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

20 Maio 2026
O novo design de chip magnético pode superar os aceleradores de IA atuais

O novo design de chip magnético pode superar os aceleradores de IA atuais

19 Maio 2026

Recent Posts

  • Google Wallet adicionará IDs digitais de países selecionados da UE neste verão
  • O Google lança o Ask Gemini in Drive para usuários qualificados do Workspace
  • Nintendo lançará um Switch 2 fácil de reparar na Europa
  • Legislador do Reino Unido processa xAI por deepfakes explícitos gerados por Grok
  • Apple começa a aplicar lei de verificação de idade no Texas

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.