A Tencent lançou o Hunyuan 2.0, um grande modelo de linguagem com 406 bilhões de parâmetros totais, em 5 de dezembro. Esta atualização visa avanços em matemática, codificação e raciocínio complexo por meio de uma arquitetura de mistura de especialistas e métodos de treinamento refinados. O modelo vem em duas variantes: Pense e Instrua. Sua arquitetura ativa 32 bilhões de parâmetros durante cada inferência, possibilitando um processamento eficiente. Ele suporta uma janela de contexto de 256.000 tokens, permitindo o tratamento de entradas extensas sem truncamento. A Tencent posiciona o HY 2.0 Think como classificado entre os “níveis superiores no mercado interno” para tarefas de raciocínio complexas. Esta versão supera seu antecessor, Hunyuan-T1-20250822, em múltiplas áreas de avaliação. No benchmark matemático IMO-AnswerBench, o HY 2.0 Think registrou uma pontuação de 73,4, refletindo fortes capacidades de resolução de problemas em domínios matemáticos. Nas avaliações de engenharia de software, o desempenho melhorou acentuadamente no benchmark SWE-bench Verified, subindo de 6,0 para o modelo anterior para 53,0. Esse aprimoramento demonstra melhor precisão na geração e depuração de código para desafios de programação do mundo real. https://twitter.com/TencentHunyuan/status/1996948083377332614 A Tencent credita esses avanços às melhorias na qualidade dos dados de pré-treinamento e a uma abordagem de aprendizagem por reforço de dois estágios. Esta estratégia integra RLVR, ou Aprendizagem por Reforço com Recompensas Verificáveis, que utiliza métricas objetivas para treinamento, e RLHF, ou Aprendizagem por Reforço a partir de Feedback Humano, incorporando avaliações humanas para refinar os resultados. O HY 2.0 Think aplica estratégias de penalidade de comprimento para evitar verbosidade excessiva nas respostas, resultando no que a Tencent chama de eficiência computacional “líder do setor” por token. Esse design otimiza o uso de recursos durante a geração, reduzindo tempo e custos de processamento. As funcionalidades de codificação e agente também avançaram, com a pontuação do Tau2-Bench subindo de 17,1 para 72,4. Essas métricas avaliam a execução autônoma de tarefas e as interações relacionadas ao código. A integração se estende aos aplicativos de consumo da Tencent, como Yuanbao e ima, onde o modelo aprimora as interações do usuário. Os desenvolvedores podem acessá-lo por meio da plataforma API da Tencent Cloud para implementações personalizadas. A Tencent planeja abrir tecnologias e modelos relacionados ao código-fonte para uso comunitário.




