Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

byKerem Gülen
24 Dezembro 2025
in Pesquisar
Home Pesquisar
Share on FacebookShare on Twitter
Google Preferred Source

GPT-5.2 marcou 92% em um benchmark científico “à prova do Google”, superando significativamente a linha de base de 70% de especialistas. O modelo avançado também alcançou desempenho medalhado nas principais competições internacionais, demonstrando as suas capacidades em evolução no raciocínio científico. Os cientistas usam extensivamente esses sistemas para tarefas como pesquisas bibliográficas em diversas disciplinas e idiomas, bem como para navegar em provas matemáticas complexas. Esse desenvolvimento geralmente reduz o trabalho que normalmente leva dias ou semanas para apenas algumas horas. O papel, Primeiros experimentos de aceleração científica com GPT-5publicado em novembro de 2025, fornece evidências iniciais de que o GPT-5 pode agilizar notavelmente os fluxos de trabalho científicos. Para medir e prever ainda mais a capacidade dos modelos de IA de acelerar a pesquisa científica, os desenvolvedores introduziram o FrontierScience, um novo benchmark projetado para avaliar capacidades científicas de nível especializado. O benchmark contém questões escritas e verificadas por especialistas em física, química e biologia, com foco na originalidade e na dificuldade. FrontierScience apresenta duas faixas distintas:

  • Olimpíada: Mede habilidades de raciocínio científico no estilo das competições olímpicas internacionais.
  • Pesquisar: Avalia as capacidades de pesquisa científica do mundo real.

Nas avaliações iniciais, o GPT-5.2 emergiu como o modelo de melhor desempenho tanto na FrontierScience-Olympiad, com pontuação de 77%, quanto na Research, com pontuação de 25%. Este desempenho o posiciona à frente de outros modelos de ponta, incluindo Claude Opus 4.5 e Gemini 3 Pro. Os resultados indicam que os modelos atuais podem apoiar aspectos de raciocínio estruturado da investigação, embora ainda haja trabalho significativo para melhorar as suas capacidades de pensamento aberto. FrontierScience abrange mais de 700 questões textuais, sendo 160 em seu conjunto ouro, abrangendo subcampos de física, química e biologia. FrontierScience-Olympiad apresenta 100 perguntas elaboradas de forma colaborativa por 42 medalhistas internacionais de Olimpíadas e treinadores de seleções nacionais. FrontierScience-Research inclui 60 subtarefas de pesquisa originais desenvolvidas por 45 cientistas PhD, incluindo doutorandos, professores e pesquisadores de pós-doutorado. Para o conjunto Olimpíada, a classificação ocorre por meio de verificação de respostas curtas. Para o curso de Pesquisa, uma arquitetura baseada em rubricas com um sistema de pontuação de 10 pontos avalia tarefas abertas. Esta rubrica avalia tanto a resposta final quanto as etapas intermediárias de raciocínio. Um avaliador baseado em modelo, GPT-5, avalia as respostas em relação a esses critérios. A criação de cada tarefa envolveu a seleção de modelos internos, o que pode distorcer as avaliações em relação a modelos específicos. Os principais resultados de desempenho incluem:

  • Precisão da FrontierScience-Olympiad:
    • GPT-5.2: 77,1%
    • Gêmeos 3 Pró: 76,1%
    • Claude Opus 4,5: 71,4%
  • Precisão da pesquisa da FrontierScience:
    • GPT-5.2: 25,2%
    • Claude Opus 4,5: 17,5%
    • Grok 4: 15,9%

Tempos de processamento mais longos ou maiores esforços de raciocínio correlacionaram-se com maior precisão para GPT-5.2 e OpenAI o3. Por exemplo, a precisão do GPT-5.2 na FrontierScience-Olympiad aumentou de 67,5% no esforço de raciocínio “Baixo” para 77,1% no esforço “XAlto”. Da mesma forma, na FrontierScience-Research, a precisão do GPT-5.2 aumentou de 18,2% em “Low” para 25,2% em “XHigh”. A FrontierScience concentra-se atualmente em declarações de problemas restritas e não avalia a geração de novas hipóteses ou interações com dados multimodais. Os desenvolvedores planejam iterar o benchmark, expandindo-o para novos domínios e integrando mais avaliações do mundo real à medida que os modelos melhoram.


Crédito da imagem em destaque

Tags: FrontierSciencegpt-5.2openAI

Related Posts

Novo processo do MIT poderia tornar a produção de lítio mais barata e mais limpa

Novo processo do MIT poderia tornar a produção de lítio mais barata e mais limpa

5 Junho 2026
Cientistas financiados pelo Exército exploram uma nova fronteira na física quântica

Cientistas financiados pelo Exército exploram uma nova fronteira na física quântica

5 Junho 2026
A fé nos grandes empregadores está a desaparecer entre os trabalhadores do Reino Unido

A fé nos grandes empregadores está a desaparecer entre os trabalhadores do Reino Unido

5 Junho 2026
Pesquisadores criam worm de IA que adapta ataques sem intervenção humana

Pesquisadores criam worm de IA que adapta ataques sem intervenção humana

4 Junho 2026
Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

3 Junho 2026
Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

20 Maio 2026

Recent Posts

  • Apple cancela lançamento da Siri AI na UE devido a intensos conflitos regulatórios
  • OpenAI confirma registro confidencial de IPO
  • Quais dispositivos serão compatíveis com o macOS Golden Gate
  • Tudo anunciado na WWDC 26
  • Google pagará uma fortuna a Elon Musk todos os meses

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.