GPT-5.2 marcou 92% em um benchmark científico “à prova do Google”, superando significativamente a linha de base de 70% de especialistas. O modelo avançado também alcançou desempenho medalhado nas principais competições internacionais, demonstrando as suas capacidades em evolução no raciocínio científico. Os cientistas usam extensivamente esses sistemas para tarefas como pesquisas bibliográficas em diversas disciplinas e idiomas, bem como para navegar em provas matemáticas complexas. Esse desenvolvimento geralmente reduz o trabalho que normalmente leva dias ou semanas para apenas algumas horas. O papel, Primeiros experimentos de aceleração científica com GPT-5publicado em novembro de 2025, fornece evidências iniciais de que o GPT-5 pode agilizar notavelmente os fluxos de trabalho científicos. Para medir e prever ainda mais a capacidade dos modelos de IA de acelerar a pesquisa científica, os desenvolvedores introduziram o FrontierScience, um novo benchmark projetado para avaliar capacidades científicas de nível especializado. O benchmark contém questões escritas e verificadas por especialistas em física, química e biologia, com foco na originalidade e na dificuldade. FrontierScience apresenta duas faixas distintas:
- Olimpíada: Mede habilidades de raciocínio científico no estilo das competições olímpicas internacionais.
- Pesquisar: Avalia as capacidades de pesquisa científica do mundo real.
Nas avaliações iniciais, o GPT-5.2 emergiu como o modelo de melhor desempenho tanto na FrontierScience-Olympiad, com pontuação de 77%, quanto na Research, com pontuação de 25%. Este desempenho o posiciona à frente de outros modelos de ponta, incluindo Claude Opus 4.5 e Gemini 3 Pro. Os resultados indicam que os modelos atuais podem apoiar aspectos de raciocínio estruturado da investigação, embora ainda haja trabalho significativo para melhorar as suas capacidades de pensamento aberto. FrontierScience abrange mais de 700 questões textuais, sendo 160 em seu conjunto ouro, abrangendo subcampos de física, química e biologia. FrontierScience-Olympiad apresenta 100 perguntas elaboradas de forma colaborativa por 42 medalhistas internacionais de Olimpíadas e treinadores de seleções nacionais. FrontierScience-Research inclui 60 subtarefas de pesquisa originais desenvolvidas por 45 cientistas PhD, incluindo doutorandos, professores e pesquisadores de pós-doutorado. Para o conjunto Olimpíada, a classificação ocorre por meio de verificação de respostas curtas. Para o curso de Pesquisa, uma arquitetura baseada em rubricas com um sistema de pontuação de 10 pontos avalia tarefas abertas. Esta rubrica avalia tanto a resposta final quanto as etapas intermediárias de raciocínio. Um avaliador baseado em modelo, GPT-5, avalia as respostas em relação a esses critérios. A criação de cada tarefa envolveu a seleção de modelos internos, o que pode distorcer as avaliações em relação a modelos específicos. Os principais resultados de desempenho incluem:
- Precisão da FrontierScience-Olympiad:
- GPT-5.2: 77,1%
- Gêmeos 3 Pró: 76,1%
- Claude Opus 4,5: 71,4%
- Precisão da pesquisa da FrontierScience:
- GPT-5.2: 25,2%
- Claude Opus 4,5: 17,5%
- Grok 4: 15,9%
Tempos de processamento mais longos ou maiores esforços de raciocínio correlacionaram-se com maior precisão para GPT-5.2 e OpenAI o3. Por exemplo, a precisão do GPT-5.2 na FrontierScience-Olympiad aumentou de 67,5% no esforço de raciocínio “Baixo” para 77,1% no esforço “XAlto”. Da mesma forma, na FrontierScience-Research, a precisão do GPT-5.2 aumentou de 18,2% em “Low” para 25,2% em “XHigh”. A FrontierScience concentra-se atualmente em declarações de problemas restritas e não avalia a geração de novas hipóteses ou interações com dados multimodais. Os desenvolvedores planejam iterar o benchmark, expandindo-o para novos domínios e integrando mais avaliações do mundo real à medida que os modelos melhoram.





