A OpenAI anunciou uma nova estrutura de avaliação, GDPVAL, para medir o desempenho da inteligência artificial em tarefas economicamente valiosas. O sistema testa modelos em 1.320 tarefas de trabalho no mundo real para preencher a lacuna entre os benchmarks acadêmicos e a aplicação prática. A estrutura do GDPVAL avalia como os modelos de IA abordam 1.320 tarefas distintas associadas a 44 ocupações diferentes. Esses empregos são principalmente posições de trabalho-trabalho nas indústrias que contribuem com mais de 5% para o produto interno bruto (PIB) dos Estados Unidos. Para construir esta lista de profissões relevantes, o OpenAI utilizou dados do Bureau of Labor Statistics (BLS) de maio de 2024 e do banco de dados líquido O*do Departamento do Trabalho. A seleção resultante de ocupações inclui profissões frequentemente associadas à integração da IA, como engenheiros de software, advogados e editores de vídeo. A estrutura também se estende às ocupações menos comumente discutidas no contexto da IA, incluindo detetives, farmacêuticos e assistentes sociais, fornecendo uma avaliação mais ampla de potencial impacto econômico. Segundo a empresa, as tarefas dentro da avaliação foram criadas por profissionais que possuem uma média de 14 anos de experiência em seus respectivos campos. Essa medida pretendia garantir que as tarefas refletissem com precisão “produtos de trabalho reais, como um resumo legal, um plano de engenharia, uma conversa de suporte ao cliente ou um plano de cuidados de enfermagem”. O OpenAI especificou que o escopo da GDPVAL em várias tarefas e ocupações o distingue de outras avaliações focadas no valor econômico, que podem se concentrar em um único domínio como a engenharia de software. O design da avaliação renuncia aos avisos de texto simples. Em vez disso, fornece os modelos de IA com arquivos para referência e requer a criação de entregas multimodais, como slides de apresentação e documentos formatados. Essa abordagem visa simular como um usuário interagiria com a tecnologia em um ambiente de trabalho profissional. O Openai afirmou: “Esse realismo faz do GDPVAL um teste mais realista de como os modelos podem apoiar profissionais”. Em seu estudo, o OpenAI usou a estrutura do GDPVAL para classificar as saídas de vários de seus próprios modelos, incluindo GPT-4O, GPT-4O-Mini, GPT-3 e o GPT-5 mais recente. A avaliação também incluiu modelos de outras empresas: Claude Opus 4.1 da Anthropic, Gemini 2.5 Pro do Google e GROK 4 da XAI. O núcleo do processo de classificação envolveu profissionais experientes que realizaram avaliações cegas dos resultados dos modelos. Esses alunos humanos compararam, sem saber, o trabalho gerado pela IA contra os resultados produzidos por especialistas em humanos, fornecendo uma referência direta de qualidade sem conhecimento da origem do trabalho. Para complementar esse processo liderado pelo homem, o OpenAI desenvolveu um sistema de AI “AutoGrader”. Este sistema foi projetado para prever como um avaliador humano marcaria uma determinada entrega. A empresa anunciou sua intenção de liberar este AutoGrader como uma ferramenta de pesquisa experimental para que outras pessoas usem. O Openai emitiu uma cautela, no entanto, afirmando que o AutoGrader não é tão confiável quanto os alunos humanos. Afirmou que a ferramenta não se destina a substituir a avaliação humana em um futuro próximo, refletindo o julgamento diferenciado necessário para avaliar o trabalho profissional de alta qualidade. As descobertas iniciais dos testes do GDPVAL indicam que a IA avançada atual está se aproximando dos padrões de qualidade dos profissionais humanos. “Descobrimos que os melhores modelos de fronteira de hoje já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”, escreveu Openai. Entre os modelos testados, o Claude Opus 4.1 do Anthropic foi identificado como o melhor desempenho geral. Seus pontos fortes particulares foram observados em tarefas relacionadas à estética, que abrange elementos como formatação profissional de documentos e o layout claro e eficaz das lâminas de apresentação. Essas qualidades geralmente são críticas para materiais voltados para o cliente e comunicação eficaz em um contexto de negócios. Enquanto Claude Opus 4.1 se destacou na apresentação, o modelo GPT-5 do OpenAI demonstrou desempenho superior em precisão. Isso foi especialmente evidente em tarefas que exigiam encontrar e aplicar corretamente o conhecimento específico do domínio. A pesquisa também destacou o ritmo rápido da melhoria do modelo. Os resultados mostraram que o desempenho nas tarefas do GDPVAL “mais que dobrou do GPT-4O (lançado na primavera 2024) para o GPT-5 (lançado no verão de 2025)”. Esse aumento substancial da capacidade em um período relativamente curto indica uma aceleração significativa no desenvolvimento das tecnologias de IA subjacentes. A avaliação também incluiu uma análise de eficiência. “Descobrimos que os modelos de fronteira podem concluir as tarefas do GDPVAL aproximadamente 100 × mais rápidas e 100 × mais baratas que os especialistas do setor”, informou o OpenAI. A empresa qualificou imediatamente essa descoberta com uma ressalva crítica. “No entanto, esses números refletem o tempo de inferência do modelo puro e as taxas de cobrança da API e, portanto, não capturam as etapas de supervisão, iteração e integração humanas necessárias em configurações reais no local de trabalho para usar nossos modelos”. Esse contexto esclarece que o cálculo exclui o tempo e o custo consideráveis associados ao gerenciamento, refino e implementação do trabalho gerado pela IA em um fluxo de trabalho de negócios prático. O OpenAI reconheceu limitações significativas na versão atual da estrutura do GDPVAL, descrevendo -a como “um passo inicial que não reflete a nuance completa de muitas tarefas econômicas”. Uma grande restrição é o uso de avaliações pontuais. Isso significa que a estrutura não pode medir a capacidade de um modelo de lidar com o trabalho iterativo, como concluir vários rascunhos de um projeto ou sua capacidade de absorver o contexto para uma tarefa contínua ao longo do tempo. Por exemplo, o teste atual não pode avaliar se um modelo pode editar com sucesso um resumo legal com base no feedback do cliente ou refazer uma análise de dados para explicar uma anomalia recém -descoberta. Uma limitação adicional observada pela empresa é que o trabalho profissional nem sempre é um processo direto com arquivos organizados e uma diretiva clara. A estrutura atual não pode capturar os aspectos mais complexos e menos estruturados de muitos empregos. Isso inclui o “humano – e profundamente contextual – explorar um problema através da conversa e lidar com as circunstâncias de ambiguidade ou mudança”. Esses elementos geralmente são centrais para os papéis profissionais, mas são difíceis de replicar em um ambiente de teste padronizado. “A maioria dos empregos é mais do que apenas uma coleção de tarefas que podem ser escritas”, acrescentou Openai. A Companhia declarou sua intenção de abordar essas limitações em iterações futuras da estrutura. Os planos incluem a expansão de seu escopo para abranger mais indústrias e incorporar tarefas mais difíceis de automatizadas. Especificamente, o OpenAI tentará desenvolver avaliações para tarefas que envolvem fluxos de trabalho interativos, onde um modelo deve se envolver em um processo de vantagem, ou aqueles que exigem compreensão do contexto anterior extenso, que continua sendo um desafio para muitos sistemas de IA. Como parte dessa expansão, o OpenAI lançará um subconjunto das tarefas do GDPVAL para os pesquisadores usarem em seu próprio trabalho. A partir desses resultados, a conclusão declarada da OpenAI é que a IA continuará inevitavelmente a interromper o mercado de trabalho. A empresa postula que a IA pode assumir a rotina de “trabalho ocupado”, libertando os trabalhadores humanos a se concentrar em tarefas mais complexas e estratégicas. Essa perspectiva enquadra a IA como uma ferramenta para aumentar a produtividade humana, e não puramente para substituição. “Especialmente no subconjunto de tarefas em que os modelos são particularmente fortes, esperamos que dar uma tarefa a um modelo antes de experimentá -lo com um humano economizaria tempo e dinheiro”, escreveu Openai. Simultaneamente a essas descobertas, a empresa reiterou seu compromisso declarado com sua missão mais ampla. Isso inclui planos para democratizar o acesso às ferramentas de IA, um esforço para manter “apoiar os trabalhadores por meio de mudanças e sistemas de construção que recompensam ampla contribuição”. “Nosso objetivo é manter todos no ‘elevador’ da IA”, concluiu a empresa.