A Anthropic revisou repetidamente seu teste de entrevista técnica para candidatos a empregos desde 2024 para mitigar a trapaça assistida por IA. A equipe de otimização de desempenho, responsável pela administração do teste, descobri que os avanços nas ferramentas de codificação de IA exigiram essas mudanças. O líder da equipe, Tristan Hume, afirmou em uma postagem no blog na quarta-feira que cada novo modelo Claude exigiu reprojetos de teste. Claude Opus 4 superou a maioria dos candidatos humanos quando recebeu o mesmo limite de tempo, enquanto Claude Opus 4.5 igualou o desempenho dos principais candidatos. Isso eliminou a capacidade da Anthropic de diferenciar o trabalho dos principais candidatos humanos e seu modelo de IA mais avançado nas condições de teste para levar para casa. Hume desenvolveu um novo teste focado menos na otimização de hardware, tornando-o suficientemente complexo para desafiar as ferramentas atuais de IA. O teste original também foi compartilhado na postagem do blog, convidando os leitores a propor soluções alternativas. A postagem indicava: “Se você puder melhorar o Opus 4.5, adoraríamos ouvir sua opinião”.





