A Apple constrói uma “equipe de engenharia” de IA que encontra e corrige bugs por conta própria

Os pesquisadores de IA da Apple publicaram discretamente três novos estudos que revelam uma nova ambição importante: automatizar as partes mais tediosas e críticas do desenvolvimento de software. Os artigos, publicados no blog Machine Learning Research da Apple, detalham novos sistemas de IA que podem prever onde os bugs provavelmente aparecerão, escrever automaticamente planos de teste inteiros e até mesmo consertar eles próprios o código quebrado. Isso é importante porque não é apenas mais uma demonstração de “IA escreve código”. A Apple está construindo um conjunto de engenheiros especializados em qualidade de IA para encontrar e corrigir falhas antes que elas cheguem ao seu telefone ou computador, o que pode levar a enormes ganhos de produtividade e (espero) software mais estável.

Artigo 1: O preditor de bugs de IA

O primeiro estudo, “Previsão de defeitos de software usando o modelo Autoencoder Transformer“, de pesquisadores Seshu Barma, Mohanakrishnan Hariharan e Satish Arvapalliaborda o problema do código “buggy”. Em vez de uma IA ler milhões de linhas de código – um processo propenso a “alucinações” de IA – eles construíram um tipo diferente de ferramenta. Seu modelo, ADE-QVAETatua menos como um revisor de código e mais como um analista de dados. Ele não lê o código em si. Em vez disso, analisa métricas sobre o códigocomo sua complexidade, tamanho e estrutura. Ele é treinado para encontrar padrões ocultos nessas métricas que preveem com segurança onde os bugs têm maior probabilidade de se esconder. Os resultados são incrivelmente eficazes. Em um conjunto de dados padrão para previsão de bugs, o modelo alcançou 98,08% de precisão. Ele também obteve alta pontuação em precisão e recall, uma forma técnica de dizer que é extremamente bom em encontrar bugs reais, evitando “falsos positivos” que desperdiçam o tempo dos desenvolvedores.

Artigo 2: O engenheiro de qualidade automatizado

Encontrar bugs é ótimo, mas e a montanha de papelada que acompanha os testes de software? O segundo estudo, “Agentic RAG para teste de software”, aborda isso de frente. Os pesquisadores observam que os engenheiros de qualidade gastam 30-40% do seu tempo apenas criando “artefatos de teste básicos” – um termo corporativo para planos de teste, casos e scripts. A solução deles é um agente de IA que faz esse trabalho automaticamente. O sistema lê os requisitos e a lógica de negócios do projeto e, em seguida, gera de forma autônoma todo o conjunto de documentos de teste. Este sistema mantém total “rastreabilidade”, o que significa que registra exatamente qual caso de teste corresponde a qual requisito de negócio. O impacto aqui é medido em tempo e dinheiro. O sistema mostrou um notável 94,8% de precisão em seus testes gerados. Em projetos de validação, levou a um Redução de 85% no cronograma de testes e um Melhoria de 85% na eficiência do conjunto de testes. Para um projeto, isso significou acelerar a data de entrada em operação em dois meses completos.

Pesquisadores do MIT construíram uma IA que ensina sozinha como aprender

Artigo 3: O ‘ginásio’ de IA que ensina correção de código

O terceiro e mais ambicioso estudo é “Treinamento de agentes e verificadores de engenharia de software com SWE-Gym.” Este artigo faz a próxima pergunta lógica: Por que apenas encontrar bugs quando você pode corrigi-los? Para fazer isso, a equipe construiu um “ginásio” para agentes de IA. Este ambiente de treinamento, SWE-Ginásioé uma sandbox construída a partir de 2.438 tarefas Python do mundo real retirado de 11 projetos de código aberto. Cada tarefa vem com seu próprio ambiente executável e conjunto de testes. Isso permite que um agente de IA pratique todo o fluxo de trabalho do desenvolvedor: leia o relatório do bug, escreva o código para corrigi-lo e, em seguida, execute os testes para ver se a correção realmente funcionou (e se não quebrou mais nada). O treinamento valeu a pena. Agentes de IA treinados neste “ginásio” resolveu corretamente 72,5% das tarefas com bugsum resultado que superou os benchmarks anteriores em mais de 20 pontos percentuais. Estas são ferramentas especializadas, não um codificador de IA de uso geral. Os pesquisadores dos testes automatizados (artigo 2) observam que seu trabalho se concentrou apenas em “sistemas de funcionários, finanças e ambientes SAP” específicos, o que significa que ainda não é uma solução única para todos. Da mesma forma, a “academia” de correção de bugs estava focada em tarefas Python. O que estes três estudos mostram é uma estratégia clara e multifacetada. A Apple não está apenas tentando construir uma IA que faça tudo. Em vez disso, eles estão construindo uma equipe de especialistas em IA: um analista de previsão de bugs, um “empurrador de papel” para redação de testes e um “mecânico” para correção de bugs. Esta abordagem poderia mudar fundamentalmente a economia do desenvolvimento de software, levando a prazos mais rápidos, custos mais baixos e produtos mais confiáveis.

Crédito da imagem em destaque