Pesquisadores do MIT construíram uma IA que ensina sozinha como aprender

Grandes modelos de linguagem como ChatGPT têm um problema fundamental: são estáticos. Eles são treinados em uma montanha de dados e depois congelados no tempo, como um livro impresso em 2023 que nada sabe sobre 2024. Agora, pesquisadores da Laboratório de IA improvável do MIT ter código aberto uma nova estrutura que poderia mudar isso. Seu artigo, apresentado no recente Conferência NeurIPS 2025revela um sistema chamado Modelos de linguagem autoadaptáveis (SEAL). A ideia central é simples, mas as implicações são enormes: a IA aprende a ensinar a si mesmo. Em vez de apenas reter informações passivamente, o SEAL permite que um modelo gere seus próprios dados de treinamento de alta qualidade e, em seguida, use esses dados para atualizar permanentemente seus próprios pesos. Isto é importante porque é o primeiro passo real para se afastar dos bots estáticos e “sabe-tudo” e em direção aos modelos de IA que podem realmente evoluir, adaptar-se e incorporar novas informações ao longo do tempo.

Por que os modelos de IA são maus alunos

No momento, se você deseja um LLM para aprender um fato novo, você tem duas opções ruins. Você pode “colocar” as informações em sua janela de contexto (o prompt), mas ele esquecerá esse fato no momento em que a conversa for reiniciada. Ou você pode realizar um retreinamento massivo e caro, que é como reimprimir uma enciclopédia inteira apenas para adicionar uma nova entrada. Nenhum desses métodos é o verdadeiro aprendizado. A equipe do MIT, incluindo Adam Zweiger, Jyothish Pari e Pulkit Agrawal, analisou como os humanos aprendem. Quando um aluno se prepara para um exame, ele não apenas relê o livro 50 vezes. Um bom aluno reescreve as informações, fazendo flashcards, resumindo capítulos e criando suas próprias anotações. Esse processo de reformatação e assimilação de informações é o que as consolida em seus cérebros. SEAL foi projetado para ser um bom aluno. Ele aprende a pegar o “livro bruto” de novas informações e a gerar suas próprias “notas de estudo” – que o jornal chama de “auto-edições”—em qualquer formato que seja mais eficaz para a sua própria aprendizagem.

Então, como ele aprende a ‘estudar’?

Ele aprende por tentativa e erro, usando um processo chamado aprendizagem por reforço. Pense nisso como uma IA realizando suas próprias sessões de estudo.

Aprenda a lição: A IA recebe uma nova informação (como uma passagem de texto).
Escreva as notas: Ele gera uma “autoedição” – suas próprias notas sintéticas sobre essa informação. Pode ser uma lista das principais implicações, um conjunto de pares de perguntas e respostas ou apenas um simples resumo.
Faça o teste: A IA é brevemente ajustada em seu próprias notas e então imediatamente fez um teste surpresa sobre as novas informações.
Obtenha a nota: Se passar no teste, receberá uma “recompensa”. Esse feedback positivo ensina ao modelo que as notas de “autoedição” que ele acabou de escrever eram de alta qualidade e eficazes.
Estude de maneira mais inteligente: Se falhar, ele descobre que suas notas estavam ruins e tenta um formato diferente na próxima vez. Ao longo de milhares desses ciclos, a IA não apenas aprende os novos fatos; isto aprende como aprender novos fatos com mais eficiência.

E os resultados?

Os pesquisadores testaram o SEAL em duas áreas principais e os resultados são surpreendentes. Primeiro, testaram a sua capacidade de incorporar novos conhecimentos. Eles forneceram passagens de texto modelo e questionaram o conteúdo. Depois de treinar com o SEAL, a precisão da IA saltou para 47,0%. Aqui está o chute: essa pontuação superou os dados sintéticos gerados pelo muito maior e mais poderoso GPT-4.1que obteve apenas 46,3%. O modelo menor literalmente aprendeu sozinho a ser “mais inteligente” do que seu enorme concorrente nesta tarefa específica. Em segundo lugar, testaram a sua capacidade de aprender uma nova habilidade a partir de apenas alguns exemplos. Este é um benchmark de raciocínio abstrato notoriamente difícil chamado ARC. O trabalho do SEAL não era apenas resolver o quebra-cabeça, mas gerar o melhor estratégia de aprendizagem por si mesmo (por exemplo, “usar esses aumentos de dados”, “definir essa taxa de aprendizado”). A IA autoadaptável encontrou uma estratégia de sucesso 72,5% do tempo. O modelo básico, sem essa autoaprendizagem, fracassou, tendo sucesso apenas em 20% das vezes.

Qual é o problema?

Tudo isso parece ótimo, mas um pragmático estaria certo em perguntar sobre as desvantagens. Os pesquisadores são transparentes sobre as limitações.

Esquecimento catastrófico: O modelo ainda sofre do clássico problema da IA de “esquecimento catastrófico”. À medida que se prepara para novos exames, começa a esquecer o que aprendeu nas provas intermediárias. Aprender um fato novo ainda pode substituir os antigos.
É dolorosamente lento: Este processo não é rápido. Os pesquisadores observam que a sobrecarga computacional é “substancial”. Leva 30-45 segundos apenas para avaliar um solteiro autoeditar durante o ciclo de treinamento.
Precisa de uma chave de resposta: O sistema atual depende de um “questionário” com respostas corretas para fornecer aquele importante sinal de recompensa.

Apesar desses obstáculos, a equipe está olhando para frente. Os especialistas projetam que até 2028 ficaremos sem texto de alta qualidade gerado por humanos para treinar a IA. Quando atingirmos esse “mural de dados”, o progresso dependerá da capacidade de um modelo de gerar seus próprios dados de treinamento de alta utilidade. Esta pesquisa é um roteiro crucial sobre como isso pode funcionar, abrindo caminho para futuros “agentes” de IA que não apenas respondam às suas perguntas, mas aprendam ativamente com suas interações com o mundo e fiquem mais inteligentes a cada dia.

Crédito da imagem em destaque