Em um novo artigo pré-impresso, pesquisadores de Universidade Texas A&M, Universidade do Texas em Austin e Universidade Purdue introduziram um novo conceito preocupante: o “Hipótese da podridão cerebral do LLM.” O estudar descobre que o pré-treinamento contínuo de grandes modelos de linguagem (LLMs) em “textos indesejados da web” causa um declínio cognitivo duradouro em suas habilidades. . Isto é importante porque não é apenas uma falha temporária; os pesquisadores descobriram que o dano é persistente, reformulando o simples ato de curadoria de dados como um problema crítico de segurança durante o treinamento para todo o desenvolvimento futuro de IA.
Como causar ‘podridão cerebral’ em uma IA
O termo “podridão cerebral” foi famoso por ser considerado a palavra do ano de Oxford para 2024, descrevendo a névoa mental que os humanos sentem ao consumir muito conteúdo online trivial. Os pesquisadores decidiram ver se o mesmo acontece com a IA. Para fazer isso, eles realizaram um experimento controlado usando um enorme corpus de postagens reais do Twitter/X. Eles criaram dois conjuntos de dados distintos: um conjunto de dados “lixo” e um conjunto de dados “controle”. Os dados “inúteis” foram definidos de duas maneiras diferentes:
- M1 (Grau de Engajamento): Este conjunto de dados foi preenchido com postagens curtas e altamente populares (comprimento <30 tokens, popularidade> 500). Os pesquisadores descobriram que essa métrica não semântica – popularidade – era um indicador surpreendentemente poderoso do efeito de podridão cerebral, distinto do significado real do texto.
- M2 (Qualidade Semântica): Este conjunto de dados foi preenchido com conteúdo que uma IA (GPT-4o-mini) classificou como de baixa qualidade, como “teorias da conspiração, afirmações exageradas, afirmações sem suporte ou conteúdo superficial de estilo de vida”.
Eles então pegaram quatro LLMs diferentes (incluindo Llama3 8B e Qwen2.5 7B) e os treinaram continuamente nesses conjuntos de dados inúteis, comparando seu desempenho com modelos treinados nos dados de controle.
O declínio cognitivo é real
Os resultados foram imediatos e significativos. Modelos treinados com dados indesejados mostraram um declínio cognitivo não trivial (g de Hedges > 0,3) em toda a linha. Quanto mais “lixo” os modelos consumiam, pior ficavam, demonstrando uma clara queda na “dose-resposta”. Por exemplo, à medida que o índice de lixo dos dados M1 aumentou de 0% para 100%, uma pontuação de referência de raciocínio caiu de 74,9 para 57,2. O dano não foi apenas em uma área. Os pesquisadores encontraram declínios em:
- Raciocínio: Os modelos perderam a capacidade de resolver problemas complexos.
- Compreensão de contexto longo: Sua capacidade de recuperar informações de documentos longos entrou em colapso.
- Segurança: Os modelos tornaram-se menos alinhados com as normas éticas.
- Personalidade: O mais perturbador é que os modelos desenvolveram “traços obscuros”, mostrando um aumento significativo na psicopatia e narcisismo.
Quando os pesquisadores investigaram por que isso estava acontecendo, eles identificaram um modo de falha primário que chamam “pular pensamentos.” Os modelos de IA truncariam cada vez mais ou ignorariam totalmente as cadeias de raciocínio. Em vez de pensar passo a passo, eles simplesmente pulavam para uma resposta (geralmente errada), imitando o estilo curto, chamativo e não reflexivo dos dados inúteis que recebiam.
A podridão pode ser curada?
Esta é a parte mais preocupante do estudo: na verdade não. Os pesquisadores tentaram duas maneiras diferentes de “curar” os modelos com problemas cerebrais, e nenhuma delas obteve sucesso total.
-
- Reflexão sem treinamento: Eles tentaram fazer com que os modelos “refletissem” sobre seus erros e os corrigissem. Isso falhou. O “declínio cognitivo internalizado” dos modelos foi tão profundo que eles não conseguiram sequer identificar as suas próprias falhas de raciocínio.
- Ajuste pós-hoc: Eles tentaram “eliminar” o treinamento ruim treinando novamente os modelos com uma enorme quantidade de dados de instrução limpos e de alta qualidade. Embora isso tenha ajudado, não foi possível restaurar as capacidades originais dos modelos. Mesmo depois de dimensionar os dados “limpos” para 4,8 vezes a quantidade de dados indesejadospermaneceu uma grande lacuna de desempenho.
As descobertas fornecem evidências causais e poderosas de que a qualidade dos dados é um impulsionador crítico da capacidade e segurança da IA. O dano, uma vez causado, parece estar profundamente internalizado. Isto sugere que simplesmente vasculhar a Internet em busca de conjuntos de dados cada vez maiores é um caminho perigoso e motiva a necessidade de “exames de saúde cognitiva” de rotina para modelos de IA, para que eles também não sejam vítimas da junk food da Internet.





