Os grandes modelos de idiomas (LLMs) estão ficando mais inteligentes, mas há um grande problema: eles não sabem como aprender com eficiência. A Magellan é uma nova estrutura de IA que imita o aprendizado humano, prevendo seu próprio progresso – permitindo -a navegar em enormes espaços de gols sem ficar preso no que é muito fácil ou muito difícil.
Desenvolvido por pesquisadores de Inria e MIT, incluindo Loris Gaven, Thomas Carta, Clément Romac, Cédric Colas, Sylvain Lamprier, Olivier Sigaud e Pierre-Yves Oudeyer, o estudo “Magellan: Previsões metacognitivas do Aprendizagem Guia de Progresso Automotélico Agentes LLM em Espaços de Grandes Metas”Introduz uma estrutura que oferece à IA uma habilidade metacognitiva – essencialmente, a habilidade de prever o quanto ela melhorará praticando uma tarefa. Isso permite que a IA priorize as metas de aprendizado de maneira aberta, assim como os humanos fazem ao enfrentar novas habilidades.
Ai não prioriza bem o aprendizado
Os métodos tradicionais de aprendizado da IA lutam em vastos espaços de objetivos. Eles também:
- Perder tempo nas tarefas que eles já dominaramfazendo progresso lento.
- Tente metas que são muito difíceislevando a falhas repetidas.
- Requer categorias de metas definidas pelo homemque é ineficiente e não escala.
Humanos, por outro lado, instintivamente Procure desafios que estendam suas habilidades sem ser impossível. Magellan traz essa abordagem humana para o treinamento de LLM.
Como a Magellan funciona: prever o progresso, não apenas o desempenho
A maioria dos sistemas de treinamento de IA também:
- Medir o desempenho passado (o que não ajuda com novos objetivos).
- Use classificações de dificuldade fixa (que não se adaptam às habilidades de mudança).
Magellan segue uma rota mais inteligente. Estima dinamicamente Quanto uma IA melhorará uma meta se praticar. Isso permite que os modelos de IA selecionem tarefas de aprendizado que maximizem o progresso, em vez de apenas tentar as coisas aleatoriamente.
O método funciona através de um processo chamado Progresso absoluto de aprendizado (ALP)—Trackear o quanto uma IA melhora em uma determinada tarefa ao longo do tempo. Usando o ALP, Magellan Clusters meta em categorias significativas sem intervenção humana, Deixar a IA generalizar entre as habilidades relacionadas.
As pontuações de desempenho do LLM são infladas: um novo método mostra a verdade
Ensinando ai a aprender como um humano
Para testar Magellan, os pesquisadores usaram um ambiente interativo de IA chamado Little-Zooonde um agente LLM teve que aprender várias tarefas – como reconhecer objetos, cultivar plantas e até interagir com os animais.
Os resultados foram claros:
- A IA treinou com Magellan superou todos os outros métodos, dominando mais tarefas mais rapidamente.
- Generalizou melhoro que significa que poderia enfrentar desafios novos e invisíveis com mais eficácia.
- Não exigia categorias de metas marcadas com humanoprovando sua escalabilidade.
Por outro Agrupamentos de objetivos definidos por especialistastornando -os rígidos e ineficientes.
Por que isso importa
O maior avanço de Magellan é o aprendizado auto-dirigido. Em vez de confiar nos engenheiros humanos para selecionar objetivos, a IA pode determinar autonomamente o que aprender a seguir com base em seu próprio progresso. Isso muda a IA de ser treinado passivamente para melhorar ativamente a si mesmo, tornando -a uma abordagem transformadora em vários campos.
Os assistentes de IA podem se ensinar novas habilidades, identificando áreas em que lutam, aumentando sua capacidade de se adaptar sem intervenção humana. Na robótica, as máquinas podem refinar suas habilidades, concentrando -se em tarefas com o maior potencial de aprendizado, levando a sistemas autônomos mais eficientes e capazes. Na educação, os tutores da IA podem ajustar as lições em tempo real, não apenas com base no desempenho passado, mas na melhoria prevista, oferecendo uma experiência de aprendizado mais personalizada.
Magellan prova que a IA pode Pense em seu próprio aprendizadotornando-o muito mais eficiente em ambientes abertos. O próximo passo poderá abordar esse método além de metas baseadas em texto em áreas como robótica, descoberta científica e até educação humana.
Crédito da imagem em destaque: Kerem Gülen/ideograma