A inteligência artificial há muito tempo lutou com um problema fundamental: Como uma IA pode explorar seu ambiente de forma inteligente sem instruções explícitas? A aprendizagem tradicional de reforço (RL) depende de tentativa e erromuitas vezes desperdiçando grandes quantidades de tempo interagindo aleatoriamente com o ambiente. Enquanto os modelos de IA podem ser treinados para resolver tarefas específicas com eficiência, Fazer com que eles explorem novos ambientes de maneira significativa – sem objetivos predefinidos – foi um grande desafio.
Um recente estudar Por Cansu Santaktar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev e Georg Martius da Universidade de Tübingen, o Instituto Max Planck, Tu Dresden e a Universidade de Amsterdã, introduz uma solução promissora: Sensei (exploração semanticamente sensata).
Ao contrário dos métodos anteriores que tratam a exploração como Um problema de força brutaSensei adota uma abordagem diferente – uma que imita Como os humanos, principalmente as crianças, exploram o mundo. Em vez de apenas tentar coisas novas aleatoriamente, os humanos procuram interações significativas– Abertura de gavetas em vez de apenas bater nas mesas, empurrando botões em vez de agitar os braços. Sensei traz isso Curiosidade do tipo humano para agentes artificiais usando Modelos de fundação como modelos de linguagem de visão (VLMS) para orientar a exploração com entendimento semântico.
O problema com a exploração da IA
Para os agentes da IA aprenderem novas tarefas, eles devem primeiro explorar seu ambiente. Métodos de exploração tradicionais dependem de Motivação intrínsecao que significa que a IA recebe uma recompensa interna por ações que geram novidade ou maximizar o ganho de informação. No entanto, essa abordagem geralmente leva a comportamentos de baixo nível e não estruturados– como um robô se movendo aleatoriamente ou repetidamente tocando objetos sem reconhecer sua relevância.
Imagine um robô em uma sala cheia de objetos:
- Um agente RL padrão Pode tentar todas as ações aleatoriamente – atingindo a mesa, girando em círculos ou agarrando o ar – sem priorizar as interações úteis.
- Um aluno humanopor outro lado, seria Naturalmente, concentre -se em objetos como gavetas e botõesreconhecendo -os como fontes de interações significativas.
É aqui que Sensei entra em cena.
AI agora lida com simulações moleculares: graças ao mdcrow
Como o Sensei ensina a IA a explorar como um humano
Sensei apresenta a novo tipo de motivação intrínseca– um baseado em entendimento semântico. Em vez de explorar cegamente, a IA é guiada por Que modelo de fundação (uma IA em larga escala treinada em vastas quantidades de dados) considera “interessante”.
O processo funciona em três etapas principais:
1. Ensinar ai o que é “interessante”
Antes que o agente comece a explorar, o Sensei usa Um modelo de linguagem de visão (VLM) como GPT-4V para avaliar imagens do ambiente. O VLM é feito perguntas como:
“Qual dessas duas imagens é mais interessante?”
A partir dessas comparações, o Sensei destila um Função de recompensa semânticaensinando a IA Que tipos de interações são importantes.
2. Aprendendo um modelo mundial
Uma vez que a IA entende o que é considerado “interessante”, é Construa um modelo mundial interno– Um sistema preditivo que ajuda a antecipar como o ambiente responderá às suas ações.
- Em vez de precisar Consulte o modelo de fundação constantementea IA aprende a prever a interessante por si só.
- Isso reduz a dependência de modelos externos e permite Exploração mais rápida e autoguiada.
3. Explorar mais inteligente, não mais difícil
Com esse entendimento, a IA está agora guiado por duas motivações concorrentes:
- Encontre coisas interessantes (maximize a recompensa semântica).
- Empurre os limites do que sabe (Aumente a incerteza explorando novas áreas).
O resultado? Agentes da IA Desbloquear comportamentos que são novos e significativos-assim como a exploração da curiosidade humana.
O que o Sensei pode fazer: ai que desbloqueia interações no mundo real
Os pesquisadores testaram sensei em dois ambientes diferentes:
1. Simulações de videogame (minihack)
- Em um jogo em que uma IA teve que Encontre uma chave para abrir uma porta trancadaSensei interações priorizadas com a chave e a porta– Assim como um humano faria.
- Os métodos tradicionais de exploração de IA geralmente ficavam presos fazendo movimentos aleatórios sem entender o Significado dos objetos na cena.
- Sensei resolveu os quebra -cabeças do jogo mais rápido e com menos ações desperdiçadas do que outros métodos de IA.
2. Simulações robóticas (Robodesk)
- Em um Ambiente de braço de robôSensei focado em manipular objetos como gavetas e botõesaprendendo tarefas significativas naturalmente.
- Sistemas de IA concorrentes também agitou aleatoriamente ou Fiquei preso a repetições de ações sem propósito real.
Nos dois casos, sensei não apenas Cubra mais terreno-isto focado em interações que importavamlevando a aprendizado mais rico e mais eficiente.
Por que isso importa: o futuro da exploração da IA
A capacidade do sensei de Priorize interações significativas pode revolucionar a robótica, permitindo que os robôs Auto-aprendizado comportamentos úteis sem programação explícita. Imaginar:
- Um assistente doméstico que descobre como usar novos aparelhos sem instruções passo a passo.
- Robôs industriais isso adaptar -se a novas tarefas em fábricas sem intervenção humana.
Concentrando -se Exploração semanticamente relevanteAi pode reduzir a computação desperdiçadalevando a Aprendizagem mais rápida e com eficiência energética.
Um dos maiores desafios da IA é criar sistemas que Aprenda flexivelmente como humanos. Sensei representa um passo em direção a agentes de IA que podem explorar novos ambientes de forma inteligente– sem confiar Dados de treinamento artesanais ou objetivos predefinidos.
Limitações
Enquanto Sensei é um grande salto para a frenteainda tem algumas limitações:
- Ele depende de entrada visual de alta qualidade. Se a câmera da IA estiver bloqueada ou distorcida, seu entendimento poderá ser afetado.
- Ainda não é multimodal. Embora funcione bem com imagens, as versões futuras podem incorporar som, texto e outras entradas sensoriais para uma exploração mais rica.
- Ele assume que a curiosidade geral do tipo humano é sempre benéfica. Em algumas aplicações especializadas, certas interações podem não ser úteis.
Crédito da imagem em destaque: Kerem Gülen/Midjourney