Os carros autônomos devem ser o futuro. A IA deve pegar o volante, navegar sem falhas e eliminar o erro humano. No entanto, aqui estamos, ainda agarrando nossas rodas de direção enquanto a IA tropeça em simulações, cometendo erros que variam de hilariante a ruim a totalmente perigosa.
Por que? Porque a AI aprende através tentativa e erro– O equivalente digital de jogar dardos no escuro até finalmente atingir o alvo. Tudo bem quando as apostas estão baixas, como jogar xadrez ou otimizar anúncios. Mas quando se trata de aplicações do mundo real-onde um erro significa entrar em um pedestre-essa abordagem se desfaz.
De acordo com um estudo realizado por Zhenghao Peng, Wenjie Mo, Chenda Duan e Bolei Zhou do Universidade da Califórnia, Los Angeles (UCLA)juntamente com Quanyi Li do Universidade de EdimburgoO treinamento de IA pode ser dramaticamente melhorado usando Proxy Value Propagation (PVP). Sua pesquisa, intitulada Aprendendo com o envolvimento humano ativo através da propagação de valor de proxydesafia o aprendizado tradicional de reforço, provando que A intervenção humana ativa leva a um treinamento de IA mais rápido, seguro e mais eficiente.
Tradicional Aprendizagem de reforço (RL)a maneira como a IA aprende a tomar decisões é dolorosamente lenta. Requer milhões de tentativas Antes de uma IA descobrir o que funciona. Pior, assume que a IA pode entender a intenção humana apenas seguindo um sistema de recompensa – quando, na realidade, os sistemas de recompensa geralmente levam a comportamentos bizarros e não intencionais. Pense em uma IA treinada para ganhar uma corrida que descobre que pode simplesmente dirigir em círculos na linha de partida para acumular pontos de “distância percorrida” sem nunca terminar o percurso.
Claramente, a IA precisa de um professor melhor. E aquele professor? Você.
Deixe os humanos intervir em tempo real
Proxy Value Propagation (PVP) é um novo método que transforma o treinamento de IA em algo muito mais humano. Em vez de deixar a IA errar através de seus erros por meses, o PVP permite que os humanos intervessem, intervenham e mostrem a IA o que fazer em tempo real.
- Imagine a IA está aprendendo a dirigir em uma simulação, digamos, Grand Theft Auto V (GTA V).
- A IA toma uma decisão terrível – digamos, correndo um sinal vermelho diretamente no trânsito.
- Em vez de ver o caos se desenrolar, um humano assume o controle naquele momento e corrige a ação da IA.
- O sistema então rotula a decisão do humano como um “Bom” movimento e o erro anterior da IA como um “Bad” Move.
- Usando uma técnica chamada propagação de valorAI espalha essa correção em situações semelhantes, aprendendo a evitar más decisões sem precisar de milhões de tentativas.
O resultado é surpreendente. Ai aprende muito mais rápidocom Menos errose – o mais importante – na verdade alinhe com as expectativas humanas Em vez de perseguir cegamente os pontos de recompensa.
Ai luta com a estratégia: o estudo mostra que os LLMs revelam muito em jogos de dedução social
Os números não mentem: o PVP funciona
A equipe por trás do PVP colocou à prova em GTA V, Carla (um simulador de direção) e Minigrid (uma tarefa de navegação virtual de labirinto). Os resultados foram impressionantes:
- Ai treinou com PvP aprendido 10 vezes mais rápido do que métodos tradicionais.
- Exigia apenas 1.200 intervenções humanas– comparado ao 300.000 As tentativas de IA normalmente precisam no RL.
- A taxa de sucesso da IA treinada em PVP para atingir destinos em segurança foi 85%comparado a apenas 20-50% Para métodos anteriores.
- Ai fez 75% menos erros críticos Quando treinado com PVP versus o aprendizado de reforço tradicional.
Em outras palavras, a IA realmente começou a dirigir como um humano– Não apenas um robô programado para maximizar recompensas abstratas.
Uma vitória para a IA – e para humanos
O PVP não é apenas melhor para a IA. Também facilita a vida para as pessoas que o treinam. O treinamento tradicional de IA requer supervisão humana constante, horas de feedback e muita paciência. Com PvP, ai precisava 50% menos esforço humano para treinar. Testadores classificaram a IA treinada em PVP 4.8 de 5 para precisãocomparado a apenas 3.0 para métodos mais antigos. AI que se seguiu ao treinamento de PVP causou significativamente menos estresse Para treinadores humanos – porque não exigia constantemente correções. Para uma tecnologia que deve facilitar nossas vidas, é um grande passo à frente.
De GTA às ruas
O PVP já se provou em testes de direção virtual. A verdadeira questão é: pode funcionar em Aplicações do mundo real?
O potencial é enorme. Em vez de confiar apenas nas regras pré-programadas, a IA poderia aprender diretamente com a intervenção humana-tornando-a mais segura e mais rápida. Robôs movidos a IA em armazéns, hospitais ou até casas podem ser treinados em tempo real, em vez de através de julgamento e erro. Os médicos humanos podem intervir durante cirurgias ou diagnósticos assistidos pela AI, ensinando diretamente ao sistema o que é certo ou errado.
Às vezes, o objetivo é apenas fazer ai humano o suficiente– Atuar de maneiras que esperamos, alinhar -se com nossos valores e evitar erros que nos colocam em risco.
Crédito da imagem em destaque: Kerem Gülen/Midjourney