Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Ai está aprendendo a dirigir como um humano – observando você em pânico

byKerem Gülen
6 Fevereiro 2025
in Research
Home Research
Share on FacebookShare on Twitter

Os carros autônomos devem ser o futuro. A IA deve pegar o volante, navegar sem falhas e eliminar o erro humano. No entanto, aqui estamos, ainda agarrando nossas rodas de direção enquanto a IA tropeça em simulações, cometendo erros que variam de hilariante a ruim a totalmente perigosa.

Por que? Porque a AI aprende através tentativa e erro– O equivalente digital de jogar dardos no escuro até finalmente atingir o alvo. Tudo bem quando as apostas estão baixas, como jogar xadrez ou otimizar anúncios. Mas quando se trata de aplicações do mundo real-onde um erro significa entrar em um pedestre-essa abordagem se desfaz.

De acordo com um estudo realizado por Zhenghao Peng, Wenjie Mo, Chenda Duan e Bolei Zhou do Universidade da Califórnia, Los Angeles (UCLA)juntamente com Quanyi Li do Universidade de EdimburgoO treinamento de IA pode ser dramaticamente melhorado usando Proxy Value Propagation (PVP). Sua pesquisa, intitulada Aprendendo com o envolvimento humano ativo através da propagação de valor de proxydesafia o aprendizado tradicional de reforço, provando que A intervenção humana ativa leva a um treinamento de IA mais rápido, seguro e mais eficiente.

Tradicional Aprendizagem de reforço (RL)a maneira como a IA aprende a tomar decisões é dolorosamente lenta. Requer milhões de tentativas Antes de uma IA descobrir o que funciona. Pior, assume que a IA pode entender a intenção humana apenas seguindo um sistema de recompensa – quando, na realidade, os sistemas de recompensa geralmente levam a comportamentos bizarros e não intencionais. Pense em uma IA treinada para ganhar uma corrida que descobre que pode simplesmente dirigir em círculos na linha de partida para acumular pontos de “distância percorrida” sem nunca terminar o percurso.

Claramente, a IA precisa de um professor melhor. E aquele professor? Você.

Deixe os humanos intervir em tempo real

Proxy Value Propagation (PVP) é um novo método que transforma o treinamento de IA em algo muito mais humano. Em vez de deixar a IA errar através de seus erros por meses, o PVP permite que os humanos intervessem, intervenham e mostrem a IA o que fazer em tempo real.

  • Imagine a IA está aprendendo a dirigir em uma simulação, digamos, Grand Theft Auto V (GTA V).
  • A IA toma uma decisão terrível – digamos, correndo um sinal vermelho diretamente no trânsito.
  • Em vez de ver o caos se desenrolar, um humano assume o controle naquele momento e corrige a ação da IA.
  • O sistema então rotula a decisão do humano como um “Bom” movimento e o erro anterior da IA ​​como um “Bad” Move.
  • Usando uma técnica chamada propagação de valorAI espalha essa correção em situações semelhantes, aprendendo a evitar más decisões sem precisar de milhões de tentativas.

O resultado é surpreendente. Ai aprende muito mais rápidocom Menos errose – o mais importante – na verdade alinhe com as expectativas humanas Em vez de perseguir cegamente os pontos de recompensa.


Ai luta com a estratégia: o estudo mostra que os LLMs revelam muito em jogos de dedução social


Os números não mentem: o PVP funciona

A equipe por trás do PVP colocou à prova em GTA V, Carla (um simulador de direção) e Minigrid (uma tarefa de navegação virtual de labirinto). Os resultados foram impressionantes:

  • Ai treinou com PvP aprendido 10 vezes mais rápido do que métodos tradicionais.
  • Exigia apenas 1.200 intervenções humanas– comparado ao 300.000 As tentativas de IA normalmente precisam no RL.
  • A taxa de sucesso da IA ​​treinada em PVP para atingir destinos em segurança foi 85%comparado a apenas 20-50% Para métodos anteriores.
  • Ai fez 75% menos erros críticos Quando treinado com PVP versus o aprendizado de reforço tradicional.

Em outras palavras, a IA realmente começou a dirigir como um humano– Não apenas um robô programado para maximizar recompensas abstratas.

Uma vitória para a IA – e para humanos

O PVP não é apenas melhor para a IA. Também facilita a vida para as pessoas que o treinam. O treinamento tradicional de IA requer supervisão humana constante, horas de feedback e muita paciência. Com PvP, ai precisava 50% menos esforço humano para treinar. Testadores classificaram a IA treinada em PVP 4.8 de 5 para precisãocomparado a apenas 3.0 para métodos mais antigos. AI que se seguiu ao treinamento de PVP causou significativamente menos estresse Para treinadores humanos – porque não exigia constantemente correções. Para uma tecnologia que deve facilitar nossas vidas, é um grande passo à frente.

De GTA às ruas

O PVP já se provou em testes de direção virtual. A verdadeira questão é: pode funcionar em Aplicações do mundo real?

O potencial é enorme. Em vez de confiar apenas nas regras pré-programadas, a IA poderia aprender diretamente com a intervenção humana-tornando-a mais segura e mais rápida. Robôs movidos a IA em armazéns, hospitais ou até casas podem ser treinados em tempo real, em vez de através de julgamento e erro. Os médicos humanos podem intervir durante cirurgias ou diagnósticos assistidos pela AI, ensinando diretamente ao sistema o que é certo ou errado.

Às vezes, o objetivo é apenas fazer ai humano o suficiente– Atuar de maneiras que esperamos, alinhar -se com nossos valores e evitar erros que nos colocam em risco.


Crédito da imagem em destaque: Kerem Gülen/Midjourney

Tags: AiApresentou

Related Posts

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Modelos padrão de IA falham em matemática simples sem treinamento especializado

Modelos padrão de IA falham em matemática simples sem treinamento especializado

30 Dezembro 2025
As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

As baterias de íon de sódio estão mais próximas do carregamento rápido à medida que os pesquisadores resolvem gargalos de íons

30 Dezembro 2025
IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

IA corrompe pesquisas acadêmicas com citações de estudos inexistentes

30 Dezembro 2025
Cientistas descobrem mais de 17 mil novas espécies

Cientistas descobrem mais de 17 mil novas espécies

26 Dezembro 2025
GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

GPT-5.2 ultrapassa a linha de base do doutorado especializado com pontuação científica de 92%

24 Dezembro 2025

Recent Posts

  • WhatsApp libera pacote de figurinhas 2026 e fogos de artifício em videochamadas
  • Novo carro-chefe da Xiaomi com eSIM entra em produção em massa no próximo ano
  • Meta compra Manus, empresa de IA em rápido crescimento, em negócio de 2 bilhões de dólares
  • Gallery TV junta-se à linha de estilo de vida da LG com serviço de arte exclusivo
  • Por que o acordo Groq da Nvidia é tão importante para o futuro da IA

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.