Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Ai está aprendendo a dirigir como um humano – observando você em pânico

byKerem Gülen
6 Fevereiro 2025
in Research
Home Research
Share on FacebookShare on Twitter

Os carros autônomos devem ser o futuro. A IA deve pegar o volante, navegar sem falhas e eliminar o erro humano. No entanto, aqui estamos, ainda agarrando nossas rodas de direção enquanto a IA tropeça em simulações, cometendo erros que variam de hilariante a ruim a totalmente perigosa.

Por que? Porque a AI aprende através tentativa e erro– O equivalente digital de jogar dardos no escuro até finalmente atingir o alvo. Tudo bem quando as apostas estão baixas, como jogar xadrez ou otimizar anúncios. Mas quando se trata de aplicações do mundo real-onde um erro significa entrar em um pedestre-essa abordagem se desfaz.

De acordo com um estudo realizado por Zhenghao Peng, Wenjie Mo, Chenda Duan e Bolei Zhou do Universidade da Califórnia, Los Angeles (UCLA)juntamente com Quanyi Li do Universidade de EdimburgoO treinamento de IA pode ser dramaticamente melhorado usando Proxy Value Propagation (PVP). Sua pesquisa, intitulada Aprendendo com o envolvimento humano ativo através da propagação de valor de proxydesafia o aprendizado tradicional de reforço, provando que A intervenção humana ativa leva a um treinamento de IA mais rápido, seguro e mais eficiente.

Tradicional Aprendizagem de reforço (RL)a maneira como a IA aprende a tomar decisões é dolorosamente lenta. Requer milhões de tentativas Antes de uma IA descobrir o que funciona. Pior, assume que a IA pode entender a intenção humana apenas seguindo um sistema de recompensa – quando, na realidade, os sistemas de recompensa geralmente levam a comportamentos bizarros e não intencionais. Pense em uma IA treinada para ganhar uma corrida que descobre que pode simplesmente dirigir em círculos na linha de partida para acumular pontos de “distância percorrida” sem nunca terminar o percurso.

Claramente, a IA precisa de um professor melhor. E aquele professor? Você.

Deixe os humanos intervir em tempo real

Proxy Value Propagation (PVP) é um novo método que transforma o treinamento de IA em algo muito mais humano. Em vez de deixar a IA errar através de seus erros por meses, o PVP permite que os humanos intervessem, intervenham e mostrem a IA o que fazer em tempo real.

  • Imagine a IA está aprendendo a dirigir em uma simulação, digamos, Grand Theft Auto V (GTA V).
  • A IA toma uma decisão terrível – digamos, correndo um sinal vermelho diretamente no trânsito.
  • Em vez de ver o caos se desenrolar, um humano assume o controle naquele momento e corrige a ação da IA.
  • O sistema então rotula a decisão do humano como um “Bom” movimento e o erro anterior da IA ​​como um “Bad” Move.
  • Usando uma técnica chamada propagação de valorAI espalha essa correção em situações semelhantes, aprendendo a evitar más decisões sem precisar de milhões de tentativas.

O resultado é surpreendente. Ai aprende muito mais rápidocom Menos errose – o mais importante – na verdade alinhe com as expectativas humanas Em vez de perseguir cegamente os pontos de recompensa.


Ai luta com a estratégia: o estudo mostra que os LLMs revelam muito em jogos de dedução social


Os números não mentem: o PVP funciona

A equipe por trás do PVP colocou à prova em GTA V, Carla (um simulador de direção) e Minigrid (uma tarefa de navegação virtual de labirinto). Os resultados foram impressionantes:

  • Ai treinou com PvP aprendido 10 vezes mais rápido do que métodos tradicionais.
  • Exigia apenas 1.200 intervenções humanas– comparado ao 300.000 As tentativas de IA normalmente precisam no RL.
  • A taxa de sucesso da IA ​​treinada em PVP para atingir destinos em segurança foi 85%comparado a apenas 20-50% Para métodos anteriores.
  • Ai fez 75% menos erros críticos Quando treinado com PVP versus o aprendizado de reforço tradicional.

Em outras palavras, a IA realmente começou a dirigir como um humano– Não apenas um robô programado para maximizar recompensas abstratas.

Uma vitória para a IA – e para humanos

O PVP não é apenas melhor para a IA. Também facilita a vida para as pessoas que o treinam. O treinamento tradicional de IA requer supervisão humana constante, horas de feedback e muita paciência. Com PvP, ai precisava 50% menos esforço humano para treinar. Testadores classificaram a IA treinada em PVP 4.8 de 5 para precisãocomparado a apenas 3.0 para métodos mais antigos. AI que se seguiu ao treinamento de PVP causou significativamente menos estresse Para treinadores humanos – porque não exigia constantemente correções. Para uma tecnologia que deve facilitar nossas vidas, é um grande passo à frente.

De GTA às ruas

O PVP já se provou em testes de direção virtual. A verdadeira questão é: pode funcionar em Aplicações do mundo real?

O potencial é enorme. Em vez de confiar apenas nas regras pré-programadas, a IA poderia aprender diretamente com a intervenção humana-tornando-a mais segura e mais rápida. Robôs movidos a IA em armazéns, hospitais ou até casas podem ser treinados em tempo real, em vez de através de julgamento e erro. Os médicos humanos podem intervir durante cirurgias ou diagnósticos assistidos pela AI, ensinando diretamente ao sistema o que é certo ou errado.

Às vezes, o objetivo é apenas fazer ai humano o suficiente– Atuar de maneiras que esperamos, alinhar -se com nossos valores e evitar erros que nos colocam em risco.


Crédito da imagem em destaque: Kerem Gülen/Midjourney

Tags: AiApresentou

Related Posts

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem

14 Maio 2025
O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?

14 Maio 2025
Adele da Microsoft quer dar um perfil cognitivo à sua IA

Adele da Microsoft quer dar um perfil cognitivo à sua IA

14 Maio 2025
O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

14 Maio 2025
Pesquisa: o padrão -ouro para avaliação de Genai

Pesquisa: o padrão -ouro para avaliação de Genai

12 Maio 2025
Ai finalmente resolve o quebra -cabeça mais difícil da biologia

Ai finalmente resolve o quebra -cabeça mais difícil da biologia

6 Maio 2025

Recent Posts

  • O impacto dos tecidos inteligentes no desempenho das roupas táticas
  • Databricks Aposta grande no servidor sem servidor com sua aquisição de neon de US $ 1 bilhão
  • AlphaEvolve: Como a nova IA do Google visa a verdade com a autocorreção
  • Tiktok está implementando textos alt gerados pela IA para melhor acessibilidade
  • Trump força a Apple a repensar sua estratégia de iPhone da Índia

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.