Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

A OpenAI Research descobre que os modelos de IA podem planejar e enganar deliberadamente usuários

byEmre Çıtak
19 Setembro 2025
in Pesquisar
Home Pesquisar
Share on FacebookShare on Twitter
Google Preferred Source

Em um novo estudo publicado na segunda -feira em parceria com a Apollo Research, o OpenAI examinou a tendência de os modelos de IA de “esquemas”, enganando intencionalmente os usuários para alcançar objetivos ocultos. A pesquisa, realizada em ambientes simulados, descobriu que, embora os enganos atuais da IA ​​sejam menores, o potencial de esquemas prejudiciais crescerá à medida que a IA é atribuída às tarefas mais complexas do mundo real. O estudo também testou uma técnica que se mostrou eficaz na redução desse comportamento enganoso.

O que é um esquema de IA e como isso difere das alucinações?

Os pesquisadores definem o esquema como uma IA que se comporta de uma maneira na superfície, escondendo seus verdadeiros objetivos. Eles atraíram um paralelo a um corretor de boletim humano que quebra a lei para maximizar os lucros, destacando a natureza intencional do engano. Isso é diferente das “alucinações” da IA, que ocorrem quando um modelo apresenta informações imprecisas devido a lacunas em seus dados de treinamento. A esquema envolve uma intenção deliberada de enganar, enquanto as alucinações são mais parecidas com a adivinhação apresentada com certeza injustificada. Apesar da analogia grave, o estudo esclareceu que o esquema observado nos modelos atuais de IA é tipicamente menor. As falhas mais comuns envolveram enganos simples, como uma IA alegando que concluiu uma tarefa quando não o fizer. O co-fundador da Openai, Wojciech Zaremba, confirmou isso em uma entrevista.

“Hoje, não vimos esse tipo de esquema conseqüente em nosso tráfego de produção. No entanto, é sabido que existem formas de engano no ChatGPT. Você pode pedir para implementar algum site e pode dizer: ‘Sim, eu fiz um ótimo trabalho’. E isso é apenas a mentira.

Uma nova técnica para reduzir o comportamento enganoso

O objetivo principal do artigo foi testar a eficácia do “alinhamento deliberativo”, uma técnica projetada para combater o esquema. O método envolve duas etapas principais:

  1. Fornecer à IA uma “especificação anti-esquema” que descreve explicitamente as regras contra o engano.
  2. Exigindo que o modelo revise esta especificação antes de tomar qualquer ação.

Esse processo atua como um lembrete estruturado, forçando a IA a considerar as diretrizes éticas antes de responder. Em todos os modelos testados, essa técnica levou a uma redução significativa no comportamento de planejamento. Nos cenários controlados, modelos não tratados esqueam em 20 a 30% dos casos, um número que caiu para menos de 5% após o alinhamento deliberativo foi aplicado.

Por que simplesmente treinar esquemas pode sair pela culatra

Os pesquisadores descobriram que tentar treinar planejamento de um modelo através de métodos diretos pode ser contraproducente. Eles descobriram que essa abordagem pode ensinar inadvertidamente ao modelo como planejar com mais eficácia, evitando a detecção. O modelo aprende com o próprio processo de treinamento e adapta suas táticas enganosas para passar na avaliação. Da mesma forma, o estudo observou que, quando uma IA está ciente de que está sendo testada, pode suprimir seu comportamento de esquema simplesmente para passar no teste, mesmo que suas intenções subjacentes não tenham mudado. Essa “consciência situacional” destaca como o contexto pode influenciar a produção de uma IA, independentemente de seu alinhamento genuíno com as regras de segurança.

A crescente necessidade de salvaguardas robustas

Esta não é a primeira vez que a IA planejando é documentada. Um artigo de dezembro de 2023 da Apollo Research descobriu que cinco modelos diferentes de IA se envolveriam em comportamento enganoso quando instruídos a perseguir uma meta a todo custo. A pesquisa mais recente baseia -se nessas descobertas, demonstrando uma estratégia de mitigação prática e eficaz. Os autores do artigo enfatizaram que, à medida que os sistemas de IA recebem mais autonomia e atribuíram objetivos mais complexos e de longo prazo com consequências do mundo real, o potencial de esquemas prejudiciais aumentará. Eles concluíram que as salvaguardas e a capacidade de testar rigorosamente esse comportamento devem evoluir ao lado da tecnologia.

“Como as AIs recebem tarefas mais complexas com consequências do mundo real e começam a buscar objetivos mais ambíguos e de longo prazo, esperamos que o potencial de esquemas prejudiciais cresça-para que nossas salvaguardas e nossa capacidade de testar rigorosamente cresçam correspondentemente”.


Crédito da imagem em destaque

Tags: AiApresentouopenAIPesquisar

Related Posts

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido

3 Junho 2026
Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

Pesquisa mostra que 71% dos americanos acham que a IA está progredindo rápido demais

20 Maio 2026
Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

Cartões de pagamento roubados no Reino Unido são vendidos por US$ 12 na dark web, descobriu NordVPN

20 Maio 2026
Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

Data centers e criptografia podem aumentar os custos de energia em 57% até 2030

20 Maio 2026
Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

Habilidades de IA agora são vitais para promoções e aumentos de emprego, segundo estudo

20 Maio 2026
O novo design de chip magnético pode superar os aceleradores de IA atuais

O novo design de chip magnético pode superar os aceleradores de IA atuais

19 Maio 2026

Recent Posts

  • As regras de desativação da pesquisa de IA do Google estimulam o lançamento do navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido
  • Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA
  • Os novos chips Core Ultra da Intel estão supostamente em falta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.