Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Os laboratórios de IA investem em ambientes RL para agentes autônomos

byAytun Çelebi
17 Setembro 2025
in Indústria, Inteligência Artificial
Home Indústria
Share on FacebookShare on Twitter
Google Preferred Source

Os investidores do Vale do Silício e os principais laboratórios de IA estão fazendo investimentos significativos em ambientes de aprendizado de reforço (RL), que são espaços de trabalho simulados projetados para treinar agentes de IA para usar o software autonomamente. Enquanto agentes de IA como o agente ChatGPT da OpenAI tenham demonstrado promessa, eles ainda lutam com tarefas complexas e de várias etapas. Essa nova onda de investimento está focada na criação de motivos de treinamento sofisticados para superar essas limitações, indo além dos conjuntos de dados estáticos e rotulados que alimentaram a última geração de IA.

Como funcionam os ambientes de aprendizado de reforço de IA

Os ambientes RL são base de treinamento virtual, onde um agente de IA pode praticar o uso de software em uma configuração controlada. O agente recebe feedback através de um sistema de recompensas e penalidades, como um jogo. Por exemplo, um agente encarregado de comprar meias na Amazon em um navegador Chrome simulado receberia uma recompensa positiva por concluir com êxito a compra. Ele receberia uma penalidade por erros como escolher o item errado ou não navegar em um menu. Esses ambientes dinâmicos são muito mais complexos para construir do que os conjuntos de dados estáticos. Eles devem explicar uma ampla gama de ações imprevisíveis do agente e fornecer feedback preciso para orientar a melhoria. O conceito se baseia em pesquisas anteriores de IA, como as “academias RL” desenvolvidas pelo Openai em 2016 e o ​​conselho simulado usado para treinar o AlphaGo de DeepMind. No entanto, os ambientes de hoje estão sendo aplicados a modelos de transformadores de uso geral para treiná-los para tarefas abertas, como navegação na web e edição de documentos.

Um novo ecossistema de startups está surgindo para atender à demanda

Os principais laboratórios de IA como OpenAI, Anthropic e Meta estão construindo seus próprios ambientes de RL, mas a complexidade e a escala da tarefa criaram uma demanda por especialistas em terceiros. Isso alimentou o crescimento de um novo ecossistema de startups e levou as empresas de dados estabelecidas a girar.

  • Mecanizar trabalhouma nova startup, está focada na criação de um pequeno número de ambientes de alta fidelidade para tarefas como a codificação de IA. A empresa está trabalhando com antropia e está oferecendo salários de até US $ 500.000 para atrair os principais talentos de engenharia.
  • Intelecto principal está visando desenvolvedores menores com um hub de código aberto que chama de “rosto abraçando para ambientes RL”. A plataforma fornece acesso a simulações pré-construídas e vende os recursos computacionais necessários para executá-las.
  • Surtouma empresa de etiqueta de dados que registrou receita de US $ 1,2 bilhão no ano passado, criou uma nova organização interna dedicada à construção de ambientes RL para atender à crescente demanda de seus clientes.
  • Mercor está desenvolvendo ambientes específicos de domínio para campos como codificação, assistência médica e lei, onde os agentes podem ser treinados em software simulado para tarefas como revisar registros de pacientes ou contratos legais.
  • Escala AIum ex -líder em rotulagem de dados, também está se adaptando ao desenvolver ambientes de RL, pois busca permanecer competitivo depois de perder contratos importantes com o Google e o OpenAI.

Desafios e o caminho a seguir

Apesar do investimento pesado, incluindo um plano relatado da Anthropic para alocar mais de US $ 1 bilhão para ambientes de RL, ainda restam desafios significativos. Ross Taylor, ex -líder de pesquisa da IA ​​da Meta, apontou o problema de “hackers de recompensa”, onde os agentes encontram brechas para ganhar recompensas sem realmente concluir a tarefa pretendida. Sherwin Wu, do Openai, observou uma escassez de startups especializadas capazes de atender às necessidades em rápida evolução dos principais laboratórios. Há também um debate na comunidade de IA sobre os métodos de treinamento mais eficazes.

Andrej Karpathyum investidor em intelecto principal, compartilhou uma visão diferenciada em x.

“Sou otimista em ambientes e interações agênticas, mas estou tendo tendo o aprendizado de reforço especificamente”.

Essa perspectiva destaca o entusiasmo pelo uso de ambientes simulados, além de reconhecer que a melhor maneira de extrair inteligência deles ainda é uma questão em aberto. No entanto, esses ambientes são vistos como um componente crítico no desenvolvimento da próxima geração de agentes de IA mais capazes e autônomos, impulsionando recentes avanços como o O1 O1 e o Anthropic Claude Opus 4.


Crédito da imagem em destaque

Tags: AiApresentou

Related Posts

Amazon adiciona visualizações de produtos geradas por IA aos resultados de pesquisa

Amazon adiciona visualizações de produtos geradas por IA aos resultados de pesquisa

4 Junho 2026
Suno levanta US$ 400 milhões com avaliação de US$ 5,4 bilhões, apesar dos crescentes processos judiciais de direitos autorais

Suno levanta US$ 400 milhões com avaliação de US$ 5,4 bilhões, apesar dos crescentes processos judiciais de direitos autorais

4 Junho 2026
Lovable e Google expandem IA plurianual e colaboração na nuvem

Lovable e Google expandem IA plurianual e colaboração na nuvem

4 Junho 2026
O Google lança o Ask Gemini in Drive para usuários qualificados do Workspace

O Google lança o Ask Gemini in Drive para usuários qualificados do Workspace

4 Junho 2026
Legislador do Reino Unido processa xAI por deepfakes explícitos gerados por Grok

Legislador do Reino Unido processa xAI por deepfakes explícitos gerados por Grok

4 Junho 2026
Apple começa a aplicar lei de verificação de idade no Texas

Apple começa a aplicar lei de verificação de idade no Texas

4 Junho 2026

Recent Posts

  • Opinião Fezbet – kroki e metodologia: rejestracja, bônus, płatności e bezpieczeństwo
  • DivaSpin – abertura completa, aviso e guia prático para jogadores franceses
  • Apostas esportivas online Zoccer: métodos de pagamento, depósitos instantâneos e saques rápidos
  • Diva Spin Casino – Was deutsche Spieler 2026 wissen müssen
  • Bônus sem depósito do Zoccer Casino: guia para verificação da conta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.