Os laboratórios de IA investem em ambientes RL para agentes autônomos

Os investidores do Vale do Silício e os principais laboratórios de IA estão fazendo investimentos significativos em ambientes de aprendizado de reforço (RL), que são espaços de trabalho simulados projetados para treinar agentes de IA para usar o software autonomamente. Enquanto agentes de IA como o agente ChatGPT da OpenAI tenham demonstrado promessa, eles ainda lutam com tarefas complexas e de várias etapas. Essa nova onda de investimento está focada na criação de motivos de treinamento sofisticados para superar essas limitações, indo além dos conjuntos de dados estáticos e rotulados que alimentaram a última geração de IA.

Como funcionam os ambientes de aprendizado de reforço de IA

Os ambientes RL são base de treinamento virtual, onde um agente de IA pode praticar o uso de software em uma configuração controlada. O agente recebe feedback através de um sistema de recompensas e penalidades, como um jogo. Por exemplo, um agente encarregado de comprar meias na Amazon em um navegador Chrome simulado receberia uma recompensa positiva por concluir com êxito a compra. Ele receberia uma penalidade por erros como escolher o item errado ou não navegar em um menu. Esses ambientes dinâmicos são muito mais complexos para construir do que os conjuntos de dados estáticos. Eles devem explicar uma ampla gama de ações imprevisíveis do agente e fornecer feedback preciso para orientar a melhoria. O conceito se baseia em pesquisas anteriores de IA, como as “academias RL” desenvolvidas pelo Openai em 2016 e o conselho simulado usado para treinar o AlphaGo de DeepMind. No entanto, os ambientes de hoje estão sendo aplicados a modelos de transformadores de uso geral para treiná-los para tarefas abertas, como navegação na web e edição de documentos.

Um novo ecossistema de startups está surgindo para atender à demanda

Os principais laboratórios de IA como OpenAI, Anthropic e Meta estão construindo seus próprios ambientes de RL, mas a complexidade e a escala da tarefa criaram uma demanda por especialistas em terceiros. Isso alimentou o crescimento de um novo ecossistema de startups e levou as empresas de dados estabelecidas a girar.

Mecanizar trabalhouma nova startup, está focada na criação de um pequeno número de ambientes de alta fidelidade para tarefas como a codificação de IA. A empresa está trabalhando com antropia e está oferecendo salários de até US $ 500.000 para atrair os principais talentos de engenharia.
Intelecto principal está visando desenvolvedores menores com um hub de código aberto que chama de “rosto abraçando para ambientes RL”. A plataforma fornece acesso a simulações pré-construídas e vende os recursos computacionais necessários para executá-las.
Surtouma empresa de etiqueta de dados que registrou receita de US $ 1,2 bilhão no ano passado, criou uma nova organização interna dedicada à construção de ambientes RL para atender à crescente demanda de seus clientes.
Mercor está desenvolvendo ambientes específicos de domínio para campos como codificação, assistência médica e lei, onde os agentes podem ser treinados em software simulado para tarefas como revisar registros de pacientes ou contratos legais.
Escala AIum ex -líder em rotulagem de dados, também está se adaptando ao desenvolver ambientes de RL, pois busca permanecer competitivo depois de perder contratos importantes com o Google e o OpenAI.

Desafios e o caminho a seguir

Apesar do investimento pesado, incluindo um plano relatado da Anthropic para alocar mais de US $ 1 bilhão para ambientes de RL, ainda restam desafios significativos. Ross Taylor, ex -líder de pesquisa da IA da Meta, apontou o problema de “hackers de recompensa”, onde os agentes encontram brechas para ganhar recompensas sem realmente concluir a tarefa pretendida. Sherwin Wu, do Openai, observou uma escassez de startups especializadas capazes de atender às necessidades em rápida evolução dos principais laboratórios. Há também um debate na comunidade de IA sobre os métodos de treinamento mais eficazes.

Andrej Karpathyum investidor em intelecto principal, compartilhou uma visão diferenciada em x.

“Sou otimista em ambientes e interações agênticas, mas estou tendo tendo o aprendizado de reforço especificamente”.

Essa perspectiva destaca o entusiasmo pelo uso de ambientes simulados, além de reconhecer que a melhor maneira de extrair inteligência deles ainda é uma questão em aberto. No entanto, esses ambientes são vistos como um componente crítico no desenvolvimento da próxima geração de agentes de IA mais capazes e autônomos, impulsionando recentes avanços como o O1 O1 e o Anthropic Claude Opus 4.

Crédito da imagem em destaque