OpenAI tem lançado uma prévia da pesquisa do Operator, um agente de IA de uso geral capaz de executar tarefas de forma independente, assumindo o controle de um navegador da web. Este recurso está disponível pela primeira vez para usuários dos EUA no plano de assinatura Pro de US$ 200 do ChatGPT, com planos de expansão para níveis de usuários adicionais no futuro.
Operador OpenAI explicado
O operador pode automatizar várias tarefas, incluindo reserva de acomodações para viagens, reservas em restaurantes e compras online. Os usuários podem selecionar categorias como compras, entrega, jantares e viagens na interface do Operador. Quando ativado, uma janela dedicada do navegador da Web é exibida, mostrando aos usuários as ações que o Operador executa junto com as explicações. Os usuários podem manter o controle de suas telas enquanto o Operador opera em seu próprio ambiente de navegador.
OpenAI afirma que a superinteligência está mais perto do que você pensa
O agente de IA é alimentado por um modelo Computer-Using Agent (CUA), que combina os recursos de visão do modelo GPT-4o com raciocínio avançado. O CUA interage com o front-end dos sites sem a necessidade de APIs focadas no desenvolvedor. Essa funcionalidade permite usar botões, navegar em menus e preencher formulários como um ser humano faria. OpenAI colabora com várias empresas, incluindo DoorDash, eBay, Instacart e Priceline, garantindo que a Operadora cumpra seus contratos de termos de serviço.
OpenAI afirma que o modelo CUA foi projetado para solicitar a confirmação do usuário antes de finalizar tarefas que tenham efeitos externos, como enviar um pedido ou enviar um e-mail. Apesar de suas capacidades, a OpenAI alerta que o CUA pode não ter um desempenho confiável em todos os cenários e enfrenta tarefas complexas, como criar apresentações de slides detalhadas, gerenciar calendários complexos ou navegar em interfaces da web não padrão.
Para tarefas sensíveis, como transações bancárias, é necessária a supervisão do usuário. A operadora não coleta nem captura de tela os dados do usuário e exige supervisão direta de sites particularmente confidenciais, como e-mail e serviços financeiros, permitindo que os usuários resolvam quaisquer erros prontamente.
O operador tem certas limitações. A OpenAI impõe limites de taxas – diários e dependentes de tarefas – e especifica que certas tarefas, como enviar e-mails ou excluir eventos do calendário, serão recusadas por motivos de segurança. A OpenAI planeja revisar essas restrições no futuro, embora nenhum cronograma específico seja fornecido.https://www.youtube.com/watch?v=m0Cjiq8P6iU
O operador também pode encontrar dificuldades com interfaces web complexas, campos de senha e verificações de CAPTCHA, solicitando que o usuário intervenha nesse ponto. A OpenAI reconhece os riscos de segurança associados aos sistemas de IA que podem realizar ações na web, enfatizando a necessidade de prevenir potenciais explorações por parte de atores maliciosos.
OpenAI implementou várias medidas de segurança. O agente solicita entrada de controle do usuário durante transações confidenciais e realiza confirmações do usuário antes de ações significativas. Operador rejeita tarefas específicas de alto risco e exige supervisão direta em plataformas sensíveis. As medidas investigativas incluem uma navegação cautelosa para evitar injeções imediatas, um sistema de monitoramento para pausar as operações durante atividades suspeitas e um pipeline de detecção automatizado para salvaguardas atualizadas.
O que é o Operador OpenAI e como funciona?
Operador é um agente de IA de uso geral que pode executar tarefas na web de forma autônoma usando um navegador dedicado. Ele interage com sites clicando em botões, navegando em menus e preenchendo formulários.
Qual a diferença entre o Operator e outras ferramentas de IA, como Siri, Alexa ou Google Assistant?
Ao contrário dos assistentes tradicionais, o Operator não apenas processa informações; ele pode realizar ações na web, como reservar acomodações ou fazer pedidos de mantimentos, interagindo diretamente com sites.
Que tarefas o Operador pode realizar de forma autônoma?
Ele pode lidar com tarefas repetitivas, como reservar viagens, pedir comida, fazer reservas e fazer compras online.
Por que o Operator está sendo lançado primeiro como uma prévia da pesquisa?
A prévia da pesquisa permite que a OpenAI colete feedback, melhore a segurança e refine a ferramenta antes de uma implantação mais ampla.
O que é o modelo Computer-Using Agent (CUA) e como ele permite que o Operador interaja com sites?
CUA combina os recursos de visão do GPT-4o com raciocínio avançado, permitindo que o Operador veja e interaja com interfaces gráficas de usuário, como botões e formulários.
O Operator pode realizar tarefas complexas, como criar apresentações de slides ou gerenciar calendários?
Ainda não. O operador enfrenta interfaces complexas e fluxos de trabalho especializados.
Quais são os limites de taxa ou limitações de tarefas para usar o Operador?
O Operador possui limites de uso diários dinâmicos e específicos de tarefas, e não pode realizar tarefas como enviar e-mails ou lidar com CAPTCHAs.
Como o Operador lida com tarefas confidenciais, como operações bancárias ou inserção de detalhes de pagamento?
Requer supervisão do usuário para ações confidenciais, como inserir detalhes de pagamento ou login, e não armazena esses dados.
Como o OpenAI garante a segurança e confiabilidade do Operador?
O Operator foi projetado com proteções, incluindo confirmações do usuário, modo de controle para entradas confidenciais e monitoramento de atividades maliciosas.
Que salvaguardas existem para evitar que o Operador cometa erros ou seja mal utilizado?
Ele pede a confirmação do usuário antes de concluir ações significativas e emprega sistemas de monitoramento para pausar tarefas se for detectada atividade suspeita.
Como o Operador lida com questões de privacidade e os usuários podem cancelar a coleta de dados?
Os usuários podem cancelar a coleta de dados, excluir dados de navegação e controlar as configurações de privacidade por meio da interface do Operador.
O que acontece se o Operator encontrar tentativas de phishing ou sites maliciosos?
Ele é treinado para detectar e ignorar entradas maliciosas, e um sistema de monitoramento pode pausar tarefas se algo suspeito ocorrer.
Quem pode usar o Operador e quanto custa?
Atualmente, o Operator está disponível para usuários dos EUA no plano de assinatura Pro de US$ 200 do ChatGPT.
Quando o Operador estará disponível fora dos EUA, especialmente na Europa?
A OpenAI planeia implementá-lo globalmente, mas a Europa pode demorar mais devido a considerações regionais.
O Operador será eventualmente incluído em todos os níveis de assinatura do ChatGPT?
Sim, a OpenAI planeja expandir o acesso aos níveis Plus, Team e Enterprise.
Os desenvolvedores poderão construir ferramentas personalizadas usando o modelo CUA no futuro?
Sim, a OpenAI planeja lançar o modelo CUA na API para que os desenvolvedores criem seus próprios agentes.
Com quais empresas a OpenAI está colaborando para o Operator e como isso beneficia os usuários?
A OpenAI está fazendo parceria com empresas como DoorDash, Instacart e Uber para otimizar a funcionalidade da Operadora, respeitando os termos de serviço.
Crédito da imagem em destaque: OpenAI