O Google lançou o Modelo de Uso de Computador Gemini 2.5, um novo modelo especializado disponível na visualização através da API Gemini. Ele é construído no Gemini 2.5 Pro e permite que os desenvolvedores construam agentes de IA que possam controlar sites e aplicativos móveis clicando, digitando e rolando, assim como um humano faria. Embora os modelos de IA geralmente possam interagir com o software através de APIs estruturadas, muitas tarefas digitais, como preencher formulários ou navegar nas páginas da Web complexas, ainda exigem interação direta com uma interface gráfica do usuário (GUI). Este modelo foi projetado para automatizar essas tarefas, permitindo que os agentes operem atrás dos logins e manipulem elementos interativos, como suspensos e filtros.
Como funciona o modelo de uso do computador Gemini 2.5
Os recursos do modelo são acessados por meio de uma nova ferramenta `Computer_Use` na API Gemini e operam em um loop contínuo.
- O desenvolvedor fornece ao agente uma solicitação de usuário, uma captura de tela da interface atual do usuário e um histórico de ações recentes.
- O modelo analisa essas entradas e gera uma ação sugerida, como uma chamada de função para clicar em um elemento ou digitar texto em um campo.
- O código do lado do cliente executa a ação.
- Uma nova captura de tela da GUI atualizada é enviada de volta ao modelo e o loop se repete até que a tarefa seja concluída ou terminada.
O modelo é otimizado principalmente para navegadores da Web, mas também mostra um forte desempenho nas tarefas de controle da interface do usuário móvel. Ainda não está otimizado para controlar um sistema operacional de desktop. https://www.youtube.com/watch?v=_LU-FCPUIFM
Desempenho em benchmarks
De acordo com o Google, o modelo de uso do computador Gemini 2.5 demonstra um forte desempenho em vários benchmarks de controle da Web e móveis. Nos testes conduzidos pela empresa de navegador de automação do navegador, o modelo forneceu alta precisão nas tarefas de controle do navegador, mantendo uma latência mais baixa do que os modelos concorrentes.
Recursos de segurança e controles de desenvolvedor
Reconhecendo os riscos associados a agentes de IA que podem controlar os computadores, o Google construiu recursos de segurança diretamente no modelo e forneceu controles adicionais para os desenvolvedores.
- Treinamento de segurança interno: O modelo é treinado para abordar riscos, como uso indevido intencional pelos usuários, comportamento inesperado do modelo e ataques de injeção imediata.
- Serviço de segurança por etapa: Um serviço de segurança externo avalia cada ação que o modelo propõe antes de ser executado.
- Instruções do sistema: Os desenvolvedores podem especificar que o agente deve recusar ou solicitar a confirmação do usuário antes de tomar ações de alto risco, como fazer uma compra, ignorar um captcha ou controlar um dispositivo médico.
Casos de uso precoce e feedback
O modelo já foi implantado internamente no Google para testes de interface do usuário e alimenta alguns recursos do agente no modo IA na pesquisa. Os usuários de acesso antecipado o testam para assistentes pessoais e automação de fluxo de trabalho.
- O assistente proativo Poke.com observou que o modelo costumava ser 50% mais rápido que outras soluções.
- A empresa de agente da IA Autotab relataram que o modelo aumentou o desempenho em até 18% em suas avaliações mais difíceis para analisar de forma confiável o contexto.
- Equipe de plataforma de pagamentos do Google Implementou o modelo para corrigir testes frágeis da interface do usuário, reabilitando com sucesso mais de 60% das execuções de teste que anteriormente teriam falhado.
Como usar o modelo de uso do computador Gemini 2.5
O modelo de uso do computador Gemini 2.5 está disponível hoje em visualização pública através da API Gemini no Google AI Studio e Vertex AI. Os desenvolvedores podem começar a construir usando a documentação fornecida e podem testar o modelo em um ambiente de demonstração hospedado pela BrowserBase.





