E se automatizar um desktop não fosse sobre padrões de cliques de script, mas sobre fornecer ao sistema operacional uma equipe inteligente de agentes? Essa é a ideia principal por trás UFO2O mais novo sistema de código aberto da Microsoft que vai além dos agentes atuais de uso em computador (CuAs) e reinventa a automação como uma abstração do sistema operacional de primeira classe. Ele transforma sua área de trabalho em um painel de controle inteligente, onde as tarefas orientadas por idiomas são executadas de maneira nativamente, confiável e com interrupção mínima em seu fluxo de trabalho.
Ferramentas tradicionais de automação de desktop, como os sistemas RPA, sempre lutaram com a robustez. Uma pequena mudança em uma interface do usuário pode destruir um script inteiro. Os CUAs tentaram abordar isso com grandes modelos de idiomas e análise de captura de tela, mas permaneceram limitados pela integração superficial do sistema e experiências desajeitadas do usuário. O UFO2 vira esse modelo construindo a partir do OS para cima. Introduz uma arquitetura multiagente onde um Hostagente central coordenadas especializadas Appagents Para aplicações diferentes. Cada agente fala o idioma nativo do aplicativo via Metadados APIs e UI, não apenas pixels.

Uma das principais inovações técnicas da UFO2 é seu modelo de ação híbrida. Em vez de apenas clicar em botões como um humano, cada Appagent pode chamar APIs reais, quando disponível. Isso significa que tarefas como exportar uma planilha ou formatação de texto são reduzidas de danças de GUI em várias etapas para uma única chamada de função atômica. O sistema também especula à frente – usando uma única chamada LLM para planejar várias etapas e validar cada um ao vivo com dados da interface do usuário do Windows. Esse Execução especulativa de multi-ação reduz dramaticamente a latência sem arriscar a correção.
Isolamento sem interrupção
Os CUAs normalmente sequestram sua área de trabalho, travando o mouse e o teclado durante a execução. UFO2’s Imagem em imagens (PIP) O modo resolve isso com uma janela de desktop virtual que executa tarefas de automação em paralelo. O agente faz suas coisas em um ambiente de caixa de areia, enquanto você continua trabalhando na sessão principal. É perfeito, seguro e usa o Windows RDP Loopback para manter a integridade da sessão.

O UFO2 integra a documentação e a execução da Ajuda, registra uma memória de recuperação, enriquecendo seus avisos com o conhecimento processual. Com o tempo, isso cria um agente auto-improvável que melhore em novas tarefas sem reciclagem. Cada appagent retira da documentação, notas de patch e execuções anteriores para tomar decisões mais inteligentes. É um sistema de automação com memória, não apenas geração de resposta.
Nos benchmarks frente a frente contra o operador da OpenAI e outros CuAs principais, o UFO2 supera consistentemente. No benchmark Osworld-W, o UFO2 atinge uma taxa de sucesso de 32,7% usando o modelo O1-mais do que dobrar 14,3% do operador. Seu planejamento especulativo reduz as etapas de ação em até 50%. A detecção de controle híbrido (combinando APIs de UIA e análise de visão) recupera mais de 25% das interações falhadas anteriormente. Simplificando, UFO2 não é apenas mais inteligente – é sistemicamente melhor.
Tudo é um agente agora
A extensibilidade é assada. O UFO2 permite que as ferramentas de terceiros, incluindo outros CUAs como o operador, sejam embrulhadas como appagents. Isso significa que você pode integrar copilotes especializados ou automação proprietária backends no ecossistema UFO2 sem reciciar ou reescrever o código. Ele também suporta uma arquitetura cliente-servidor para implantação corporativa, mantendo a orquestração centralizada e os dispositivos de usuário leves.
O artigo descreve as metas futuras, incluindo compatibilidade entre plataformas com macOS e Linux por meio de APIs de acessibilidade análoga, resposta mais rápida via LLMS menor e raciocínio aprimorado de conjuntos de dados de interração da GUI dedicados. Mas mesmo em seu estado atual, o UFO2 representa um Nova linha de base para automação de desktop. É de código aberto, já superando os sistemas comerciais e traz um novo nível de modularidade, confiabilidade e inteligência à interação humano-computador.
Para quem construir a próxima geração de agentes inteligentes – ou apenas cansado de scripts quebradiços –UFO2 está disponível no github junto com sua documentação.
Crédito da imagem em destaque