Um recente estudar Da Universidade de Ciências Aplicadas de Zurique, de Pascal J. Sager, Benjamin Meyer, Peng Yan, Rebekka von Wartburg-Kottler, Layan Etaiwi, Aref Enayati, Gabriel Nobel, Ahmed Abdulkadir, Benjamin F. Grewe e Thilo Stadelman revela superou sua fase de chatbot.
Os agentes da IA estão executando o show, clicando, rolando e digitando os fluxos de trabalho com precisão estranha. Esses agentes de controle de computador baseados em instrução (CCAs) podem executar comandos, interagindo com ambientes digitais, como operadores humanos experientes. Mas, à medida que se aproximam da autonomia total, uma coisa fica clara: quanto mais poder damos a eles, mais difícil fica mantê -los sob controle.
Como os agentes da IA estão aprendendo a usar computadores como você
As ferramentas de automação tradicionais são macros glorificadas – repetitivas, rígidas e sem noção fora de seus caminhos com roteiro. Os CCAs, por outro lado, são construídos para improvisar. Eles não apenas seguem as instruções; Eles observam, interpretam e agem com base no que “veem” em uma tela, graças aos modelos de linguagem da visão (VLMs) e aos grandes modelos de linguagem (LLMS). Isso lhes permite:
- Leia telas como um humanoidentificação de campos de texto, botões e entrada sem coordenadas predefinidas.
- Execute tarefas de várias etapascomo abrir um email, copiar dados, colar -os em uma planilha e pressionar o envio – tudo sem supervisão direta.
- Entender as instruções de linguagem naturalremovendo a necessidade de os usuários aprenderem scripts de automação complexos.
- Adaptar -se às mudanças de interfacestornando-os significativamente mais flexíveis do que as ferramentas de automação baseadas em regras.
Diga a um CCA para “encontrar os principais leads de vendas de hoje e envie um e-mail para o acompanhamento” e passa por aplicativos, extrai dados relevantes, compõe um email e o envia, assim como um assistente humano. Ao contrário do RPA da velha escola (automação de processos robóticos) que desmorona quando uma interface do usuário muda, os CCAs podem se ajustar em tempo real, identificando elementos visuais e tomando decisões em tempo real.
A próxima fronteira? Integração com repositórios de conhecimento baseados em nuvem e tomada de decisão autônoma. Quanto mais esses agentes aprendem, mais sofisticadas suas capacidades se tornam – levantando questões sobre quanta confiança devemos depositá -los.
Como os grandes modelos de linguagem estão transformando a revisão por pares
Os benefícios: produtividade, acessibilidade e automação
Não há como negar que os CCAs vêm com vantagens sérias:
- Produtividade em esteróides: Tarefas tediosas e demoradas desaparecem, permitindo que os trabalhadores se concentrem em decisões de maior valor, em vez de clicar em painéis.
- Revolução da acessibilidade: Pessoas com deficiência podem interagir com a tecnologia com mais perfeição por meio de navegação e automação de tarefas movidas a IA.
- Escalabilidade em toda a empresa: As empresas podem automatizar fluxos de trabalho inteiros sem contratar um exército de especialistas em TI para criar soluções personalizadas.
- Integração em todo o sistema: Os CCAs funcionam em diferentes plataformas e aplicativos, garantindo interações digitais sem costura.
- Eficiência sempre ativa: Ao contrário dos trabalhadores humanos, esses agentes não se cansam, distraem ou fazem pausas para o almoço.
Os riscos: privacidade, segurança e confiança
Para cada vitória da produtividade, há um pesadelo de segurança igual e oposto à espreita em segundo plano. Dar o controle da IA sobre as interfaces do usuário não é apenas automação – está concedendo acesso a uma máquina sem piscar a fluxos de trabalho sensíveis, transações financeiras e dados privados. E é aí que as coisas ficam complicadas.
Os CCAs operam “assistindo” telas e analisando o texto. Quem garante que informações confidenciais não sejam mal utilizadas ou registradas? Quem está mantendo as teclas com a IA sob controle?
Se um agente de IA puder fazer login no seu aplicativo bancário e transferir dinheiro com um único comando, o que acontece se for invadido? Estamos entregando as chaves digitais ao reino com poucas salvaguardas. Se um CCA comete um erro catastrófico – derruba o arquivo errado, envia o email errado ou aprova uma transação desastrosa – que é responsável? Os seres humanos podem ser disparados, multados ou treinados. Ai? Não tanto.
E, se um ator malicioso seqüestra uma CCA, eles não têm acesso – eles recebem um cúmplice incansável e automatizado capaz de causar estragos em escala. Os legisladores estão se esforçando para acompanhar, mas não há manual para assistentes digitais orientados pela IA, tomando decisões de alto risco em tempo real.
O que vem a seguir?
As empresas estão se movendo com cautela, tentando equilibrar os ineficientes ganhos com os riscos iminentes. Algumas empresas estão aplicando os modelos “humanos no loop”, onde os agentes da IA lidam com a execução, mas exigem aprovação manual para ações críticas. Outros estão investindo em políticas de governança de IA para criar salvaguardas antes que esses agentes se tornem padrão nas operações corporativas.
O certo é que os CCAs não são uma tendência passageira – eles são a próxima fase da evolução da IA, incorporando -se silenciosamente a fluxos de trabalho e interfaces em todos os lugares. À medida que se tornam mais capazes, o debate não será sobre se devemos usá -los, mas como podemos controlá -los.
Imagens: Kerem Gülen/Midjourney