A inteligência artificial está finalmente aprendendo a navegar na tela do telefone como um humano – exceto mais rápido, mais inteligente e com pouca prática chocante. Um novo pesquisar Projeto da Vivo AI Lab e MMLab na Universidade Chinesa de Hong Kong apresenta um modelo chamado UI-R1que repensa como os agentes de IA são treinados para entender e interagir com interfaces gráficas de usuário (GUIs). E aqui está a reviravolta: não depende de conjuntos de dados enormes ou milhares de horas de GPU.
Em vez disso, a UI-R1 faz algo refrescantemente inteligente. Ele aprende através Aprendizagem de reforço (RL)-Não supervisionou o ajuste fino (SFT), o método padrão que requer dados rotulados manualmente e ciclos de treinamento caros. Isso significa que não há necessidade de alimentá -lo dezenas de milhares de exemplos de botões, barras de rolagem ou caixas de texto. Apenas um lote cuidadosamente selecionado de 136 tarefas móveis foi suficiente para criar um modelo que tenha um desempenho melhor do que muitos modelos maiores e fortemente treinados em tarefas de tela do mundo real.
Vamos descompactar por que isso importa e como funciona.
Então, o que o UI-R1 realmente faz?
Imagine isto: você está olhando para uma captura de tela de uma tela de telefone e alguém diz para você “tocar no botão traseiro”. Você olha para o layout, descubra onde está o botão de volta e toca. Parece fácil para um humano.
Agora imagine treinar uma IA para fazer isso. Durante anos, isso significa treinar enormes modelos multimodais (modelos que podem entender imagens e texto juntos) para associar comandos como “Toque de volta” ao ponto certo na tela. É isso que agentes da GUI como Cogagent, Aria-Gui e OS-Atlas fazem-eles aprendem com enormes conjuntos de dados com exemplos rotulados de ações e elementos.
Mas esse processo é lento, caro e não generaliza bem. Quando você move a IA de uma tela de telefone para uma interface de desktop ou um navegador da Web, seu desempenho geralmente tanques. É como treinar um cachorro para buscar uma bola, mas apenas em uma sala da sua casa – vá do lado de fora, e o cachorro esquece o que fazer.
UI-R1 muda isso. Em vez de tentar “memorizar” milhares de layouts de interface, ele aprende como raciocinar sobre eles usando o aprendizado de reforço e um sistema de recompensa baseado em regras inteligente.
Um sistema de recompensa mais inteligente, não um modelo maior
O modelo por trás da UI-R1 é chamado QWEN2.5-VL-3B– Um modelo multimodal de 3 bilhões de parâmetros, muito menor que os gigantes 7B e 18B no jogo. Mas o UI-R1 fino ajusta-o usando RL com um sistema de recompensa exclusivo que não requer feedback humano.
Esta função de recompensa julga o modelo em três coisas:
- Escolheu o tipo de ação certo? (Clique, role, volte, abra o aplicativo, texto de entrada)
- Ele selecionou o local certo para clicar? (As coordenadas devem se enquadrar na caixa correta)
- Ele explicou seu raciocínio claramente e forneceu uma resposta final válida? (Usando um formato estruturado)
Esse loop de feedback estruturado ajuda o modelo a aprender a fazer melhores previsões ao longo do tempo. Pense nisso como um jogo: cada vez que a IA se aproxima da resposta certa, ele obtém pontos com base nessas regras e gradualmente descobre como ganhar com mais frequência.
É importante ressaltar que não é apenas aprender a adivinhar – está aprendendo a explicar por que acha que um certo botão é o certo para tocar. Isso é fundamental para os agentes de construção em que você pode confiar para operar software, aplicativos e dispositivos.
A IA Masters Language, mas reprova a LEGO 101
Dados pequenos, grandes ganhos
Aqui é onde as coisas ficam selvagens. UI-R1 foi treinado em apenas 136 exemplos– e ainda superou muitos modelos supervisionados treinados em milhares.
Em benchmarks como Screenspot e Screenspot-proque teste o quão bem um modelo pode identificar elementos da interface do usuário entre plataformas (celular, desktop e web), o UI-R1 forneceu precisão de aterramento até 78,6%batendo modelos como Seeclick (treinado em 1 milhão de exemplos!) E até combinando o desempenho de modelos 7B maiores.
Também atingiu outro benchmark chamado AndroidControlonde precisava prever o tipo de ação correto e onde aplicá -lo. Ui-r1 cronometrado com um 88,5% de precisão médiaSuperando os modelos treinados em 76.000 exemplos – um nível absurdo de eficiência para apenas 136 tarefas de treinamento.
É como ensinar a alguém xadrez, mostrando -a apenas 10 jogos – e vê -los vencer o campeão do clube.
Por que isso funciona tão bem?
Algumas coisas diferenciam a UI-R1:
- Recompensas baseadas em regras: Não há necessidade de dados rotulados ou revisores humanos. O modelo é obtido com base em regras simples e estruturadas.
- Reforço sobre a repetição: Em vez de memorizar as respostas (como no treinamento supervisionado), a UI-R1 aprende estratégias que generalizam.
- Dados cuidadosamente selecionados: A equipe não apenas lançou nenhum exemplo de treinamento. Eles escolheram tarefas difíceis, diversas e de alta qualidade. Sem preenchimento.
E talvez o mais importante, o modelo não está apenas adivinhando cegamente. Graças aos seus “tokens de raciocínio” e formato de saída estruturado (
O que isso significa para interfaces de IA?
Este pode ser o começo de uma nova onda de agentes da GUI generalista. Em vez de treinar modelos sob medida para cada aplicativo, plataforma ou tarefa, podemos criar modelos compactos e adaptáveis como o UI-R1 que podem raciocinar em qualquer tela, qualquer dispositivo, qualquer instrução.
- Para desenvolvedoressignifica custos mais baixos, menos dados e iteração mais rápida.
- Para usuáriospode significar assistentes virtuais mais inteligentes que realmente entendem o que você deseja fazer na tela.
- Para pesquisadoresé uma prova de que o aprendizado de reforço com recompensas simples baseadas em regras não é apenas para jogos e problemas de matemática-é uma alternativa real à SFT para tarefas de interface.
Ainda é cedo
Embora os resultados da UI-R1 sejam impressionantes, há mais a ser feito. Por exemplo, ainda requer formatos de entrada limpos e instruções com cuidado. Ele também pressupõe que as capturas de tela e instruções do dispositivo estejam razoavelmente alinhadas – uma suposição segura em um cenário de referência, mas mais complicado no mundo real bagunçado.
Ainda assim, é um grande passo à frente.
E talvez o mais emocionante, mostra que O treinamento mais inteligente bate em modelos maiores– pelo menos quando se trata de entender o que está na sua tela e descobrir como agir.
Em um mundo em que estamos cercados por software cada vez mais complexo, a IA como a UI-R1 pode em breve ser o único clique, rolando e tocando em nosso nome-com precisão, razão e quase nenhum treinamento.