O Google tem lançado uma nova ferramenta de geração de imagens de IA chamada Whisk, que permite aos usuários criar resultados visuais a partir de imagens existentes. Anunciado por meio de uma atualização no Google Labs, o Whisk emprega o modelo de linguagem Gemini para compreensão de imagens e o gerador de imagens Imagen 3. Atualmente, está disponível apenas nos EUA
Google lança Whisk: ferramenta de IA para geração criativa de imagens
Whisk opera capturando a “essência” da imagem fornecida, em vez de reproduzi-la diretamente. Os usuários inserem uma imagem junto com estilos predefinidos, incluindo adesivo, alfinete esmaltado e pelúcia, para receber um resultado alterado de forma criativa. Esta ferramenta se concentra em brainstorming e visualizações rápidas, em vez de conteúdo de produção final. A interface simplista auxilia os usuários na geração de conceitos preliminares.
O modo de editor avançado, acessível através da opção “Começar do zero”, oferece opções para os usuários especificarem detalhes nas categorias de assunto, cena e estilo. Os usuários também podem adicionar texto para refinamento. No entanto, alguns resultados não estão alinhados com as expectativas dos utilizadores, como observado durante os testes. O Google alerta que o Whisk variará os atributos das imagens de saída, como altura, peso e penteado, em relação à entrada original.
Nos bastidores, a funcionalidade do Whisk baseia-se na capacidade do modelo Gemini de gerar legendas detalhadas sobre a imagem carregada. Essas legendas são então utilizadas pelo gerador Imagen 3 para criar novos recursos visuais. O processo destaca o objetivo da Whisk de promover a liberdade criativa, permitindo aos usuários remixar elementos em diferentes formatos visuais.
Junto com o lançamento do Whisk, o Google lançou o Veo 2, uma nova iteração de seu modelo de geração de vídeo. Esta última atualização demonstra recursos aprimorados de geração de vídeo, produzindo conteúdo de alta qualidade com compreensão sofisticada da física do mundo real e dos movimentos humanos. Nos testes, o Veo 2 mostrou uma frequência reduzida de “alucinações”, que normalmente envolvem detalhes errados ou inesperados no conteúdo gerado.
Os usuários podem solicitar estilos ou atributos de filmagem específicos em seus prompts de vídeo, melhorando o nível de detalhe nos resultados gerados, incluindo a solicitação de vídeos com resolução 4K. Os vídeos produzidos pela Veo 2 exemplificam os resultados cinematográficos de alta qualidade agora possíveis, atendendo de forma eficaz às diversas necessidades do usuário.
O modelo Imagen 3 também recebeu uma atualização, capaz de produzir imagens significativamente mais brilhantes e melhor compostas em diversos estilos. Este modelo aprimorado segue com mais precisão as instruções do usuário e gera texturas complexas. Através de testes de usuários contra modelos concorrentes de geração de imagens, o Imagen 3 alcançou resultados de última geração.
Como parte do compromisso do Google com o desenvolvimento responsável de IA, os resultados do Whisk e dos modelos mais recentes incluem uma marca d’água SynthID invisível, que ajuda na prevenção de desinformação. Este foco na segurança acompanha um cuidadoso processo de implementação. Os usuários podem acessar esses novos recursos por meio do Google Labs, onde podem se inscrever para atualizações e melhorias de recursos.
Créditos da imagem: Google