O Gemini Live do Google, revelado inicialmente no evento feito pelo Google no ano passado, está recebendo atualizações significativas. Esses aprimoramentos incluem sobreposições visuais durante o compartilhamento de feeds de câmera e um novo modelo de áudio projetado para conversas mais naturais. As atualizações pretendem fazer de Gêmeos viver um assistente digital mais útil e responsivo.
Desde sua introdução, Gêmeos ao vivo viu várias melhorias, principalmente a capacidade de compartilhar feeds e telas da câmera. O Google agora anunciou um aprimoramento de seus recursos de compartilhamento de câmeras e um novo modelo de áudio nativo para melhorar ainda mais a naturalidade das interações com o AI Chatbot.
Durante a apresentação da próxima série Google Pixel 10, o Google forneceu detalhes sobre as próximas melhorias no Gemini Live no Android. Um recurso essencial é a adição de sobreposições visuais que destacam objetos específicos dentro do feed da câmera. Essas pistas visuais assumem a forma de retângulos de bordas brancas ao redor dos objetos de interesse, com a área circundante ligeiramente diminuída para garantir destaque.
O recurso “Orientação visual” destina -se a ajudar os usuários a localizar e identificar rapidamente itens no campo de visão da câmera. Exemplos de usos pretendidos incluem destacar o botão correto em uma máquina, identificar um pássaro específico dentro de um rebanho ou identificar a ferramenta certa para um projeto específico. O recurso também se estende a fornecer conselhos, como recomendar calçados apropriados para uma ocasião específica.
A capacidade de orientação visual também pode gerenciar cenários mais desafiadores. Um gerente de produto do Google contou uma experiência pessoal durante uma viagem internacional, onde encontraram dificuldade em interpretar sinais de estacionamento em língua estrangeira, marcas de estradas e regulamentos locais. Usando o Gemini Live, o gerente de produtos apontou a câmera no local e perguntou sobre a permissibilidade do estacionamento. A Gemini Live então consultou regras locais, traduziu os sinais e destacou uma área na rua que oferece estacionamento gratuito por duas horas.
A orientação visual estará disponível diretamente na série Google Pixel 10 e iniciará seu lançamento para outros dispositivos Android na semana seguinte. A expansão para os dispositivos iOS está planejada nas semanas subsequentes. Uma assinatura do Google AI Pro ou Ultra não será necessária para acessar o recurso de orientação visual.
Juntamente com as sobreposições visuais, o Google está implementando um novo modelo de áudio nativo no Gemini Live. Este modelo foi projetado para facilitar conversas mais responsivas e expressivas.
O novo modelo de áudio responderá mais adequadamente com base no contexto da conversa. Por exemplo, ao discutir um tópico estressante, o modelo de áudio responderá usando um tom mais calmo e medido.
Os usuários terão controle sobre as características de fala do modelo de áudio. Se um usuário achar difícil acompanhar o discurso de Gêmeos, poderá solicitar que ele fale mais lentamente. Por outro lado, quando o tempo é limitado, os usuários podem instruir Gemini a acelerar seu discurso.
O sistema também pode fornecer narrativas de perspectivas específicas. Como o Google afirmou em sua postagem no blog, os usuários podem “pedir a Gemini para falar sobre o Império Romano da perspectiva do próprio Júlio César e obter uma narrativa rica e envolvente completa com sotaques de personagens.”
Este artigo foi atualizado às 19:50 ET para fornecer esclarecimentos sobre o modelo de áudio natural e incorporar ativos de demonstração da postagem do blog do Google.