O Gemini AI Assistant do Google agora permite que os uploads de arquivos de áudio, permitindo que os usuários transcrevem, resumissem e extraem informações importantes das gravações. Esse novo recurso converte até 10 minutos de memorandos de voz, reuniões, palestras e entrevistas em documentos pesquisáveis diretamente no ambiente da IA. Os uploads de arquivos de áudio são suportados nos aplicativos da Web e móveis. Os usuários podem acessar o recurso através da interface padrão-upload. Isso difere do processamento de comando de voz em tempo real do Gemini Live, à medida que a nova função processa áudio pré-gravado para extração e análise de dados. Josh Woodward, vice -presidente de gêmeos do Google, afirmou que o upload de arquivos de áudio era o recurso mais solicitado dos usuários de Gemini. Essa demanda destaca a necessidade de processamento de áudio simplificado dentro do assistente de IA.
Precisão da transcrição e integração de recursos
Durante os testes, a Gemini transcreveu com precisão vários tipos de áudio, incluindo esboços de álbuns de comédia e conversas telefônicas, com apenas pequenos erros no reconhecimento de nomes. O sistema também identificou efetivamente os elementos-chave e gerou listas de tarefas a partir do conteúdo de áudio. A adição de processamento de áudio alinha com integrações recentes de Gemini, como implementações em vários aplicativos, teste de uma interface visual baseada em cartão e opções de personalização expandidas. Essas atualizações aprimoram coletivamente a funcionalidade e a experiência do usuário de Gemini.
Comparação com outros assistentes de IA
Embora os recursos de áudio da Gemini não sejam únicos, eles são comparáveis a recursos de concorrentes como o ChatGPT, que usa seu modelo de transcrição de sussurros. O Claude da Anthropic também suporta processamento de áudio em determinadas ferramentas de desenvolvedor, e a perplexidade pode extrair dados dos vídeos do YouTube. Gêmeos pretende focar nos casos de uso diário para uma ampla base de usuários.
Processamento avançado de dados de áudio
Além da transcrição simples, a Gemini permite que os usuários solicitem simplificação de idiomas, extraem comentários específicos do alto-falante, geram perguntas do conteúdo de áudio ou criem guias de estudo a partir de discussões gravadas. Essas opções fornecem ferramentas para manipular e redirecionar informações de áudio com eficiência.
Limitações do recurso de áudio
O limite atual de 10 minutos nos uploads de arquivo de áudio restringe sua aplicabilidade para gravações mais longas. Os usuários de nível livre também enfrentam limites de uso diário no processamento de áudio. Essas limitações podem afetar os usuários com extensas necessidades de processamento de áudio. O Google não lançou preços específicos para processamento de áudio de alto volume. No entanto, o processamento de áudio é integrado à cota regular de Gêmeos. Isso sugere que os usuários devem gerenciar seu uso para evitar recursos alocados excedentes.





