Você está em mais uma reunião interminável do Zoom ou do Teams. Vozes zumbindo, slides que mal prendem sua atenção e seus olhos vidrados enquanto alguém recita estatísticas trimestrais. Agora, imagine se, em vez de entediá-lo com planilhas, a IA da reunião começasse a criar recursos visuais na hora – imagens reais que dão vida à conversa, geradas em tempo real enquanto as pessoas falam. Parece futurista, mas é exatamente isso que a Microsoft está inventando com uma nova patente.
Microsoft patenteia voz para imagem
A ideia mais recente da Microsoft (e sim, ainda é apenas uma ideia por enquanto) é fazer transmissões de áudio ao vivo – palestras, reuniões, qualquer conversa verbal – e transformá-las em imagens, dinamicamente. O Escritório de Marcas e Patentes dos EUA acaba de abandonou os detalhes em 10 de outubro de 2024depois que a Microsoft o apresentou em abril. O sistema basicamente ouviria suas chamadas, geraria uma transcrição de texto, alimentaria isso por meio de um modelo de IA e exibiria imagens que correspondem ao que está sendo dito.
Chega de “deixe-me puxar um slide para isso”.

O fim das reuniões chatas? Talvez não, mas estará perto
A maioria das reuniões virtuais são bastante enfadonhas. E não vamos fingir que não passamos uma boa parte do tempo nos afastando.
Mas e se essas reuniões de repente começarem a exibir recursos visuais tão rápido quanto a conversa avança? Alguém menciona novos conceitos de produtos e, em segundos, imagens geradas por IA começam a aparecer na tela. Os números secos que as pessoas estão citando de repente se transformam em gráficos dinâmicos sem que ninguém clique em um botão. O que é isso? Um gargalo na cadeia de abastecimento no Sudeste Asiático? Bam! Um mapa interativo aparece, destacando as áreas de preocupação.
Agora, antes que você fique muito animado, sejamos claros: isso ainda está em fase de patente. E se você já existe há tempo suficiente, sabe que muitas patentes não levam a lugar nenhum. Registrar uma patente é como plantar uma semente: ela pode se transformar em algo incrível ou pode ser apenas uma ideia que nunca será desenvolvida.
Dito isto, se a Microsoft decidir, o lar óbvio para esta tecnologia é Equipes da Microsoft. Eles têm reforçado as equipes com todos os tipos de ferramentas baseadas em IA, desde o Copilot até recursos aprimorados de videoconferência, então este seria um passo a ser dado.
Já vimos ferramentas de conversão de texto em imagem como DALL-E e Meio da jornada impressionar as pessoas. Agora, poderíamos ver esse conceito aplicado à fala ao vivo. É como dar voz à criatividade da IA em tempo real.
Mas por enquanto, esperamos.
Crédito da imagem em destaque: Kerem Gülen/meio da jornada