Você já desejou que suas fotos pudessem falar ou cantar? Conheça EMO, abreviação de Emote Portrait Alive. Desenvolvido por pesquisadores do Instituto de Computação Inteligente do Alibaba, o EMO é um sistema de inteligência artificial projetado para fazer exatamente isso.
O EMO adota uma abordagem única para animação, contornando modelos 3D complexos, convertendo diretamente o áudio em quadros de vídeo. Isso significa que seus vídeos animados mantêm os movimentos e expressões naturais da fala ou da música, tudo a partir de uma única foto e clipe de áudio.
![EMO deixa suas fotos falarem 1 Conheça EMO, a pesquisa de IA do Alibaba que está revolucionando a animação de retratos! De fotos a discursos ou músicas, o Emote Portrait Alive traz tudo.](https://dataconomy.com/wp-content/uploads/2024/02/alibaba-ai-emote-portrait-alive-emo-.jpg)
Alibaba AI: O que é Emote Portrait Alive (EMO)?
EMO, ou Emote Portrait Alive, é um sistema de inteligência artificial desenvolvido por pesquisadores do Instituto de Computação Inteligente do Alibaba. Sua principal função é animar fotos de retratos estáticoscriando vídeos onde o sujeito parece falar ou cantar de forma realista.
O que diferencia o EMO é a sua abordagem para gerar essas animações. Em vez de depender de métodos tradicionais que muitas vezes têm dificuldade em capturar as nuances da expressão humana, o EMO converte diretamente formas de onda de áudio em quadros de vídeo. Isso significa que não são necessários modelos 3D intermediários ou pontos de referência faciais para gerar animações. Em vez disso, concentra-se na captura de movimentos faciais sutis e estilos faciais individuais associados à fala natural.
Apenas em
este é o audio2video mais incrível que já vi.
Chama-se EMO: Emote Portrait Alive pic.twitter.com/3b1AQMzPYu– Stelfie, a Viajante do Tempo (@StelfieTT) 28 de fevereiro de 2024
A tecnologia que alimenta o EMO baseia-se num modelo de difusão, que é bem conhecido pela sua capacidade de gerar imagens sintéticas realistas. Para treinar o sistema, os pesquisadores usaram um grande conjunto de dados de vídeos de talk shows de várias fontes, incluindo discursos, filmes, programas de TV e apresentações musicais. Este extenso treinamento permite ao EMO produzir vídeos de alta qualidade preservando a identidade do sujeito e transmitindo expressividade.
Além de gerar vídeos conversacionais, o EMO também pode animar retratos cantados. Sincronizar o formato da boca e as expressões faciais com os vocais pode criar vídeos de canto em diferentes estilos e durações.
![EMO deixa suas fotos falarem 2 Conheça EMO, a pesquisa de IA do Alibaba que está revolucionando a animação de retratos! De fotos a discursos ou músicas, o Emote Portrait Alive traz tudo.](https://dataconomy.com/wp-content/uploads/2024/02/alibaba-ai-emote-portrait-alive-emo-2.jpg)
Embora o desenvolvimento do EMO apresente possibilidades interessantes para a criação de conteúdos de vídeo personalizados, também levanta preocupações éticas. Existe o risco de uso indevido, como representação ou a propagação de desinformação. Portanto, é essencial abordar a implantação dessa tecnologia com cautela e garantir que sejam implementadas salvaguardas adequadas para abordar estas preocupações éticas.
Sincronização labial Pika faz com que os vídeos gerados por IA também falem
Como funciona o EMO?
O sistema EMO opera em duas etapas principais: Codificação de Frames e Processo de Difusão.
- Codificação de quadros: extrai recursos de imagens de referência e quadros de movimento para estabelecer a base da animação.
- Processo de difusão: utiliza um codificador de áudio pré-treinado para processar a entrada de áudio. Integra máscaras de região facial com ruído multiquadro para geração de animação. A Backbone Network elimina o ruído das animações, auxiliada pelos mecanismos de Atenção de Referência e Atenção de Áudio. Módulos Temporais ajustam a velocidade do movimento.
O que você pode fazer com EMO?
O EMO oferece uma ferramenta versátil para criação de vídeos animados realistas, ampliando as possibilidades de criação de conteúdo personalizado e expressivo, como:
- Cantoria: gera vídeos de avatar vocal com expressões faciais expressivas sincronizadas com entradas de áudio cantadas.
![EMO deixa suas fotos falarem 3 Conheça EMO, a pesquisa de IA do Alibaba que está revolucionando a animação de retratos! De fotos a discursos ou músicas, o Emote Portrait Alive traz tudo.](https://dataconomy.com/wp-content/uploads/2024/02/alibaba-ai-emote-portrait-alive-emo-234.jpg)
- Linguagem e estilo: suporta diversos idiomas e estilos de retrato, capturando variações de tons para animações dinâmicas de avatar.
- Ritmo rápido: Garante a sincronização das animações dos personagens com ritmos acelerados.
- Conversando: anima retratos em resposta a entradas de áudio faladas em vários idiomas e estilos.
- Desempenho entre atores: Retrata personagens de filmes ou outras mídias em contextos multilíngues e multiculturais.
Em resumo, EMO, também conhecido como Emote Portrait Alive, é um avanço significativo na tecnologia de animação. Ele pode transformar imagens estáticas em vídeos animados, onde os sujeitos parecem falar ou cantar de forma realista. O EMO consegue isso convertendo diretamente o áudio em quadros de vídeo, capturando com precisão expressões faciais e movimentos. Embora a EMO ofereça possibilidades interessantes para a criação de conteúdo visual dinâmico, as preocupações éticas sobre o seu potencial uso indevido devem ser abordadas. No entanto, a EMO apresenta uma ferramenta valiosa para dar vida a imagens fixas e pode potencialmente transformar a forma como interagimos com os meios visuais no futuro.
Para informações mais detalhadas, aqui é seu artigo de pesquisa.
Crédito da imagem em destaque: EMO: pesquisa Emote Portrait Alive