Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

EMO deixa suas fotos falarem

byEray Eliaçık
29 Fevereiro 2024
in Sem categoria
Share on FacebookShare on Twitter

Você já desejou que suas fotos pudessem falar ou cantar? Conheça EMO, abreviação de Emote Portrait Alive. Desenvolvido por pesquisadores do Instituto de Computação Inteligente do Alibaba, o EMO é um sistema de inteligência artificial projetado para fazer exatamente isso.

O EMO adota uma abordagem única para animação, contornando modelos 3D complexos, convertendo diretamente o áudio em quadros de vídeo. Isso significa que seus vídeos animados mantêm os movimentos e expressões naturais da fala ou da música, tudo a partir de uma única foto e clipe de áudio.

Conheça EMO, a pesquisa de IA do Alibaba que está revolucionando a animação de retratos!  De fotos a discursos ou músicas, o Emote Portrait Alive traz tudo.
EMO, ou Emote Portrait Alive, é um sistema de IA para animar fotos estáticas de retratos (Crédito da imagem)

Alibaba AI: O que é Emote Portrait Alive (EMO)?

EMO, ou Emote Portrait Alive, é um sistema de inteligência artificial desenvolvido por pesquisadores do Instituto de Computação Inteligente do Alibaba. Sua principal função é animar fotos de retratos estáticoscriando vídeos onde o sujeito parece falar ou cantar de forma realista.

O que diferencia o EMO é a sua abordagem para gerar essas animações. Em vez de depender de métodos tradicionais que muitas vezes têm dificuldade em capturar as nuances da expressão humana, o EMO converte diretamente formas de onda de áudio em quadros de vídeo. Isso significa que não são necessários modelos 3D intermediários ou pontos de referência faciais para gerar animações. Em vez disso, concentra-se na captura de movimentos faciais sutis e estilos faciais individuais associados à fala natural.

Apenas em 👀

este é o audio2video mais incrível que já vi.
Chama-se EMO: Emote Portrait Alive pic.twitter.com/3b1AQMzPYu

– Stelfie, a Viajante do Tempo (@StelfieTT) 28 de fevereiro de 2024

A tecnologia que alimenta o EMO baseia-se num modelo de difusão, que é bem conhecido pela sua capacidade de gerar imagens sintéticas realistas. Para treinar o sistema, os pesquisadores usaram um grande conjunto de dados de vídeos de talk shows de várias fontes, incluindo discursos, filmes, programas de TV e apresentações musicais. Este extenso treinamento permite ao EMO produzir vídeos de alta qualidade preservando a identidade do sujeito e transmitindo expressividade.

Além de gerar vídeos conversacionais, o EMO também pode animar retratos cantados. Sincronizar o formato da boca e as expressões faciais com os vocais pode criar vídeos de canto em diferentes estilos e durações.

Conheça EMO, a pesquisa de IA do Alibaba que está revolucionando a animação de retratos!  De fotos a discursos ou músicas, o Emote Portrait Alive traz tudo.
(Crédito da imagem)

Embora o desenvolvimento do EMO apresente possibilidades interessantes para a criação de conteúdos de vídeo personalizados, também levanta preocupações éticas. Existe o risco de uso indevido, como representação ou a propagação de desinformação. Portanto, é essencial abordar a implantação dessa tecnologia com cautela e garantir que sejam implementadas salvaguardas adequadas para abordar estas preocupações éticas.


Sincronização labial Pika faz com que os vídeos gerados por IA também falem


Como funciona o EMO?

O sistema EMO opera em duas etapas principais: Codificação de Frames e Processo de Difusão.

  • Codificação de quadros: extrai recursos de imagens de referência e quadros de movimento para estabelecer a base da animação.
  • Processo de difusão: utiliza um codificador de áudio pré-treinado para processar a entrada de áudio. Integra máscaras de região facial com ruído multiquadro para geração de animação. A Backbone Network elimina o ruído das animações, auxiliada pelos mecanismos de Atenção de Referência e Atenção de Áudio. Módulos Temporais ajustam a velocidade do movimento.

O que você pode fazer com EMO?

O EMO oferece uma ferramenta versátil para criação de vídeos animados realistas, ampliando as possibilidades de criação de conteúdo personalizado e expressivo, como:

  • Cantoria: gera vídeos de avatar vocal com expressões faciais expressivas sincronizadas com entradas de áudio cantadas.
Conheça EMO, a pesquisa de IA do Alibaba que está revolucionando a animação de retratos!  De fotos a discursos ou músicas, o Emote Portrait Alive traz tudo.
EMO ignora modelos 3D convertendo diretamente áudio em quadros de vídeo (Crédito da imagem)
  • Linguagem e estilo: suporta diversos idiomas e estilos de retrato, capturando variações de tons para animações dinâmicas de avatar.
  • Ritmo rápido: Garante a sincronização das animações dos personagens com ritmos acelerados.
  • Conversando: anima retratos em resposta a entradas de áudio faladas em vários idiomas e estilos.
  • Desempenho entre atores: Retrata personagens de filmes ou outras mídias em contextos multilíngues e multiculturais.

Em resumo, EMO, também conhecido como Emote Portrait Alive, é um avanço significativo na tecnologia de animação. Ele pode transformar imagens estáticas em vídeos animados, onde os sujeitos parecem falar ou cantar de forma realista. O EMO consegue isso convertendo diretamente o áudio em quadros de vídeo, capturando com precisão expressões faciais e movimentos. Embora a EMO ofereça possibilidades interessantes para a criação de conteúdo visual dinâmico, as preocupações éticas sobre o seu potencial uso indevido devem ser abordadas. No entanto, a EMO apresenta uma ferramenta valiosa para dar vida a imagens fixas e pode potencialmente transformar a forma como interagimos com os meios visuais no futuro.

Para informações mais detalhadas, aqui é seu artigo de pesquisa.

Crédito da imagem em destaque: EMO: pesquisa Emote Portrait Alive

Related Posts

Openai e Xai conversando com avaliação de medicamentos com FDA

Openai e Xai conversando com avaliação de medicamentos com FDA

8 Maio 2025
Crowdstrike estabelece 500 empregos, apesar das finanças em expansão

Crowdstrike estabelece 500 empregos, apesar das finanças em expansão

8 Maio 2025
Safari pode obter opções de pesquisa de IA OpenAi ou Perplexity

Safari pode obter opções de pesquisa de IA OpenAi ou Perplexity

8 Maio 2025
As faixas mergulhos em estábulos lançam as principais ferramentas de IA

As faixas mergulhos em estábulos lançam as principais ferramentas de IA

8 Maio 2025
LLM Red Teaming

LLM Red Teaming

8 Maio 2025
Rastreamento de LLM

Rastreamento de LLM

8 Maio 2025

Recent Posts

  • Openai e Xai conversando com avaliação de medicamentos com FDA
  • Crowdstrike estabelece 500 empregos, apesar das finanças em expansão
  • Safari pode obter opções de pesquisa de IA OpenAi ou Perplexity
  • As faixas mergulhos em estábulos lançam as principais ferramentas de IA
  • LLM Red Teaming

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.