Bytedance, a empresa controladora de Tiktok, recentemente lançado Omnihuman-1, uma sofisticada estrutura de geração de vídeo de IA que pode criar vídeos de alta qualidade a partir de uma única imagem juntamente com um clipe de áudio. Este modelo combina recursos de vídeo, áudio e quase perfeitos de sincronização labial.
Bytedance lança omnihuman-1: um novo modelo de geração de vídeo da IA
Omnihuman-1 é notável por produzir não apenas vídeos fotorrealistas, mas também desenhos animados antropomórficos, objetos animados e poses complexas. Além disso, a Bytedance introduziu outro modelo de IA chamado Goku, que atinge a qualidade de texto para vídeo semelhante com uma arquitetura compacta de 8 bilhões de parâmetros, visando especificamente o mercado de publicidade.
Esses desenvolvimentos posicionam a bytedance entre os principais players do campo de IA ao lado de gigantes da tecnologia chinesa como Alibaba e Tencent. Seus avanços perturbam significativamente o cenário para o conteúdo gerado pela IA em comparação com outras empresas, como a Kling AI, dada a extensa biblioteca de mídia de vídeo da Bytedance, que é potencialmente a maior após o Facebook.
Os vídeos de demonstração do Omnihuman-1 mostram resultados impressionantes de vários tipos de entrada, com um alto nível de detalhe e falhas mínimas. Ao contrário das tecnologias tradicionais de Deepfake que geralmente se concentram apenas nas animações faciais, o Omnihuman-1 abrange animações de corpo inteiro, imitando com precisão os gestos e expressões. Além disso, o modelo de IA se adapta bem a diferentes qualidades da imagem, criando um movimento suave, independentemente da entrada original.
Especificações técnicas de omnihuman-1
Omnihuman-1 aproveita um modelo de transformador de difusão para gerar movimento prevendo padrões de movimento quadro a quadro, resultando em transições realistas e dinâmica do corpo. Treinado em um extenso conjunto de dados de 18.700 horas de vídeo humano, o modelo entende uma ampla variedade de movimentos e expressões. Notavelmente, sua estratégia de treinamento de “omni-condições”, que integra vários sinais de entrada, como áudio, texto e pose referências, aprimora a precisão das previsões de movimento.
Experimentei o CogVideox, outro texto para o video Ai de código aberto
Apesar dos avanços promissores na geração de vídeo da IA, as implicações éticas são significativas. A tecnologia apresenta riscos, como o potencial de uso indevido de deepfake na geração de mídia enganosa, roubo de identidade e outras aplicações maliciosas. Consequentemente, a Bytedance ainda não divulgou omnihuman-1 para uso público, provavelmente devido a essas preocupações. Se estiver disponível ao público, fortes salvaguardas, incluindo marcas d’água digitais e rastreamento de autenticidade de conteúdo, provavelmente serão necessários para mitigar possíveis abusos.
Crédito da imagem em destaque: Claudio Schwarz/Unsplash