Universidade de Tsinghua e Zhipu IA introduziram o CogVideoX em colaboração, um modelo de texto para vídeo de código aberto pronto para desafiar pesos pesados da IA como Pista, Luma IAe Laboratórios Pika. Detalhado em uma publicação recente do arXiv, esta inovação oferece recursos avançados de geração de vídeo para desenvolvedores em todo o mundo.
CogVideoX: Nova ferramenta de IA de texto para vídeo de código aberto
“Apresentamos o CogVideoX, modelos de transformadores de difusão em larga escala projetados para gerar vídeos com base em prompts de texto. Para modelar dados de vídeo de forma eficiente, propomos alavancar um Autoencoder Variacional 3D (VAE) para compactar vídeos ao longo das dimensões espacial e temporal. Para melhorar o alinhamento texto-vídeo, propomos um transformador especialista com o LayerNorm adaptativo especialista para facilitar a fusão profunda entre as duas modalidades. Ao empregar uma técnica de treinamento progressivo, o CogVideoX é adepto da produção de vídeos coerentes e de longa duração caracterizados por movimentos significativos”, disse leituras de papel.
Recentemente, eles colaboraram no OpenVoice, uma plataforma de clonagem de voz de código aberto desenvolvida em conjunto com o MIT e MinhaConchae agora eles introduziram o CogVideoX-5B, um modelo de texto para vídeo. Eles também fizeram parceria com a Shengshu Technology para lançar Vídeo IAuma ferramenta projetada para simplificar a criação de vídeos usando IA.
O CogVideoX pode criar vídeos coerentes e de alta qualidade, com até seis segundos de duração, a partir de simples instruções de texto.
O modelo de destaque, CogVideoX-5B, apresenta 5 bilhões de parâmetros, produzindo vídeos com resolução de 720×480 e 8 quadros por segundo. Embora essas especificações possam não rivalizar com os sistemas proprietários mais recentes, o verdadeiro avanço está na abordagem de código aberto do CogVideoX.
Os modelos de código aberto estão revolucionando o campo ao rliberando seus pesos de código e modelo para o público, a equipe Tsinghua efetivamente democratizou uma tecnologia que antes era domínio de gigantes da tecnologia bem financiadas. Espera-se que esse movimento acelere os avanços em vídeo gerado por IA ao explorar a expertise coletiva da comunidade global de desenvolvedores.
Os pesquisadores alcançaram os resultados impressionantes do CogVideoX por meio de várias inovações importantes, incluindo um Autocodificador Variacional 3D para compressão de vídeo eficiente e um “transformador especialista” projetado para melhorar o alinhamento de texto e vídeo.
“Para melhorar o alinhamento entre vídeos e textos, propomos um Transformer especialista com LayerNorm adaptável especialista para facilitar a fusão entre as duas modalidades”, explica o artigo. Esse avanço permite uma interpretação mais precisa de prompts de texto e uma geração de vídeo mais precisa.
Como experimentar o CogVideoX?
- Comece acessando a plataforma HuggingFace onde o Ferramenta de geração de vídeo de código aberto CogVideoX-5B está disponível para teste.

- Crie um prompt descritivo para o vídeo que você quer gerar. Por exemplo, usamos:
- Assim que seu prompt estiver pronto, clique no botão para gerar o vídeo. Você precisará aguardar um momento enquanto a ferramenta processa sua solicitação e cria o vídeo com base na sua descrição.

- Após o vídeo ser gerado, você pode baixá-lo diretamente da plataforma. Isso permite que você visualize o resultado do seu prompt e veja com que precisão a ferramenta interpretou sua descrição.

- Confira o vídeo. Embora o resultado possa não ser alucinante, é importante notar que esses tipos de ferramentas estão melhorando rapidamente. Assim como vimos com a evolução do ChatGPT, um avanço significativo em vídeo gerado por IA provavelmente está no horizonte.
Experimentei — embora ainda não seja alucinante, essas ferramentas estão surgindo em todos os lugares. Esperando um avanço em breve, assim como vimos com o ChatGPT. foto.twitter.com/53xYz6lBLf
— Kerem Gülen (@kgulenn) 28 de agosto de 2024
Veremos cada vez mais deepfakes
No entanto, a ampla disponibilidade de uma tecnologia tão poderosa não vem sem seus perigos. O potencial de uso indevido, particularmente na criação de deepfakes ou conteúdo enganoso, é um problema sério que a comunidade de IA deve enfrentar. Os próprios pesquisadores reconhecem essas preocupações éticas, pedindo que a tecnologia seja usada de forma responsável.
À medida que o vídeo gerado por IA se torna cada vez mais acessível e avançado, estamos nos aventurando em território desconhecido na criação de conteúdo digital. O lançamento do CogVideoX pode representar um momento muito importante, potencialmente redistribuindo o poder dos grandes players no campo para um modelo mais aberto e descentralizado de desenvolvimento de IA.
Os verdadeiros efeitos dessa democratização ainda são incertos. Ela criará uma nova onda de criatividade e inovação, ou piorará os problemas existentes de desinformação e manipulação digital?
Crédito da imagem em destaque: Kerem Gülen/Meio da jornada