Testou o CogVideoX, outra IA de texto para vídeo de código aberto

Universidade de Tsinghua e Zhipu IA introduziram o CogVideoX em colaboração, um modelo de texto para vídeo de código aberto pronto para desafiar pesos pesados da IA como Pista, Luma IAe Laboratórios Pika. Detalhado em uma publicação recente do arXiv, esta inovação oferece recursos avançados de geração de vídeo para desenvolvedores em todo o mundo.

CogVideoX: Nova ferramenta de IA de texto para vídeo de código aberto

“Apresentamos o CogVideoX, modelos de transformadores de difusão em larga escala projetados para gerar vídeos com base em prompts de texto. Para modelar dados de vídeo de forma eficiente, propomos alavancar um Autoencoder Variacional 3D (VAE) para compactar vídeos ao longo das dimensões espacial e temporal. Para melhorar o alinhamento texto-vídeo, propomos um transformador especialista com o LayerNorm adaptativo especialista para facilitar a fusão profunda entre as duas modalidades. Ao empregar uma técnica de treinamento progressivo, o CogVideoX é adepto da produção de vídeos coerentes e de longa duração caracterizados por movimentos significativos”, disse leituras de papel.

A Universidade de Tsinghua tem se envolvido intensamente na pesquisa de IA, com vários projetos notáveis em seu currículo.
Recentemente, eles colaboraram no OpenVoice, uma plataforma de clonagem de voz de código aberto desenvolvida em conjunto com o MIT e MinhaConchae agora eles introduziram o CogVideoX-5B, um modelo de texto para vídeo. Eles também fizeram parceria com a Shengshu Technology para lançar Vídeo IAuma ferramenta projetada para simplificar a criação de vídeos usando IA.

O CogVideoX pode criar vídeos coerentes e de alta qualidade, com até seis segundos de duração, a partir de simples instruções de texto.

O modelo de destaque, CogVideoX-5B, apresenta 5 bilhões de parâmetros, produzindo vídeos com resolução de 720×480 e 8 quadros por segundo. Embora essas especificações possam não rivalizar com os sistemas proprietários mais recentes, o verdadeiro avanço está na abordagem de código aberto do CogVideoX.

Os modelos de código aberto estão revolucionando o campo ao rliberando seus pesos de código e modelo para o público, a equipe Tsinghua efetivamente democratizou uma tecnologia que antes era domínio de gigantes da tecnologia bem financiadas. Espera-se que esse movimento acelere os avanços em vídeo gerado por IA ao explorar a expertise coletiva da comunidade global de desenvolvedores.

Os pesquisadores alcançaram os resultados impressionantes do CogVideoX por meio de várias inovações importantes, incluindo um Autocodificador Variacional 3D para compressão de vídeo eficiente e um “transformador especialista” projetado para melhorar o alinhamento de texto e vídeo.

“Para melhorar o alinhamento entre vídeos e textos, propomos um Transformer especialista com LayerNorm adaptável especialista para facilitar a fusão entre as duas modalidades”, explica o artigo. Esse avanço permite uma interpretação mais precisa de prompts de texto e uma geração de vídeo mais precisa.

Como experimentar o CogVideoX?

Comece acessando a plataforma HuggingFace onde o Ferramenta de geração de vídeo de código aberto CogVideoX-5B está disponível para teste.

CogVideoX é outra IA de texto para vídeo de código aberto — Passo 1

Crie um prompt descritivo para o vídeo que você quer gerar. Por exemplo, usamos:

Uma cena pacífica de jardim onde uma única borboleta voa graciosamente pelo ar, suas asas vibrantes capturando a luz enquanto ela pousa suavemente na mão estendida de uma criança. Os olhos da criança se arregalam de admiração, capturando a magia do momento enquanto a borboleta repousa delicadamente em seus pequenos dedos. Ao redor delas, flores desabrochando balançam suavemente na brisa, enquanto um riacho distante murmura baixinho, adicionando uma sensação de calma à atmosfera serena. A mão da criança permanece firme, oferecendo uma recepção calorosa à delicada criatura, incorporando uma conexão entre a inocência e as maravilhas da natureza.

Assim que seu prompt estiver pronto, clique no botão para gerar o vídeo. Você precisará aguardar um momento enquanto a ferramenta processa sua solicitação e cria o vídeo com base na sua descrição.

Após o vídeo ser gerado, você pode baixá-lo diretamente da plataforma. Isso permite que você visualize o resultado do seu prompt e veja com que precisão a ferramenta interpretou sua descrição.

Confira o vídeo. Embora o resultado possa não ser alucinante, é importante notar que esses tipos de ferramentas estão melhorando rapidamente. Assim como vimos com a evolução do ChatGPT, um avanço significativo em vídeo gerado por IA provavelmente está no horizonte.

Experimentei — embora ainda não seja alucinante, essas ferramentas estão surgindo em todos os lugares. Esperando um avanço em breve, assim como vimos com o ChatGPT. foto.twitter.com/53xYz6lBLf
— Kerem Gülen (@kgulenn) 28 de agosto de 2024

Veremos cada vez mais deepfakes

No entanto, a ampla disponibilidade de uma tecnologia tão poderosa não vem sem seus perigos. O potencial de uso indevido, particularmente na criação de deepfakes ou conteúdo enganoso, é um problema sério que a comunidade de IA deve enfrentar. Os próprios pesquisadores reconhecem essas preocupações éticas, pedindo que a tecnologia seja usada de forma responsável.

À medida que o vídeo gerado por IA se torna cada vez mais acessível e avançado, estamos nos aventurando em território desconhecido na criação de conteúdo digital. O lançamento do CogVideoX pode representar um momento muito importante, potencialmente redistribuindo o poder dos grandes players no campo para um modelo mais aberto e descentralizado de desenvolvimento de IA.

Os verdadeiros efeitos dessa democratização ainda são incertos. Ela criará uma nova onda de criatividade e inovação, ou piorará os problemas existentes de desinformação e manipulação digital?

Crédito da imagem em destaque: Kerem Gülen/Meio da jornada

Tags: Apresentou IA vídeo

Testou o CogVideoX, outra IA de texto para vídeo de código aberto

Related Posts

Samsung Bixby ganha poderes de pesquisa Perplexity AI em nova atualização

O Qwen Code v0.5.0 do Alibaba transforma o terminal em um ecossistema de desenvolvimento completo

ChatGPT evolui para um pacote de escritório com novos blocos de formatação

O Google NotebookLM apresenta "Modo Palestra" para aprendizado de IA em 30 minutos

Amazon adiciona Angi, Expedia, Square e Yelp ao Alexa+

Robotaxis Waymo pode obter assistente no carro Gemini AI

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Testou o CogVideoX, outra IA de texto para vídeo de código aberto

CogVideoX: Nova ferramenta de IA de texto para vídeo de código aberto

Como experimentar o CogVideoX?

Veremos cada vez mais deepfakes

Related Posts

Samsung Bixby ganha poderes de pesquisa Perplexity AI em nova atualização

O Qwen Code v0.5.0 do Alibaba transforma o terminal em um ecossistema de desenvolvimento completo

ChatGPT evolui para um pacote de escritório com novos blocos de formatação

O Google NotebookLM apresenta "Modo Palestra" para aprendizado de IA em 30 minutos

Amazon adiciona Angi, Expedia, Square e Yelp ao Alexa+

Robotaxis Waymo pode obter assistente no carro Gemini AI

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us