Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Testou o CogVideoX, outra IA de texto para vídeo de código aberto

byKerem Gülen
5 Setembro 2024
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Universidade de Tsinghua e Zhipu IA introduziram o CogVideoX em colaboração, um modelo de texto para vídeo de código aberto pronto para desafiar pesos pesados ​​da IA ​​como Pista, Luma IAe Laboratórios Pika. Detalhado em uma publicação recente do arXiv, esta inovação oferece recursos avançados de geração de vídeo para desenvolvedores em todo o mundo.

CogVideoX: Nova ferramenta de IA de texto para vídeo de código aberto

“Apresentamos o CogVideoX, modelos de transformadores de difusão em larga escala projetados para gerar vídeos com base em prompts de texto. Para modelar dados de vídeo de forma eficiente, propomos alavancar um Autoencoder Variacional 3D (VAE) para compactar vídeos ao longo das dimensões espacial e temporal. Para melhorar o alinhamento texto-vídeo, propomos um transformador especialista com o LayerNorm adaptativo especialista para facilitar a fusão profunda entre as duas modalidades. Ao empregar uma técnica de treinamento progressivo, o CogVideoX é adepto da produção de vídeos coerentes e de longa duração caracterizados por movimentos significativos”, disse leituras de papel.

A Universidade de Tsinghua tem se envolvido intensamente na pesquisa de IA, com vários projetos notáveis ​​em seu currículo.
Recentemente, eles colaboraram no OpenVoice, uma plataforma de clonagem de voz de código aberto desenvolvida em conjunto com o MIT e MinhaConchae agora eles introduziram o CogVideoX-5B, um modelo de texto para vídeo. Eles também fizeram parceria com a Shengshu Technology para lançar Vídeo IAuma ferramenta projetada para simplificar a criação de vídeos usando IA.

O CogVideoX pode criar vídeos coerentes e de alta qualidade, com até seis segundos de duração, a partir de simples instruções de texto.

O modelo de destaque, CogVideoX-5B, apresenta 5 bilhões de parâmetros, produzindo vídeos com resolução de 720×480 e 8 quadros por segundo. Embora essas especificações possam não rivalizar com os sistemas proprietários mais recentes, o verdadeiro avanço está na abordagem de código aberto do CogVideoX.

Os modelos de código aberto estão revolucionando o campo ao rliberando seus pesos de código e modelo para o público, a equipe Tsinghua efetivamente democratizou uma tecnologia que antes era domínio de gigantes da tecnologia bem financiadas. Espera-se que esse movimento acelere os avanços em vídeo gerado por IA ao explorar a expertise coletiva da comunidade global de desenvolvedores.

Os pesquisadores alcançaram os resultados impressionantes do CogVideoX por meio de várias inovações importantes, incluindo um Autocodificador Variacional 3D para compressão de vídeo eficiente e um “transformador especialista” projetado para melhorar o alinhamento de texto e vídeo.

“Para melhorar o alinhamento entre vídeos e textos, propomos um Transformer especialista com LayerNorm adaptável especialista para facilitar a fusão entre as duas modalidades”, explica o artigo. Esse avanço permite uma interpretação mais precisa de prompts de texto e uma geração de vídeo mais precisa.

Como experimentar o CogVideoX?

  • Comece acessando a plataforma HuggingFace onde o Ferramenta de geração de vídeo de código aberto CogVideoX-5B está disponível para teste.
CogVideoX é outra IA de texto para vídeo de código aberto
Passo 1
  • Crie um prompt descritivo para o vídeo que você quer gerar. Por exemplo, usamos:
Uma cena pacífica de jardim onde uma única borboleta voa graciosamente pelo ar, suas asas vibrantes capturando a luz enquanto ela pousa suavemente na mão estendida de uma criança. Os olhos da criança se arregalam de admiração, capturando a magia do momento enquanto a borboleta repousa delicadamente em seus pequenos dedos. Ao redor delas, flores desabrochando balançam suavemente na brisa, enquanto um riacho distante murmura baixinho, adicionando uma sensação de calma à atmosfera serena. A mão da criança permanece firme, oferecendo uma recepção calorosa à delicada criatura, incorporando uma conexão entre a inocência e as maravilhas da natureza.
  • Assim que seu prompt estiver pronto, clique no botão para gerar o vídeo. Você precisará aguardar um momento enquanto a ferramenta processa sua solicitação e cria o vídeo com base na sua descrição.
CogVideoX é outra IA de texto para vídeo de código aberto
Passo 2
  • Após o vídeo ser gerado, você pode baixá-lo diretamente da plataforma. Isso permite que você visualize o resultado do seu prompt e veja com que precisão a ferramenta interpretou sua descrição.
CogVideoX é outra IA de texto para vídeo de código aberto
Passo 3
  • Confira o vídeo. Embora o resultado possa não ser alucinante, é importante notar que esses tipos de ferramentas estão melhorando rapidamente. Assim como vimos com a evolução do ChatGPT, um avanço significativo em vídeo gerado por IA provavelmente está no horizonte.

Experimentei — embora ainda não seja alucinante, essas ferramentas estão surgindo em todos os lugares. Esperando um avanço em breve, assim como vimos com o ChatGPT. foto.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28 de agosto de 2024

Veremos cada vez mais deepfakes

No entanto, a ampla disponibilidade de uma tecnologia tão poderosa não vem sem seus perigos. O potencial de uso indevido, particularmente na criação de deepfakes ou conteúdo enganoso, é um problema sério que a comunidade de IA deve enfrentar. Os próprios pesquisadores reconhecem essas preocupações éticas, pedindo que a tecnologia seja usada de forma responsável.

À medida que o vídeo gerado por IA se torna cada vez mais acessível e avançado, estamos nos aventurando em território desconhecido na criação de conteúdo digital. O lançamento do CogVideoX pode representar um momento muito importante, potencialmente redistribuindo o poder dos grandes players no campo para um modelo mais aberto e descentralizado de desenvolvimento de IA.

Os verdadeiros efeitos dessa democratização ainda são incertos. Ela criará uma nova onda de criatividade e inovação, ou piorará os problemas existentes de desinformação e manipulação digital?


Crédito da imagem em destaque: Kerem Gülen/Meio da jornada

Tags: ApresentouIAvídeo

Related Posts

Pronto para um chatgpt que realmente o conhece?

Pronto para um chatgpt que realmente o conhece?

14 Maio 2025
Lightricks revela o modelo de vídeo LTX 13B para geração de vídeo HQ AI

Lightricks revela o modelo de vídeo LTX 13B para geração de vídeo HQ AI

14 Maio 2025
Xai sente falta de seu próprio prazo de segurança de IA, e agora

Xai sente falta de seu próprio prazo de segurança de IA, e agora

14 Maio 2025
Android Auto agora é alimentado pelo Google Gemini

Android Auto agora é alimentado pelo Google Gemini

14 Maio 2025
Tensorwave monta a infraestrutura de IA onda com injeção de financiamento de US $ 100 milhões

Tensorwave monta a infraestrutura de IA onda com injeção de financiamento de US $ 100 milhões

14 Maio 2025
A IA “sabe tudo” e a alternativa de código aberto

A IA “sabe tudo” e a alternativa de código aberto

14 Maio 2025

Recent Posts

  • Pronto para um chatgpt que realmente o conhece?
  • As ferramentas de pesquisa de IA podem estar criando mais problemas do que resolvem
  • O seu parceiro de IA generativo super útil está tornando seu trabalho entediante?
  • Adele da Microsoft quer dar um perfil cognitivo à sua IA
  • O artigo de pesquisa da Apple revela Matrix3D para geração de conteúdo 3D

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.