Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
Subscribe
No Result
View All Result
Dataconomy PT
No Result
View All Result

Testou o CogVideoX, outra IA de texto para vídeo de código aberto

byKerem Gülen
5 Setembro 2024
in Inteligência Artificial
Home Notícias Inteligência Artificial
Share on FacebookShare on Twitter
Google Preferred Source

Universidade de Tsinghua e Zhipu IA introduziram o CogVideoX em colaboração, um modelo de texto para vídeo de código aberto pronto para desafiar pesos pesados ​​da IA ​​como Pista, Luma IAe Laboratórios Pika. Detalhado em uma publicação recente do arXiv, esta inovação oferece recursos avançados de geração de vídeo para desenvolvedores em todo o mundo.

CogVideoX: Nova ferramenta de IA de texto para vídeo de código aberto

“Apresentamos o CogVideoX, modelos de transformadores de difusão em larga escala projetados para gerar vídeos com base em prompts de texto. Para modelar dados de vídeo de forma eficiente, propomos alavancar um Autoencoder Variacional 3D (VAE) para compactar vídeos ao longo das dimensões espacial e temporal. Para melhorar o alinhamento texto-vídeo, propomos um transformador especialista com o LayerNorm adaptativo especialista para facilitar a fusão profunda entre as duas modalidades. Ao empregar uma técnica de treinamento progressivo, o CogVideoX é adepto da produção de vídeos coerentes e de longa duração caracterizados por movimentos significativos”, disse leituras de papel.

A Universidade de Tsinghua tem se envolvido intensamente na pesquisa de IA, com vários projetos notáveis ​​em seu currículo.
Recentemente, eles colaboraram no OpenVoice, uma plataforma de clonagem de voz de código aberto desenvolvida em conjunto com o MIT e MinhaConchae agora eles introduziram o CogVideoX-5B, um modelo de texto para vídeo. Eles também fizeram parceria com a Shengshu Technology para lançar Vídeo IAuma ferramenta projetada para simplificar a criação de vídeos usando IA.

O CogVideoX pode criar vídeos coerentes e de alta qualidade, com até seis segundos de duração, a partir de simples instruções de texto.

O modelo de destaque, CogVideoX-5B, apresenta 5 bilhões de parâmetros, produzindo vídeos com resolução de 720×480 e 8 quadros por segundo. Embora essas especificações possam não rivalizar com os sistemas proprietários mais recentes, o verdadeiro avanço está na abordagem de código aberto do CogVideoX.

Os modelos de código aberto estão revolucionando o campo ao rliberando seus pesos de código e modelo para o público, a equipe Tsinghua efetivamente democratizou uma tecnologia que antes era domínio de gigantes da tecnologia bem financiadas. Espera-se que esse movimento acelere os avanços em vídeo gerado por IA ao explorar a expertise coletiva da comunidade global de desenvolvedores.

Os pesquisadores alcançaram os resultados impressionantes do CogVideoX por meio de várias inovações importantes, incluindo um Autocodificador Variacional 3D para compressão de vídeo eficiente e um “transformador especialista” projetado para melhorar o alinhamento de texto e vídeo.

“Para melhorar o alinhamento entre vídeos e textos, propomos um Transformer especialista com LayerNorm adaptável especialista para facilitar a fusão entre as duas modalidades”, explica o artigo. Esse avanço permite uma interpretação mais precisa de prompts de texto e uma geração de vídeo mais precisa.

Como experimentar o CogVideoX?

  • Comece acessando a plataforma HuggingFace onde o Ferramenta de geração de vídeo de código aberto CogVideoX-5B está disponível para teste.
CogVideoX é outra IA de texto para vídeo de código aberto
Passo 1
  • Crie um prompt descritivo para o vídeo que você quer gerar. Por exemplo, usamos:
Uma cena pacífica de jardim onde uma única borboleta voa graciosamente pelo ar, suas asas vibrantes capturando a luz enquanto ela pousa suavemente na mão estendida de uma criança. Os olhos da criança se arregalam de admiração, capturando a magia do momento enquanto a borboleta repousa delicadamente em seus pequenos dedos. Ao redor delas, flores desabrochando balançam suavemente na brisa, enquanto um riacho distante murmura baixinho, adicionando uma sensação de calma à atmosfera serena. A mão da criança permanece firme, oferecendo uma recepção calorosa à delicada criatura, incorporando uma conexão entre a inocência e as maravilhas da natureza.
  • Assim que seu prompt estiver pronto, clique no botão para gerar o vídeo. Você precisará aguardar um momento enquanto a ferramenta processa sua solicitação e cria o vídeo com base na sua descrição.
CogVideoX é outra IA de texto para vídeo de código aberto
Passo 2
  • Após o vídeo ser gerado, você pode baixá-lo diretamente da plataforma. Isso permite que você visualize o resultado do seu prompt e veja com que precisão a ferramenta interpretou sua descrição.
CogVideoX é outra IA de texto para vídeo de código aberto
Passo 3
  • Confira o vídeo. Embora o resultado possa não ser alucinante, é importante notar que esses tipos de ferramentas estão melhorando rapidamente. Assim como vimos com a evolução do ChatGPT, um avanço significativo em vídeo gerado por IA provavelmente está no horizonte.

Experimentei — embora ainda não seja alucinante, essas ferramentas estão surgindo em todos os lugares. Esperando um avanço em breve, assim como vimos com o ChatGPT. foto.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28 de agosto de 2024

Veremos cada vez mais deepfakes

No entanto, a ampla disponibilidade de uma tecnologia tão poderosa não vem sem seus perigos. O potencial de uso indevido, particularmente na criação de deepfakes ou conteúdo enganoso, é um problema sério que a comunidade de IA deve enfrentar. Os próprios pesquisadores reconhecem essas preocupações éticas, pedindo que a tecnologia seja usada de forma responsável.

À medida que o vídeo gerado por IA se torna cada vez mais acessível e avançado, estamos nos aventurando em território desconhecido na criação de conteúdo digital. O lançamento do CogVideoX pode representar um momento muito importante, potencialmente redistribuindo o poder dos grandes players no campo para um modelo mais aberto e descentralizado de desenvolvimento de IA.

Os verdadeiros efeitos dessa democratização ainda são incertos. Ela criará uma nova onda de criatividade e inovação, ou piorará os problemas existentes de desinformação e manipulação digital?


Crédito da imagem em destaque: Kerem Gülen/Meio da jornada

Tags: ApresentouIAvídeo

Related Posts

Anthropic convida mais 150 organizações para o Projeto Glasswing

Anthropic convida mais 150 organizações para o Projeto Glasswing

3 Junho 2026
Microsoft revela Projeto Solara para um futuro com agentes em primeiro lugar

Microsoft revela Projeto Solara para um futuro com agentes em primeiro lugar

3 Junho 2026
O Google permitirá que sites optem por não receber resultados de pesquisa de IA

O Google permitirá que sites optem por não receber resultados de pesquisa de IA

3 Junho 2026
OpenAI expande Codex com plug-ins empresariais e novo recurso Sites

OpenAI expande Codex com plug-ins empresariais e novo recurso Sites

3 Junho 2026
Meta corrige falha de IA que permitiu o controle de contas do Instagram

Meta corrige falha de IA que permitiu o controle de contas do Instagram

2 Junho 2026
Pacote popular do Codex foi detectado exfiltrando credenciais de autenticação

Pacote popular do Codex foi detectado exfiltrando credenciais de autenticação

2 Junho 2026

Recent Posts

  • As regras de desativação da pesquisa de IA do Google estimulam o lançamento do navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Pesquisadores desbloqueiam aprimoramento de 20 vezes em experimentos com laser ultrarrápido
  • Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho de IA
  • Os novos chips Core Ultra da Intel estão supostamente em falta

Recent Comments

Nenhum comentário para mostrar.
Dataconomy PT

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.