NVIDIA tem revelado Fugatto, um modelo generativo de IA capaz de criar e modificar conteúdo de áudio. O modelo visa auxiliar produtores musicais, criadores de filmes e desenvolvedores de jogos, permitindo-lhes gerar novos sons por meio de prompts de texto. Fugatto combina vários recursos de geração de áudio, empregando algoritmos avançados para aprimorar processos criativos na indústria de áudio.
NVIDIA lança Fugatto, uma IA generativa para criação de áudio
Fugattoabreviação de Foundational Generative Audio Transformer Opus 1, foi lançado pela NVIDIA, fornecedora líder mundial de chips e software para sistemas de IA. A tecnologia pode gerar e alterar o som de arquivos de áudio existentes, diferenciando-o dos modelos anteriores. Por exemplo, pode transformar uma melodia de piano em uma voz humana ou modificar o sotaque e o tom emocional de uma gravação falada. Esta flexibilidade permite aos criadores explorar uma gama de aplicações inovadoras em diferentes campos.
A equipe por trás do Fugatto consiste em mais de uma dúzia de pesquisadores, incluindo Rafael Valle, gerente de pesquisa de áudio aplicado da NVIDIA. Valle enfatizou o objetivo do projeto: “Queríamos criar um modelo que entendesse e gerasse som como os humanos fazem”. A chave para o design do Fugatto é a sua capacidade de integrar múltiplas tarefas relacionadas à geração e transformação de áudio, apresentando propriedades emergentes que surgem de seus extensos dados de treinamento.
Os usuários podem instruir Fugatto com instruções de formato livre para criar paisagens sonoras, trechos de música ou até mesmo efeitos sonoros exclusivos. Por exemplo, um produtor poderia criar rapidamente protótipos de diferentes estilos ou instrumentos para uma faixa. Notavelmente, Fugatto apresenta técnicas como ComposableART, permitindo aos usuários amalgamar comandos variados. Os testes revelaram resultados surpreendentes, conforme sugerido por Rohan Badlani, pesquisador de IA envolvido com o modelo, que descreveu a experiência como artisticamente gratificante, apesar de sua formação técnica.
Durante seu treinamento, o Fugatto utilizou 2,5 bilhões de parâmetros e foi desenvolvido nos poderosos sistemas DGX da NVIDIA com 32 GPUs H100 Tensor Core. O treinamento do modelo contou com um conjunto de dados diversificado e combinado, composto por milhões de amostras de áudio, aprimorando sua funcionalidade multi-sotaque e multilíngue. Este ambicioso projeto também levou mais de um ano para ser desenvolvido, com a equipe superando vários desafios na geração de dados e treinamento de modelos.
Fugatto oferece diversas aplicações potenciais, inclusive para agências de publicidade e plataformas de aprendizagem de idiomas. Foi sugerido que as campanhas de marketing poderiam se beneficiar de sua capacidade de personalizar dublagens com diferentes sotaques ou humores. Na educação, os alunos podem desfrutar de cursos personalizados com vozes familiares. Os desenvolvedores de jogos poderiam adaptar o áudio do jogo de forma dinâmica, integrando elementos interativos que respondem às ações do usuário.
Embora as capacidades do Fugatto sejam impressionantes, a NVIDIA não anunciou planos imediatos para lançar esta tecnologia ao público. A empresa expressa preocupação com o potencial uso indevido de IA generativa, com Bryan Catanzaro, vice-presidente de pesquisa aplicada de aprendizagem profunda da NVIDIA, destacando a importância da cautela dados os riscos associados a tal tecnologia. A OpenAI e outras empresas da área enfrentam desafios semelhantes no que diz respeito à implementação responsável dos seus modelos, particularmente no que diz respeito aos direitos de propriedade intelectual e à desinformação.
Crédito da imagem em destaque: Nvidia