Meu colega Bünyamin Furkan Demirkaya recebeu um e-mail da Stability AI apresentando Stable Diffusion 3.5 Medium, um modelo aberto gratuito para uso comercial e não comercial. Este modelo, com 2,5 bilhões de parâmetros, foi projetado para funcionar com eficiência em hardware de consumo, proporcionando acesso mais amplo à geração avançada de imagens de IA. Vamos explorar o que este novo modelo oferece e sua compatibilidade com diversas GPUs.
Projetado para hardware de consumo
O Stable Diffusion 3.5 Medium foi criado pensando na acessibilidade. Ao contrário de muitos modelos avançados que exigem hardware especializado e caro, este modelo pode operar na maioria das GPUs de consumo sem comprometer significativamente o desempenho. De acordo com o e-mail da Stability AI, “Este modelo requer apenas 9,9 GB de VRAM (excluindo codificadores de texto) para desbloquear seu desempenho total”, tornando-o uma das opções mais acessíveis para hobbyistas, criadores e pequenas startups que não têm orçamento para GPUs de última geração.
O gráfico de compatibilidade de hardware compartilhado pela Stability AI ilustra claramente esse ponto. Por exemplo, GPUs como NVIDIA RTX 3080 e superiores podem executar Stable Diffusion 3.5 Medium sem compensações de desempenho. GPUs ainda mais acessíveis, como NVIDIA RTX 4060 ou RTX 3060, podem gerenciar este modelo, embora com certas otimizações como quantização ou descarregamento sequencial.
Um guia completo para Flux NF4 em difusão estável
Compatibilidade de hardware
O gráfico categoriza várias GPUs por capacidade VRAM e fornece informações sobre quais modelos são suportados. Aqui está uma análise detalhada:
- 8 GB de VRAM (NVIDIA GeForce RTX 4060): Modelos como Stable Diffusion 3.5 Medium podem ser executados com alguns comprometimentos de desempenho, indicados por um símbolo laranja no gráfico. Otimizações como quantização são necessárias para gerenciar efetivamente a VRAM limitada.
- 10 GB de VRAM (NVIDIA GeForce RTX 3080): Compatibilidade total sem compensações, representada por uma marca verde. Isso implica que o modelo funciona sem problemas, utilizando a VRAM disponível para gerar imagens de alta qualidade com eficiência.
- VRAM de 12-16 GB (NVIDIA GeForce RTX 4070, 4060 Ti, 4080, etc.): GPUs com mais VRAM, como NVIDIA RTX 4070 e AMD Radeon RX 7700 XT, não têm problemas ao executar Stable Diffusion 3.5 Medium e modelos semelhantes. Essas GPUs são poderosas o suficiente para operar o modelo “pronto para uso” sem quaisquer modificações.
- 20 GB + VRAM (AMD Radeon RX 7900 XT, NVIDIA GeForce RTX 3090): Modelos maiores, incluindo FLUX.1 e Playground v2.5, podem ser executados com eficiência nessas GPUs de maior capacidade. Esta categoria geralmente é voltada para usuários avançados ou profissionais que buscam mais versatilidade no uso do modelo.
- 32 GB ou superior (NVIDIA H100): Essas GPUs de última geração podem executar qualquer um dos modelos básicos de imagem aberta com facilidade, permitindo que até mesmo os modelos maiores funcionem sem limitações.

Capacidades avançadas de multi-resolução
Stability AI descreve Stable Diffusion 3.5 Medium como “oferecendo a melhor geração de imagens para seu tamanho”. Os recursos avançados de multirresolução do modelo fazem com que ele se destaque entre outros modelos de médio porte. Para os criadores, isso significa imagens mais nítidas e alto nível de detalhes, sem a necessidade de uma estação de trabalho poderosa.
O gráfico de pronta adesão e qualidade estética compara Stable Diffusion 3.5 Medium a vários outros modelos, fornecendo mais perspectiva. Notavelmente, as pontuações Elo para adesão imediata e qualidade estética mostram que o Stable Diffusion 3.5 Medium tem um desempenho igual ou melhor do que a maioria dos modelos de tamanho semelhante.
Comparação de desempenho
O gráfico avalia múltiplos modelos abertos pela pronta adesão e qualidade estética, utilizando um sistema de pontuação Elo. Os seguintes insights podem ser extraídos:
- Difusão Estável 3,5 Grande (8,1B): Difusão Estável 3,5 Classificações grandes no topo para adesão imediata, o que significa que o modelo segue com precisão a entrada do usuário. Isso é fundamental para usuários que buscam alta precisão ao gerar imagens a partir de prompts.
- FLUXO.1 [dev] (12B): O modelo com a mais alta classificação de qualidade estética. Suas pontuações superiores refletem sua capacidade de produzir imagens visualmente atraentes que se alinham bem com as solicitações do usuário. No entanto, requer significativamente mais recursos de hardware do que modelos de tamanho médio como Stable Diffusion 3.5 Medium.
- Difusão Estável 3,5 Médio (2,5B): Sendo um modelo eficiente com um forte equilíbrio entre adesão imediata e qualidade de imagem, oferece excelente resultado sem as grandes demandas de recursos de modelos maiores. Isso o torna ideal para usuários que possuem hardware limitado, mas desejam acesso a recursos avançados de geração de imagens.
- Playground v2.5 (3,5B) e AuraFlow v0.2 (6,8B): Esses modelos, embora forneçam desempenho decente, ficam aquém do Stable Diffusion 3.5 Medium quando se trata de adesão imediata e qualidade equilibradas. Isto os torna menos adequados se a precisão e a qualidade estética forem as principais preocupações.

Com 2,5 bilhões de parâmetros, o Stable Diffusion 3.5 Medium ocupa uma posição única no cenário de modelos de IA. A combinação de alto desempenho, menores requisitos de hardware e recursos de multirresolução o torna uma escolha atraente para uma ampla gama de usuários. A Stability AI visa reduzir a barreira de entrada para a criatividade baseada em IA, visando todos, desde startups até criadores estabelecidos que podem não ter a infraestrutura para implantar modelos grandes e com uso intensivo de recursos.
A declaração direta da empresa diz: “Seja uma startup ou um criador, o acesso a esta tecnologia não deve ser restringido por limitações de hardware”. Isto reflete a ênfase da Stability AI na democratização das ferramentas de IA, abordando os desafios de hardware que tradicionalmente limitam a acessibilidade.
O que isso significa para criadores e startups
Um dos pontos-chave em que a Stability AI se concentra é garantir que suas ferramentas estejam disponíveis para um público tão amplo quanto possível. A ênfase no hardware ao nível do consumidor reflecte uma estratégia para explorar uma base de utilizadores mais ampla. Ao tornar o Stable Diffusion 3.5 Medium capaz de funcionar em GPUs acessíveis, eles estão abordando uma lacuna significativa no mercado – preenchendo a lacuna entre usuários avançados e usuários entusiastas.
Uma olhada no gráfico de compatibilidade de hardware mostra o foco intencional em placas gráficas populares. A NVIDIA RTX 3060, que é uma GPU bastante comum entre os criadores, é compatível, embora com algumas desvantagens. Esse tipo de versatilidade abre portas para usuários que anteriormente não conseguiam acessar ferramentas de IA devido a restrições de hardware.
As implicações do lançamento deste modelo são consideráveis. Para pequenos criadores e startups, a capacidade de executar um poderoso modelo de geração de imagens sem altos custos iniciais de hardware nivela o campo de atuação. Os concorrentes limitados por recursos limitados têm agora um ponto de entrada viável no trabalho criativo assistido por IA.
A comparação com outros modelos no gráfico destaca como este lançamento traz um valor significativo. Ao contrário de modelos como AuraFlow ou PixArt-Σ, que exigem hardware extenso ou não oferecem qualidade de imagem, o Stable Diffusion 3.5 Medium busca um equilíbrio entre desempenho e acessibilidade.
Qualidade de imagem, adesão imediata e uso prático
O desempenho do Stable Diffusion 3.5 Medium também se estende aos aspectos qualitativos da geração de imagens. Um bom equilíbrio entre adesão imediata e qualidade estética é crucial em cenários práticos, especialmente para usuários que precisam criar obras de arte ou gerar conteúdo com base em informações específicas e detalhadas.
O gráfico de pontuação Elo compartilhado pela Stability AI mostra que o modelo médio pode competir bem com congêneres maiores, exigindo menos recursos. Por exemplo, ele quase se iguala ao SD 3.5 Large Turbo (8.1B) tanto em aderência imediata quanto em qualidade estética, mas pode ser implantado em GPUs menos potentes.
Como experimentar o Stable Diffusion 3.5 Medium
Para usuários interessados em testar este modelo, o Stability AI oferece um caminho simples. Os pesos estão disponíveis para download em Abraçando o rostoe o código de inferência pode ser encontrado em GitHub. Esse acesso direto garante que desenvolvedores e criadores possam começar a usar o Stable Diffusion 3.5 Medium com facilidade, integrando-o a fluxos de trabalho existentes ou construindo novos projetos do zero.
Além do modelo principal, os detalhes completos também estão disponíveis no blog do Stability AI, fornecendo insights sobre a tecnologia subjacente e orientações adicionais sobre como aproveitar ao máximo seus recursos.
Crédito da imagem em destaque: Kerem Gülen/Ideograma