O OpenAI acabou de integrar seu gerador de imagens mais avançado ao GPT-4O, tornando a geração de imagens uma “capacidade primária” de seus modelos de idiomas. Isso permite a criação de imagens precisas e fotorrealistas úteis para várias tarefas, desde diagramas até comunicação visual.
Os seres humanos sempre confiaram em imagens visuais para mais do que apenas decoração – pense em pinturas em cavernas evoluindo para os infográficos modernos. Enquanto os modelos generativos atuais se destacam na criação de visuais impressionantes, eles geralmente ficam aquém da produção de imagens práticas. Logos e diagramas, por exemplo, requerem uma mistura de significado preciso e contexto compartilhado, algo que o GPT-4O visa entregar.
O GPT-4O pode renderizar com precisão o texto, seguir de acordo com solicitações e aproveitar sua base de conhecimento integrada-incluindo imagens enviadas transformadas. Esses recursos ajudam a tornar a criação da imagem uma ferramenta mais prática, aprimorando a comunicação visual com precisão.
O treinamento envolveu a exposição dos modelos a uma mistura de imagens e texto on -line, ensinando -lhes não apenas como as imagens se relacionam com a linguagem, mas como elas se interconectam. O pós-treinamento intensivo aprimora ainda mais a fluência visual do modelo, resultando em geração de imagens consistente e com conhecimento de contexto.
Os recursos de geração de imagem GPT-4O incluem:
- Renderização de texto: Integra símbolos precisos às imagens.
- Geração de várias turnos: Refina as imagens através de conversas contínuas.
- Aprendizagem no contexto: Analisa e aprende com imagens compradas pelo usuário.
- Conhecimento mundial: Vincula o conhecimento entre texto e imagens.
- Fotorealismo e estilo: Cria ou transforma imagens em estilos variados.
Apesar desses avanços, o modelo não é impecável. O OpenAI reconhece limitações como questões de cultivo, alucinações e desafios na renderização de texto gráfica e multilíngue precisa, todos eles planejam lidar com o pós-lançamento.
A segurança continua sendo uma prioridade. O OpenAI pretende equilibrar a liberdade criativa com padrões de segurança robustos, implementando medidas como mecanismos de proveniência e busca interna de C2PA para evitar o uso indevido.
O novo recurso de geração de imagens no GPT-4O está sendo lançado para usuários Plus, Pro, Team e Free do ChatGPT. Em breve estará disponível para usuários corporativos e EDU também. Os desenvolvedores podem esperar o acesso à API nas próximas semanas. Os usuários podem criar imagens simplesmente descrevendo suas necessidades no bate -papo, especificando detalhes como proporção ou cores.
Por causa da natureza detalhada de suas imagens, eles poderiam levar até um minuto para renderizar.