ChatGPT ganha um novo e poderoso modelo de geração de imagens

Resumo

OpenAI anunciou o ChatGPT Imagens 2.0, novo modelo de geração de imagens.
Ele foca em aplicabilidade para design, apresentações e marketing, melhorando a renderização de texto.
A nova versão está disponíel para todos, mas o recurso de “raciocínio” está restrito aos planos pagos Plus, Pro, Business e Enterprise.

A OpenAI anuncia hoje (21/04) o ChatGPT Imagens 2.0, novo modelo do seu gerador de imagens. A atualização tenta mudar a forma irreverente como tratamos a ferramenta, melhorando a qualidade do material: em vez de resultados experimentais, a ideia agora é entregar criações prontas para uso em design, apresentações e marketing.

Com o novo modelo, o foco passa a ser precisão e aplicabilidade — ou seja, gerar algo mais próximo de um produto final, sem depender de edição posterior para corrigir erros de texto, por exemplo.

As ilustrações que a OpenAI compartilhou conosco vão por esse caminho: imagens de cartilhas de marketing e propagandas, dando um vislumbre do que a empresa espera com a nova versão. Segundo a empresa, mais de 1 bilhão de imagens são geradas por semana na plataforma.

“Segurança é a nossa obrigação”

Em coletiva acompanhada pelo Tecnoblog, a líder de produto Adele Li afirmou que o avanço em capacidade não altera as diretrizes de segurança, que seguem sendo ampliadas para evitar usos indevidos (e os problemas jurídicos que o “efeito Studio Ghibli” trouxe).

“Em termos de salvaguardas, elas não mudam só porque temos novos modelos. Eu separaria ‘capacidade’ de ‘segurança’. Capacidade é a habilidade de gerar imagens mais precisas e estéticas; segurança é a nossa obrigação de seguir diretrizes.”

– Adele Li, líder de produto para o ChatGPT Imagens

A executiva confirmou que o Imagens 2.0 substituirá, de forma geral, o modelo 1.5 no chatbot, mas alguns recursos estarão disponíveis apenas para usuários pagantes. Um deles é a capacidade de raciocínio: essa função permitirá criar múltiplas imagens a partir de um único comando, além de buscar informações na web e organizar o conteúdo visual antes da geração.

No entanto, algo que o usuário pagante poderá perceber é uma latência maior na criação da arte: a “geração pode demorar um pouco mais porque o processo de raciocínio e pesquisa em segundo plano é mais complexo”, disse Adele Li.

Uma das promessas da nova versão é entender melhor instruções detalhadas, como posicionamento de elementos e relações entre objetos – algo que, até então, a IA costumava ignorar.

Nas demonstrações, o sistema agiu bem e foi capaz de criar identidades visuais completas, infográficos e interfaces de jogos a partir de descrições simples, já que o novo modelo melhorou o suporte a idiomas e a renderização de texto.

Todavia, vale destacar: a rival Anthropic também revelou sua primeira ferramenta de design, com uma proposta semelhante à apresentada pela OpenAI.

Quando chega?

O Imagens 2.0 já está disponível no ChatGPT e no Codex, com a opção de raciocínio restrita aos planos Plus, Pro, Business e Enterprise. A versão base do modelo é a que chega para todos.