- A ferramenta Whisk do Google permite gerar imagens usando outras imagens como prompts, sem exigir um prompt de texto longo.
- É possível usar várias imagens para cada um dos três aspectos: sujeito, cena e estilo; é opcional adicionar texto, que pode detalhar mais.
- Whisk visa “exploração visual rápida” e não edições pixel-perfect; caso o resultado não atenda, é possível editar os prompts subjacentes.
- O Google afirma que Whisk usa a versão mais recente do modelo de geração de imagem Imagen 3 e que as imagens podem levar alguns segundos para gerarem.
- A empresa apresentou Veo 2, a próxima versão de seu modelo de vídeo, com lançamento inicial no VideoFX e expansão para YouTube Shorts no próximo ano.
Google lançou Whisk, uma ferramenta de IA que gera imagens a partir de prompts visuais, sem depender apenas de texto. O objetivo é exploração rápida, não edições pixel-perfect.
Whisk permite usar imagens como sugestão para assunto, cena e estilo. É possível combinar vários prompts visuais para cada aspecto, além de adicionar textos se desejar. Dash de geração é breve, com alguns segundos entre a entrada e o resultado.
A ferramenta também oferece uma opção de gerar imagens a partir de imagens sugeridas automaticamente, caso o usuário não tenha imagens disponíveis. O texto final pode ser incluído como complemento, mas não é obrigatório.
Como funciona
Whisk gera imagens acompanhadas de um prompt textual para cada item criado. Usuários podem favoritar ou baixar as imagens. Há a possibilidade de refinar o resultado editando o prompt textual ou ajustando a imagem escolhida.
Detalhes técnicos e próximos passos
A empresa afirma que Whisk usa a iteração mais recente do modelo de geração de imagens Imagen 3. O anúncio foi feito no blog oficial da empresa. A Nvidia Veo 2, versão de geração de vídeo, também foi apresentada, com foco em maior compreensão da linguagem cinematográfica.
Aplicações e disponibilidade
A Veo 2 chegará primeiro ao VideoFX e, posteriormente, aos YouTube Shorts e outros produtos ainda no próximo ano. A empresa afirma que o recurso facilita experimentação criativa sem exigir entradas extensas de texto.
Entre na conversa da comunidade