在 AI 图像生成领域,传统的文本提示方式已较为常见。然而,Google 推出的 Whisk 带来了一种全新的视觉优先的方法。它允许用户使用图像作为输入来生成和重新混合创意,为创作者提供了一种更直观、更具创意的图像生成体验。
Whisk 简介
Whisk 是 Google Labs 推出的一款创新的生成式 AI 工具。它借助 Gemini 和 Imagen 3 模型,通过用户输入的代表主体、场景和风格的图像来生成新的图像。该工具主要定位于创意探索,旨在帮助用户快速生成和迭代各种创意想法,而非用于精确的图像编辑。目前,Whisk 仅对美国用户(美国IP)开放,用户可在 labs.google/whisk 上使用该工具并提供反馈。
Whisk 功能亮点
- 图像驱动的生成:用户可以通过上传图像来确定主体、场景和风格,而不是使用文本提示,这为不擅长撰写文本提示的用户提供了更便捷的方式,例如用户可以上传一张猫的图片作为主体,一张荷叶的图片作为场景,一张有闪亮元素的图片作为风格来生成独特的图像。
- 自动生成详细字幕:Gemini 模型会自动为用户上传的图像编写详细的字幕描述,这些描述会被输入到 Imagen 3 模型中,以更好地捕捉图像的关键特征并生成符合用户意图的新图像。
- 创意重新混合:能够将不同的主体、场景和风格图像进行重新混合,创造出独特的设计,如数字玩偶、珐琅别针等各种创意产品。
- 本质捕捉而非复制:它捕捉的是输入图像的本质特征,而不是精确复制,这使得生成的图像具有更多的创意变化空间,但也可能导致结果与用户预期不完全一致。
- 可编辑提示:用户可以查看和编辑底层的提示信息,以便根据自己的需求对生成的图像进行调整和优化,例如修改颜色、图案等特征。
适用场景
Whisk 使用教程
结语
Whisk 作为一款具有创新性的 AI 图像生成工具,以其独特的图像输入方式和创意重新混合功能,为用户带来了全新的创意体验。它在创意设计、艺术创作、个性化产品定制等多个领域都具有潜在的应用价值。虽然目前它仅对美国用户开放且可能存在一些生成结果不够完美的情况,但它所代表的视觉优先的 AI 图像生成方向值得我们关注。
如果你对创意和 AI 图像生成感兴趣,不妨点赞、评论并持续关注 Whisk 的发展,期待它在未来能为我们带来更多的惊喜和可能性。