Gemini 2.5 Image(Nano Banana)击败所有图像编辑器!

Gemini 2.5 Image(Nano Banana)击败所有图像编辑器!

文章目录

  • Gemini 2.5 Flash Image是什么?
  • Gemini 2.5 Flash Image功能
  • 保持字符一致性
  • 基于提示的图像编辑
  • 多图像融合
  • 原生世界知识
  • Gemini Flash 2.5图像可访问性
  • 个人用户
  • 开发者
  • Gemini Flash 2.5 Image动手实践
  • 1. 生成新图像
  • 2. 图像合并
  • 3. 图像编辑
  • 4. 保持角色一致性
  • 5. 构建基于Gemini 2.5 Flash Image的应用
  • 小结

Nano Banana

Nano-Banana 是 Gemini 最新图像生成模型的名称,也就是 Gemini 2.5 Flash Image。Gemini 2.5 Flash Image 或 nano-banana 不仅仅是一个图像生成模型,它还是一个图像编辑模型。为什么?因为这次更新现在允许你将多张图片混合成一张。至少它是这么宣传的,正如谷歌在介绍新 Gemini 图像生成模型的博客中提到的那样。

如果它能做到它所说的并且做得很好,我个人认识的十几个人工智能爱好者都会非常兴奋地尝试一下。如果您是 AI 图像生成的爱好者之一,这里有您需要了解的有关新 Gemini 2.5 Flash Image 的所有信息,以及我对其进行的实际实验。

Gemini 2.5 Flash Image是什么?

简而言之,Gemini 2.5 Flash Image 是 Google 推出的全新图像生成和编辑模型。它是备受赞誉的 Gemini 2.0 Flash Image 图像生成模型的更新,使其速度更快、性能更佳,并新增了图像编辑功能。

具体来说,全新的 Gemini 2.5 Flash Image 可以将多幅图像融合为一幅,保持字符一致性,并对图像进行有针对性的变换。正如 Google 所说,该模型利用 Gemini 的“世界知识”来生成和编辑图像。

让我们更详细地探讨一下这些功能。

Gemini 2.5 Flash Image功能

保持字符一致性

几乎所有使用过 AI 生成图像的人都会遇到这个问题。单独的图像提示通常效果很好。但当你希望某个特定元素在一组图像中原样显示时,几乎所有已知的 AI 模型都会失效。

Google 声称已经通过全新的 Gemini 2.5 Flash Image 解决了这个问题。以下是关于 nano-banana 在这方面功能的描述:

“现在,您可以将同一个角色放置在不同的环境中,在新的场景中从多个角度展示同一款产品,或者生成一致的品牌资产,同时保留主题。”

它成功了吗?很快,在我使用该模型的亲身体验中就能找到答案。

基于提示的图像编辑

这很像“Photoshop”在图像中添加/删除特定元素,但只需简单的提示即可。正如谷歌所声称的那样,Gemini 2.5 Flash Image 可以“模糊图像背景、去除 T 恤上的污渍、从照片中移除整个人物”,以及更多其他功能。

如果性能出色,结合自然语言提示的精确局部编辑功能使其成为一个强大的 AI 模型。别担心,我们很快就会在实际操作中试用它。

多图像融合

这似乎是 Gemini 2.5 Flash Image 的最新热门更新。谷歌表示,Nano-Banana 可以“理解并合并多张输入图像”,这意味着你现在只需一个提示就能融合图像。比如,把错过活动的人添加到合影中,把一个物体放入场景中,或者任何你能想到的用途。只需一个简单的提示即可。

动手加载。敬请期待!

原生世界知识

人工智能模型缺乏对现实世界的深度语义理解。它们生成的几乎所有美学图像都源于训练数据。谷歌声称已经绕过了这个问题,因为新的纳米香蕉模型“受益于 Gemini 的世界知识”。

谷歌没有透露更多有关这一功能如何实现的信息,但表示这项功能为 Gemini 2.5 Flash 图像模型解锁了新的用例。不用担心,我们很快就会对其进行全面测试。

在此之前,以下是如何访问新的 Gemini Flash 2.5 图像的方法

Gemini Flash 2.5图像可访问性

全新 Google nano-banana 或 Gemini Flash 2.5 图像现已通过 Gemini 应用或网站面向个人用户开放。

个人用户

您可以直接在手机上下载该应用,或访问 gemini.google.com,选择顶部的 2.5 Flash,然后点击“Tools”部分下的“Create Images”即可访问该模型。

开发者

开发者可以通过 Gemini API 和 Google AI Studio 访问该工具,企业客户可以通过 Vertex AI 访问该工具。

通过 API 访问,请按以下步骤操作:

1. 安装所需库

使用 pip 安装最新版本的 Google 生成式人工智能 SDK,并确保已安装用于图像处理的 PIL (Pillow):

pip install google-generativeai pillow

此命令将在脚本开始时导入所有必需的库,以确保脚本顺利执行。

2. 验证您的API访问权限

通过将 API 密钥(如果需要)导出为环境变量或通过云身份提供商进行身份验证来设置身份验证,以便 genai SDK 可以访问 Google 的生成式 AI 端点:

import os
os.environ["GOOGLE_API_KEY"] = ""

确保您的 API 帐户处于活动状态,并具有足够的请求配额。

3. 配置并调用模型

初始化客户端,将模型设置为“gemini-2.5-flash-image-preview”,并使用 SDK 的内容生成方法传递相关提示:

from google import genai
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt],
)

4. 解析并保存生成的图像

遍历响应以检查文本和图像输出,然后使用 PIL 保存生成的图像:

from PIL import Image
from io import BytesIO
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")

要通过 Google AI Studio 访问,只需使用 Google AI Studio 上的“build mode”即可。进入平台后,您只需输入提示,即可基于 Gemini 2.5 Flash Image 设计您想要的图像生成/编辑应用程序。想想换脸或换衣服。

Gemini Flash 2.5 Image动手实践

由于使用提示进行 AI 图像生成非常简单,我决定尝试全新的 Gemini Flash 2.5 Image 的所有独特卖点,当然,除了基本的图像生成功能之外。亲自查看结果:

1. 生成新图像

这是我使用 Gemini 2.5 Pro Flash 生成的两张图片。一张是来自喜马偕尔邦山区的 25 岁男孩,另一张是一只加迪犬。提示如下:

提示词 1:give me a portrait image of an Chinese boy, around the age of 25, hailing from GuangZhou. The boy has dense, black hair and black eyes, and is wearing a super cool solid White shirt

提示词 2:Please give me a portrait of a Chinese native dog, black, with thick fur, and larger than the average street dog.

输出:

中国男孩

中华田园犬

虽然结果明显是人工智能生成的,但我还是会给 nano-banana 打满分。这完全是因为图像质量超高,对提示的描述精准,而且我在提示中从未提到要让图像过于逼真。

2. 图像合并

为了保持一致性,我在剩下的测试中对这两张图片进行了调整。所以我让模型将男孩和狗的两张图片在风景优美的背景下合并。提示如下:

提示词:show the boy and the dog playing in a huge open field against the backdrop of a river flowing in a valley and snow-capped mountains on the other side of the river

输出:

男孩和狗

AI 模型花了不少时间才找到正确的输出结果。由于初始结果比例略有偏差,我反复尝试了各种提示和结果,才找到我想要的结果。但一旦找到,我简直惊呆了!所有细节都如我所说的一样精准,而且美观程度也达到了我的预期。

3. 图像编辑

图像生成和合并后,就到了编辑部分。为了测试这些,我首先使用 Gemini Flash 2.5 Image 在风景如画的场景中添加了一间小屋。提示如下:

提示词:in this image, show a small shed near the river at a distance

输出:

男孩和狗

第一次尝试就完美无瑕。看来谷歌在 nano-banana 上投入了大量精力,尤其是在那些突出其优势的领域。

4. 保持角色一致性

这是大多数 AI 模型最难的部分。说实话,我对这个USP(独特卖点)非常怀疑。所以自然而然地,我也非常兴奋地想尝试一下。我让模型将图片中的整个场景改为海滩。提示如下:

提示词:show the boy and the dog running as they are in a beach instead of the current setting. the boy is now wearing shorts and a vest, and has a tattoo across his left-arm

输出:

海滩上的男孩和狗

Gemini 2.5 Flash Image 的表现相当出色,令人印象深刻。虽然经过反复尝试才达到理想的视觉效果,但新的图像模型几乎完美地还原了男孩和狗狗的细节。如果仔细观察,你会发现男孩的发型略有不同。其余部分在我看来几乎与之前的设置完全一样。我甚至尝试了“单臂纹身”的创意,看看 Gemini 的表现如何。我只能说,模型做得太棒了!

5. 构建基于Gemini 2.5 Flash Image的应用

为了在可重复生成和编辑图像的应用上测试 Gemini 2.5 Flash Image,我们在 Google AI Studio 的“构建模式”中使用了以下提示:

提示词:Create a Try on App, where users can upload their pictures and try various clothes to see how they look in them.

Google-Nano-banana

输出:您可以在此处查看我们构建的试穿应用程序

小结

只需在全新 Gemini 2.5 Flash Image 上进行一系列图像生成和编辑,我就能明显感受到其更新和增强的功能。尤其让我兴奋的是该模型新增的图像合并功能。我可以预见,这项功能将在无数场景中为我个人带来帮助。对于大多数其他内容创作者而言,全新 Gemini 2.5 Flash Image 上的图像编辑和角色一致性功能将带来颠覆性的改变。

我们经常尝试使用这些全新的 AI 模型,以测试其能力的极限。因此,请务必持续关注本站,了解 AI 领域的最新动态。

评论留言

闪电侠

(工作日 10:00 - 18:30 为您服务)

2025-12-05 12:32:52

您好,无论是售前、售后、意见建议……均可通过联系工单与我们取得联系。

您也可选择聊天工具与我们即时沟通或点击查看:

您的工单我们已经收到,我们将会尽快跟您联系!
取消
选择聊天工具: