Gemini 2.5 Image（Nano Banana）击败所有图像编辑器！

Nano Banana

Nano-Banana 是 Gemini 最新图像生成模型的名称，也就是 Gemini 2.5 Flash Image。Gemini 2.5 Flash Image 或 nano-banana 不仅仅是一个图像生成模型，它还是一个图像编辑模型。为什么？因为这次更新现在允许你将多张图片混合成一张。至少它是这么宣传的，正如谷歌在介绍新 Gemini 图像生成模型的博客中提到的那样。

如果它能做到它所说的并且做得很好，我个人认识的十几个人工智能爱好者都会非常兴奋地尝试一下。如果您是 AI 图像生成的爱好者之一，这里有您需要了解的有关新 Gemini 2.5 Flash Image 的所有信息，以及我对其进行的实际实验。

Gemini 2.5 Flash Image是什么？

简而言之，Gemini 2.5 Flash Image 是 Google 推出的全新图像生成和编辑模型。它是备受赞誉的 Gemini 2.0 Flash Image 图像生成模型的更新，使其速度更快、性能更佳，并新增了图像编辑功能。

具体来说，全新的 Gemini 2.5 Flash Image 可以将多幅图像融合为一幅，保持字符一致性，并对图像进行有针对性的变换。正如 Google 所说，该模型利用 Gemini 的“世界知识”来生成和编辑图像。

让我们更详细地探讨一下这些功能。

Gemini 2.5 Flash Image功能

保持字符一致性

几乎所有使用过 AI 生成图像的人都会遇到这个问题。单独的图像提示通常效果很好。但当你希望某个特定元素在一组图像中原样显示时，几乎所有已知的 AI 模型都会失效。

Google 声称已经通过全新的 Gemini 2.5 Flash Image 解决了这个问题。以下是关于 nano-banana 在这方面功能的描述：

“现在，您可以将同一个角色放置在不同的环境中，在新的场景中从多个角度展示同一款产品，或者生成一致的品牌资产，同时保留主题。”

它成功了吗？很快，在我使用该模型的亲身体验中就能找到答案。

基于提示的图像编辑

这很像“Photoshop”在图像中添加/删除特定元素，但只需简单的提示即可。正如谷歌所声称的那样，Gemini 2.5 Flash Image 可以“模糊图像背景、去除 T 恤上的污渍、从照片中移除整个人物”，以及更多其他功能。

如果性能出色，结合自然语言提示的精确局部编辑功能使其成为一个强大的 AI 模型。别担心，我们很快就会在实际操作中试用它。

多图像融合

这似乎是 Gemini 2.5 Flash Image 的最新热门更新。谷歌表示，Nano-Banana 可以“理解并合并多张输入图像”，这意味着你现在只需一个提示就能融合图像。比如，把错过活动的人添加到合影中，把一个物体放入场景中，或者任何你能想到的用途。只需一个简单的提示即可。

动手加载。敬请期待！

原生世界知识

人工智能模型缺乏对现实世界的深度语义理解。它们生成的几乎所有美学图像都源于训练数据。谷歌声称已经绕过了这个问题，因为新的纳米香蕉模型“受益于 Gemini 的世界知识”。

谷歌没有透露更多有关这一功能如何实现的信息，但表示这项功能为 Gemini 2.5 Flash 图像模型解锁了新的用例。不用担心，我们很快就会对其进行全面测试。

在此之前，以下是如何访问新的 Gemini Flash 2.5 图像的方法

Gemini Flash 2.5图像可访问性

全新 Google nano-banana 或 Gemini Flash 2.5 图像现已通过 Gemini 应用或网站面向个人用户开放。

个人用户

您可以直接在手机上下载该应用，或访问 gemini.google.com，选择顶部的 2.5 Flash，然后点击“Tools”部分下的“Create Images”即可访问该模型。

开发者

开发者可以通过 Gemini API 和 Google AI Studio 访问该工具，企业客户可以通过 Vertex AI 访问该工具。

通过 API 访问，请按以下步骤操作：

1. 安装所需库

使用 pip 安装最新版本的 Google 生成式人工智能 SDK，并确保已安装用于图像处理的 PIL (Pillow)：

pip install google-generativeai pillow

此命令将在脚本开始时导入所有必需的库，以确保脚本顺利执行。

2. 验证您的API访问权限

通过将 API 密钥（如果需要）导出为环境变量或通过云身份提供商进行身份验证来设置身份验证，以便 genai SDK 可以访问 Google 的生成式 AI 端点：

import os
os.environ["GOOGLE_API_KEY"] = ""

确保您的 API 帐户处于活动状态，并具有足够的请求配额。

3. 配置并调用模型

初始化客户端，将模型设置为“gemini-2.5-flash-image-preview”，并使用 SDK 的内容生成方法传递相关提示：

from google import genai
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt],
)

4. 解析并保存生成的图像

遍历响应以检查文本和图像输出，然后使用 PIL 保存生成的图像：

from PIL import Image
from io import BytesIO
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")

要通过 Google AI Studio 访问，只需使用 Google AI Studio 上的“build mode”即可。进入平台后，您只需输入提示，即可基于 Gemini 2.5 Flash Image 设计您想要的图像生成/编辑应用程序。想想换脸或换衣服。

Gemini Flash 2.5 Image动手实践

由于使用提示进行 AI 图像生成非常简单，我决定尝试全新的 Gemini Flash 2.5 Image 的所有独特卖点，当然，除了基本的图像生成功能之外。亲自查看结果：

1. 生成新图像

这是我使用 Gemini 2.5 Pro Flash 生成的两张图片。一张是来自喜马偕尔邦山区的 25 岁男孩，另一张是一只加迪犬。提示如下：

提示词 1：give me a portrait image of an Chinese boy, around the age of 25, hailing from GuangZhou. The boy has dense, black hair and black eyes, and is wearing a super cool solid White shirt

提示词 2：Please give me a portrait of a Chinese native dog, black, with thick fur, and larger than the average street dog.

输出：

中国男孩

中华田园犬

虽然结果明显是人工智能生成的，但我还是会给 nano-banana 打满分。这完全是因为图像质量超高，对提示的描述精准，而且我在提示中从未提到要让图像过于逼真。

2. 图像合并

为了保持一致性，我在剩下的测试中对这两张图片进行了调整。所以我让模型将男孩和狗的两张图片在风景优美的背景下合并。提示如下：

提示词：show the boy and the dog playing in a huge open field against the backdrop of a river flowing in a valley and snow-capped mountains on the other side of the river

输出：

男孩和狗

AI 模型花了不少时间才找到正确的输出结果。由于初始结果比例略有偏差，我反复尝试了各种提示和结果，才找到我想要的结果。但一旦找到，我简直惊呆了！所有细节都如我所说的一样精准，而且美观程度也达到了我的预期。

3. 图像编辑

图像生成和合并后，就到了编辑部分。为了测试这些，我首先使用 Gemini Flash 2.5 Image 在风景如画的场景中添加了一间小屋。提示如下：

提示词：in this image, show a small shed near the river at a distance

输出：

男孩和狗

第一次尝试就完美无瑕。看来谷歌在 nano-banana 上投入了大量精力，尤其是在那些突出其优势的领域。

4. 保持角色一致性

这是大多数 AI 模型最难的部分。说实话，我对这个USP（独特卖点）非常怀疑。所以自然而然地，我也非常兴奋地想尝试一下。我让模型将图片中的整个场景改为海滩。提示如下：

提示词：show the boy and the dog running as they are in a beach instead of the current setting. the boy is now wearing shorts and a vest, and has a tattoo across his left-arm

输出：

海滩上的男孩和狗

Gemini 2.5 Flash Image 的表现相当出色，令人印象深刻。虽然经过反复尝试才达到理想的视觉效果，但新的图像模型几乎完美地还原了男孩和狗狗的细节。如果仔细观察，你会发现男孩的发型略有不同。其余部分在我看来几乎与之前的设置完全一样。我甚至尝试了“单臂纹身”的创意，看看 Gemini 的表现如何。我只能说，模型做得太棒了！

5. 构建基于Gemini 2.5 Flash Image的应用

为了在可重复生成和编辑图像的应用上测试 Gemini 2.5 Flash Image，我们在 Google AI Studio 的“构建模式”中使用了以下提示：

提示词：Create a Try on App, where users can upload their pictures and try various clothes to see how they look in them.

Google-Nano-banana

输出：您可以在此处查看我们构建的试穿应用程序。

小结

只需在全新 Gemini 2.5 Flash Image 上进行一系列图像生成和编辑，我就能明显感受到其更新和增强的功能。尤其让我兴奋的是该模型新增的图像合并功能。我可以预见，这项功能将在无数场景中为我个人带来帮助。对于大多数其他内容创作者而言，全新 Gemini 2.5 Flash Image 上的图像编辑和角色一致性功能将带来颠覆性的改变。

我们经常尝试使用这些全新的 AI 模型，以测试其能力的极限。因此，请务必持续关注本站，了解 AI 领域的最新动态。

Gemini Google Nano Banana

Gemini 2.5 Image（Nano Banana）击败所有图像编辑器！

文章目录

Gemini 2.5 Flash Image是什么？

Gemini 2.5 Flash Image功能

保持字符一致性

基于提示的图像编辑

多图像融合

原生世界知识

Gemini Flash 2.5图像可访问性

个人用户

开发者

1. 安装所需库

2. 验证您的API访问权限

3. 配置并调用模型

4. 解析并保存生成的图像

Gemini Flash 2.5 Image动手实践

1. 生成新图像

2. 图像合并

3. 图像编辑

4. 保持角色一致性

5. 构建基于Gemini 2.5 Flash Image的应用

小结

评论留言

取消回复

Gemini 2.5 Image（Nano Banana）击败所有图像编辑器！

文章目录

Gemini 2.5 Flash Image是什么？

Gemini 2.5 Flash Image功能

保持字符一致性

基于提示的图像编辑

多图像融合

原生世界知识

Gemini Flash 2.5图像可访问性

个人用户

开发者

1. 安装所需库

2. 验证您的API访问权限

3. 配置并调用模型

4. 解析并保存生成的图像

Gemini Flash 2.5 Image动手实践

1. 生成新图像

2. 图像合并

3. 图像编辑

4. 保持角色一致性

5. 构建基于Gemini 2.5 Flash Image的应用

小结

相关文章

评论留言

取消回复