
Nano-Banana 是 Gemini 最新图像生成模型的名称,也就是 Gemini 2.5 Flash Image。Gemini 2.5 Flash Image 或 nano-banana 不仅仅是一个图像生成模型,它还是一个图像编辑模型。为什么?因为这次更新现在允许你将多张图片混合成一张。至少它是这么宣传的,正如谷歌在介绍新 Gemini 图像生成模型的博客中提到的那样。
如果它能做到它所说的并且做得很好,我个人认识的十几个人工智能爱好者都会非常兴奋地尝试一下。如果您是 AI 图像生成的爱好者之一,这里有您需要了解的有关新 Gemini 2.5 Flash Image 的所有信息,以及我对其进行的实际实验。
Gemini 2.5 Flash Image是什么?
简而言之,Gemini 2.5 Flash Image 是 Google 推出的全新图像生成和编辑模型。它是备受赞誉的 Gemini 2.0 Flash Image 图像生成模型的更新,使其速度更快、性能更佳,并新增了图像编辑功能。
具体来说,全新的 Gemini 2.5 Flash Image 可以将多幅图像融合为一幅,保持字符一致性,并对图像进行有针对性的变换。正如 Google 所说,该模型利用 Gemini 的“世界知识”来生成和编辑图像。
让我们更详细地探讨一下这些功能。
Gemini 2.5 Flash Image功能
保持字符一致性
几乎所有使用过 AI 生成图像的人都会遇到这个问题。单独的图像提示通常效果很好。但当你希望某个特定元素在一组图像中原样显示时,几乎所有已知的 AI 模型都会失效。
Google 声称已经通过全新的 Gemini 2.5 Flash Image 解决了这个问题。以下是关于 nano-banana 在这方面功能的描述:
“现在,您可以将同一个角色放置在不同的环境中,在新的场景中从多个角度展示同一款产品,或者生成一致的品牌资产,同时保留主题。”
它成功了吗?很快,在我使用该模型的亲身体验中就能找到答案。
基于提示的图像编辑
这很像“Photoshop”在图像中添加/删除特定元素,但只需简单的提示即可。正如谷歌所声称的那样,Gemini 2.5 Flash Image 可以“模糊图像背景、去除 T 恤上的污渍、从照片中移除整个人物”,以及更多其他功能。
如果性能出色,结合自然语言提示的精确局部编辑功能使其成为一个强大的 AI 模型。别担心,我们很快就会在实际操作中试用它。
多图像融合
这似乎是 Gemini 2.5 Flash Image 的最新热门更新。谷歌表示,Nano-Banana 可以“理解并合并多张输入图像”,这意味着你现在只需一个提示就能融合图像。比如,把错过活动的人添加到合影中,把一个物体放入场景中,或者任何你能想到的用途。只需一个简单的提示即可。
动手加载。敬请期待!
原生世界知识
人工智能模型缺乏对现实世界的深度语义理解。它们生成的几乎所有美学图像都源于训练数据。谷歌声称已经绕过了这个问题,因为新的纳米香蕉模型“受益于 Gemini 的世界知识”。
谷歌没有透露更多有关这一功能如何实现的信息,但表示这项功能为 Gemini 2.5 Flash 图像模型解锁了新的用例。不用担心,我们很快就会对其进行全面测试。
在此之前,以下是如何访问新的 Gemini Flash 2.5 图像的方法
Gemini Flash 2.5图像可访问性
全新 Google nano-banana 或 Gemini Flash 2.5 图像现已通过 Gemini 应用或网站面向个人用户开放。
个人用户
您可以直接在手机上下载该应用,或访问 gemini.google.com,选择顶部的 2.5 Flash,然后点击“Tools”部分下的“Create Images”即可访问该模型。
开发者
开发者可以通过 Gemini API 和 Google AI Studio 访问该工具,企业客户可以通过 Vertex AI 访问该工具。
通过 API 访问,请按以下步骤操作:
1. 安装所需库
使用 pip 安装最新版本的 Google 生成式人工智能 SDK,并确保已安装用于图像处理的 PIL (Pillow):
pip install google-generativeai pillow
此命令将在脚本开始时导入所有必需的库,以确保脚本顺利执行。
2. 验证您的API访问权限
通过将 API 密钥(如果需要)导出为环境变量或通过云身份提供商进行身份验证来设置身份验证,以便 genai SDK 可以访问 Google 的生成式 AI 端点:
import os os.environ["GOOGLE_API_KEY"] = ""
确保您的 API 帐户处于活动状态,并具有足够的请求配额。
3. 配置并调用模型
初始化客户端,将模型设置为“gemini-2.5-flash-image-preview”,并使用 SDK 的内容生成方法传递相关提示:
from google import genai client = genai.Client() prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme" response = client.models.generate_content( model="gemini-2.5-flash-image-preview", contents=[prompt], )
4. 解析并保存生成的图像
遍历响应以检查文本和图像输出,然后使用 PIL 保存生成的图像:
from PIL import Image
from io import BytesIO
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
要通过 Google AI Studio 访问,只需使用 Google AI Studio 上的“build mode”即可。进入平台后,您只需输入提示,即可基于 Gemini 2.5 Flash Image 设计您想要的图像生成/编辑应用程序。想想换脸或换衣服。
Gemini Flash 2.5 Image动手实践
由于使用提示进行 AI 图像生成非常简单,我决定尝试全新的 Gemini Flash 2.5 Image 的所有独特卖点,当然,除了基本的图像生成功能之外。亲自查看结果:
1. 生成新图像
这是我使用 Gemini 2.5 Pro Flash 生成的两张图片。一张是来自喜马偕尔邦山区的 25 岁男孩,另一张是一只加迪犬。提示如下:
提示词 1:give me a portrait image of an Chinese boy, around the age of 25, hailing from GuangZhou. The boy has dense, black hair and black eyes, and is wearing a super cool solid White shirt
提示词 2:Please give me a portrait of a Chinese native dog, black, with thick fur, and larger than the average street dog.
输出:


虽然结果明显是人工智能生成的,但我还是会给 nano-banana 打满分。这完全是因为图像质量超高,对提示的描述精准,而且我在提示中从未提到要让图像过于逼真。
2. 图像合并
为了保持一致性,我在剩下的测试中对这两张图片进行了调整。所以我让模型将男孩和狗的两张图片在风景优美的背景下合并。提示如下:
提示词:show the boy and the dog playing in a huge open field against the backdrop of a river flowing in a valley and snow-capped mountains on the other side of the river
输出:

AI 模型花了不少时间才找到正确的输出结果。由于初始结果比例略有偏差,我反复尝试了各种提示和结果,才找到我想要的结果。但一旦找到,我简直惊呆了!所有细节都如我所说的一样精准,而且美观程度也达到了我的预期。
3. 图像编辑
图像生成和合并后,就到了编辑部分。为了测试这些,我首先使用 Gemini Flash 2.5 Image 在风景如画的场景中添加了一间小屋。提示如下:
提示词:in this image, show a small shed near the river at a distance
输出:

第一次尝试就完美无瑕。看来谷歌在 nano-banana 上投入了大量精力,尤其是在那些突出其优势的领域。
4. 保持角色一致性
这是大多数 AI 模型最难的部分。说实话,我对这个USP(独特卖点)非常怀疑。所以自然而然地,我也非常兴奋地想尝试一下。我让模型将图片中的整个场景改为海滩。提示如下:
提示词:show the boy and the dog running as they are in a beach instead of the current setting. the boy is now wearing shorts and a vest, and has a tattoo across his left-arm
输出:

Gemini 2.5 Flash Image 的表现相当出色,令人印象深刻。虽然经过反复尝试才达到理想的视觉效果,但新的图像模型几乎完美地还原了男孩和狗狗的细节。如果仔细观察,你会发现男孩的发型略有不同。其余部分在我看来几乎与之前的设置完全一样。我甚至尝试了“单臂纹身”的创意,看看 Gemini 的表现如何。我只能说,模型做得太棒了!
5. 构建基于Gemini 2.5 Flash Image的应用
为了在可重复生成和编辑图像的应用上测试 Gemini 2.5 Flash Image,我们在 Google AI Studio 的“构建模式”中使用了以下提示:
提示词:Create a Try on App, where users can upload their pictures and try various clothes to see how they look in them.

输出:您可以在此处查看我们构建的试穿应用程序。
小结
只需在全新 Gemini 2.5 Flash Image 上进行一系列图像生成和编辑,我就能明显感受到其更新和增强的功能。尤其让我兴奋的是该模型新增的图像合并功能。我可以预见,这项功能将在无数场景中为我个人带来帮助。对于大多数其他内容创作者而言,全新 Gemini 2.5 Flash Image 上的图像编辑和角色一致性功能将带来颠覆性的改变。
我们经常尝试使用这些全新的 AI 模型,以测试其能力的极限。因此,请务必持续关注本站,了解 AI 领域的最新动态。


评论留言