
Nano-Banana 是 Gemini 最新影像生成模型的名稱,也就是 Gemini 2.5 Flash Image。Gemini 2.5 Flash Image 或 nano-banana 不僅僅是一個影像生成模型,它還是一個影像編輯模型。為什麼?因為這次更新現在允許你將多張圖片混合成一張。至少它是這麼宣傳的,正如谷歌在介紹新 Gemini 影像生成模型的部落格中提到的那樣。
如果它能做到它所說的並且做得很好,我個人認識的十幾個人工智慧愛好者都會非常興奮地嘗試一下。如果您是 AI 影像生成的愛好者之一,這裡有您需要了解的有關新 Gemini 2.5 Flash Image 的所有資訊,以及我對其進行的實際實驗。
Gemini 2.5 Flash Image是什麼?
簡而言之,Gemini 2.5 Flash Image 是 Google 推出的全新影像生成和編輯模型。它是備受讚譽的 Gemini 2.0 Flash Image 影像生成模型的更新,使其速度更快、效能更佳,並新增了影像編輯功能。
具體來說,全新的 Gemini 2.5 Flash Image 可以將多幅影像融合為一幅,保持字元一致性,並對影像進行有針對性的變換。正如 Google 所說,該模型利用 Gemini 的“世界知識”來生成和編輯影像。
讓我們更詳細地探討一下這些功能。
Gemini 2.5 Flash Image功能
保持字元一致性
幾乎所有使用過 AI 生成影像的人都會遇到這個問題。單獨的影像提示通常效果很好。但當你希望某個特定元素在一組影像中原樣顯示時,幾乎所有已知的 AI 模型都會失效。
Google 聲稱已經透過全新的 Gemini 2.5 Flash Image 解決了這個問題。以下是關於 nano-banana 在這方面功能的描述:
“現在,您可以將同一個角色放置在不同的環境中,在新的場景中從多個角度展示同一款產品,或者生成一致的品牌資產,同時保留主題。”
它成功了嗎?很快,在我使用該模型的親身體驗中就能找到答案。
基於提示的影像編輯
這很像“Photoshop”在影像中新增/刪除特定元素,但只需簡單的提示即可。正如谷歌所聲稱的那樣,Gemini 2.5 Flash Image 可以“模糊影像背景、去除 T 恤上的汙漬、從照片中移除整個人物”,以及更多其他功能。
如果效能出色,結合自然語言提示的精確區域性編輯功能使其成為一個強大的 AI 模型。別擔心,我們很快就會在實際操作中試用它。
多影像融合
這似乎是 Gemini 2.5 Flash Image 的最新熱門更新。谷歌表示,Nano-Banana 可以“理解併合並多張輸入影像”,這意味著你現在只需一個提示就能融合影像。比如,把錯過活動的人新增到合影中,把一個物體放入場景中,或者任何你能想到的用途。只需一個簡單的提示即可。
動手載入。敬請期待!
原生世界知識
人工智慧模型缺乏對現實世界的深度語義理解。它們生成的幾乎所有美學影像都源於訓練資料。谷歌聲稱已經繞過了這個問題,因為新的奈米香蕉模型“受益於 Gemini 的世界知識”。
谷歌沒有透露更多有關這一功能如何實現的資訊,但表示這項功能為 Gemini 2.5 Flash 影像模型解鎖了新的用例。不用擔心,我們很快就會對其進行全面測試。
在此之前,以下是如何訪問新的 Gemini Flash 2.5 影像的方法
Gemini Flash 2.5影像可訪問性
全新 Google nano-banana 或 Gemini Flash 2.5 影像現已透過 Gemini 應用或網站面向個人使用者開放。
個人使用者
您可以直接在手機上下載該應用,或訪問 gemini.google.com,選擇頂部的 2.5 Flash,然後點選“Tools”部分下的“Create Images”即可訪問該模型。
開發者
開發者可以透過 Gemini API 和 Google AI Studio 訪問該工具,企業客戶可以透過 Vertex AI 訪問該工具。
透過 API 訪問,請按以下步驟操作:
1. 安裝所需庫
使用 pip 安裝最新版本的 Google 生成式人工智慧 SDK,並確保已安裝用於影像處理的 PIL (Pillow):
pip install google-generativeai pillow
此命令將在指令碼開始時匯入所有必需的庫,以確保指令碼順利執行。
2. 驗證您的API訪問許可權
透過將 API 金鑰(如果需要)匯出為環境變數或透過雲身份提供商進行身份驗證來設定身份驗證,以便 genai SDK 可以訪問 Google 的生成式 AI 端點:
import os os.environ["GOOGLE_API_KEY"] = ""
確保您的 API 帳戶處於活動狀態,並具有足夠的請求配額。
3. 配置並呼叫模型
初始化客戶端,將模型設定為“gemini-2.5-flash-image-preview”,並使用 SDK 的內容生成方法傳遞相關提示:
from google import genai client = genai.Client() prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme" response = client.models.generate_content( model="gemini-2.5-flash-image-preview", contents=[prompt], )
4. 解析並儲存生成的影像
遍歷響應以檢查文字和影像輸出,然後使用 PIL 儲存生成的影像:
from PIL import Image
from io import BytesIO
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
要透過 Google AI Studio 訪問,只需使用 Google AI Studio 上的“build mode”即可。進入平臺後,您只需輸入提示,即可基於 Gemini 2.5 Flash Image 設計您想要的影像生成/編輯應用程式。想想換臉或換衣服。
Gemini Flash 2.5 Image動手實踐
由於使用提示進行 AI 影像生成非常簡單,我決定嘗試全新的 Gemini Flash 2.5 Image 的所有獨特賣點,當然,除了基本的影像生成功能之外。親自檢視結果:
1. 生成新影像
這是我使用 Gemini 2.5 Pro Flash 生成的兩張圖片。一張是來自喜馬偕爾邦山區的 25 歲男孩,另一張是一隻加迪犬。提示如下:
提示詞 1:give me a portrait image of an Chinese boy, around the age of 25, hailing from GuangZhou. The boy has dense, black hair and black eyes, and is wearing a super cool solid White shirt
提示詞 2:Please give me a portrait of a Chinese native dog, black, with thick fur, and larger than the average street dog.
輸出:


雖然結果明顯是人工智慧生成的,但我還是會給 nano-banana 打滿分。這完全是因為影像質量超高,對提示的描述精準,而且我在提示中從未提到要讓影像過於逼真。
2. 影像合併
為了保持一致性,我在剩下的測試中對這兩張圖片進行了調整。所以我讓模型將男孩和狗的兩張圖片在風景優美的背景下合併。提示如下:
提示詞:show the boy and the dog playing in a huge open field against the backdrop of a river flowing in a valley and snow-capped mountains on the other side of the river
輸出:

AI 模型花了不少時間才找到正確的輸出結果。由於初始結果比例略有偏差,我反覆嘗試了各種提示和結果,才找到我想要的結果。但一旦找到,我簡直驚呆了!所有細節都如我所說的一樣精準,而且美觀程度也達到了我的預期。
3. 影像編輯
影像生成和合並後,就到了編輯部分。為了測試這些,我首先使用 Gemini Flash 2.5 Image 在風景如畫的場景中新增了一間小屋。提示如下:
提示詞:in this image, show a small shed near the river at a distance
輸出:

第一次嘗試就完美無瑕。看來谷歌在 nano-banana 上投入了大量精力,尤其是在那些突出其優勢的領域。
4. 保持角色一致性
這是大多數 AI 模型最難的部分。說實話,我對這個USP(獨特賣點)非常懷疑。所以自然而然地,我也非常興奮地想嘗試一下。我讓模型將圖片中的整個場景改為海灘。提示如下:
提示詞:show the boy and the dog running as they are in a beach instead of the current setting. the boy is now wearing shorts and a vest, and has a tattoo across his left-arm
輸出:

Gemini 2.5 Flash Image 的表現相當出色,令人印象深刻。雖然經過反覆嘗試才達到理想的視覺效果,但新的影像模型幾乎完美地還原了男孩和狗狗的細節。如果仔細觀察,你會發現男孩的髮型略有不同。其餘部分在我看來幾乎與之前的設定完全一樣。我甚至嘗試了“單臂紋身”的創意,看看 Gemini 的表現如何。我只能說,模型做得太棒了!
5. 構建基於Gemini 2.5 Flash Image的應用
為了在可重複生成和編輯影像的應用上測試 Gemini 2.5 Flash Image,我們在 Google AI Studio 的“構建模式”中使用了以下提示:
提示詞:Create a Try on App, where users can upload their pictures and try various clothes to see how they look in them.

輸出:您可以在此處檢視我們構建的試穿應用程式。
小結
只需在全新 Gemini 2.5 Flash Image 上進行一系列影像生成和編輯,我就能明顯感受到其更新和增強的功能。尤其讓我興奮的是該模型新增的影像合併功能。我可以預見,這項功能將在無數場景中為我個人帶來幫助。對於大多數其他內容創作者而言,全新 Gemini 2.5 Flash Image 上的影像編輯和角色一致性功能將帶來顛覆性的改變。
我們經常嘗試使用這些全新的 AI 模型,以測試其能力的極限。因此,請務必持續關注本站,瞭解 AI 領域的最新動態。

評論留言