Gemini 2.5 Image（Nano Banana）擊敗所有影像編輯器！

Nano Banana

Nano-Banana 是 Gemini 最新影像生成模型的名稱，也就是 Gemini 2.5 Flash Image。Gemini 2.5 Flash Image 或 nano-banana 不僅僅是一個影像生成模型，它還是一個影像編輯模型。為什麼？因為這次更新現在允許你將多張圖片混合成一張。至少它是這麼宣傳的，正如谷歌在介紹新 Gemini 影像生成模型的部落格中提到的那樣。

如果它能做到它所說的並且做得很好，我個人認識的十幾個人工智慧愛好者都會非常興奮地嘗試一下。如果您是 AI 影像生成的愛好者之一，這裡有您需要了解的有關新 Gemini 2.5 Flash Image 的所有資訊，以及我對其進行的實際實驗。

Gemini 2.5 Flash Image是什麼？

簡而言之，Gemini 2.5 Flash Image 是 Google 推出的全新影像生成和編輯模型。它是備受讚譽的 Gemini 2.0 Flash Image 影像生成模型的更新，使其速度更快、效能更佳，並新增了影像編輯功能。

具體來說，全新的 Gemini 2.5 Flash Image 可以將多幅影像融合為一幅，保持字元一致性，並對影像進行有針對性的變換。正如 Google 所說，該模型利用 Gemini 的“世界知識”來生成和編輯影像。

讓我們更詳細地探討一下這些功能。

Gemini 2.5 Flash Image功能

保持字元一致性

幾乎所有使用過 AI 生成影像的人都會遇到這個問題。單獨的影像提示通常效果很好。但當你希望某個特定元素在一組影像中原樣顯示時，幾乎所有已知的 AI 模型都會失效。

Google 聲稱已經透過全新的 Gemini 2.5 Flash Image 解決了這個問題。以下是關於 nano-banana 在這方面功能的描述：

“現在，您可以將同一個角色放置在不同的環境中，在新的場景中從多個角度展示同一款產品，或者生成一致的品牌資產，同時保留主題。”

它成功了嗎？很快，在我使用該模型的親身體驗中就能找到答案。

基於提示的影像編輯

這很像“Photoshop”在影像中新增/刪除特定元素，但只需簡單的提示即可。正如谷歌所聲稱的那樣，Gemini 2.5 Flash Image 可以“模糊影像背景、去除 T 恤上的汙漬、從照片中移除整個人物”，以及更多其他功能。

如果效能出色，結合自然語言提示的精確區域性編輯功能使其成為一個強大的 AI 模型。別擔心，我們很快就會在實際操作中試用它。

多影像融合

這似乎是 Gemini 2.5 Flash Image 的最新熱門更新。谷歌表示，Nano-Banana 可以“理解併合並多張輸入影像”，這意味著你現在只需一個提示就能融合影像。比如，把錯過活動的人新增到合影中，把一個物體放入場景中，或者任何你能想到的用途。只需一個簡單的提示即可。

動手載入。敬請期待！

原生世界知識

人工智慧模型缺乏對現實世界的深度語義理解。它們生成的幾乎所有美學影像都源於訓練資料。谷歌聲稱已經繞過了這個問題，因為新的奈米香蕉模型“受益於 Gemini 的世界知識”。

谷歌沒有透露更多有關這一功能如何實現的資訊，但表示這項功能為 Gemini 2.5 Flash 影像模型解鎖了新的用例。不用擔心，我們很快就會對其進行全面測試。

在此之前，以下是如何訪問新的 Gemini Flash 2.5 影像的方法

Gemini Flash 2.5影像可訪問性

全新 Google nano-banana 或 Gemini Flash 2.5 影像現已透過 Gemini 應用或網站面向個人使用者開放。

個人使用者

您可以直接在手機上下載該應用，或訪問 gemini.google.com，選擇頂部的 2.5 Flash，然後點選“Tools”部分下的“Create Images”即可訪問該模型。

開發者

開發者可以透過 Gemini API 和 Google AI Studio 訪問該工具，企業客戶可以透過 Vertex AI 訪問該工具。

透過 API 訪問，請按以下步驟操作：

1. 安裝所需庫

使用 pip 安裝最新版本的 Google 生成式人工智慧 SDK，並確保已安裝用於影像處理的 PIL (Pillow)：

pip install google-generativeai pillow

此命令將在指令碼開始時匯入所有必需的庫，以確保指令碼順利執行。

2. 驗證您的API訪問許可權

透過將 API 金鑰（如果需要）匯出為環境變數或透過雲身份提供商進行身份驗證來設定身份驗證，以便 genai SDK 可以訪問 Google 的生成式 AI 端點：

import os
os.environ["GOOGLE_API_KEY"] = ""

確保您的 API 帳戶處於活動狀態，並具有足夠的請求配額。

3. 配置並呼叫模型

初始化客戶端，將模型設定為“gemini-2.5-flash-image-preview”，並使用 SDK 的內容生成方法傳遞相關提示：

from google import genai
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt],
)

4. 解析並儲存生成的影像

遍歷響應以檢查文字和影像輸出，然後使用 PIL 儲存生成的影像：

from PIL import Image
from io import BytesIO
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")

要透過 Google AI Studio 訪問，只需使用 Google AI Studio 上的“build mode”即可。進入平臺後，您只需輸入提示，即可基於 Gemini 2.5 Flash Image 設計您想要的影像生成/編輯應用程式。想想換臉或換衣服。

Gemini Flash 2.5 Image動手實踐

由於使用提示進行 AI 影像生成非常簡單，我決定嘗試全新的 Gemini Flash 2.5 Image 的所有獨特賣點，當然，除了基本的影像生成功能之外。親自檢視結果：

1. 生成新影像

這是我使用 Gemini 2.5 Pro Flash 生成的兩張圖片。一張是來自喜馬偕爾邦山區的 25 歲男孩，另一張是一隻加迪犬。提示如下：

提示詞 1：give me a portrait image of an Chinese boy, around the age of 25, hailing from GuangZhou. The boy has dense, black hair and black eyes, and is wearing a super cool solid White shirt

提示詞 2：Please give me a portrait of a Chinese native dog, black, with thick fur, and larger than the average street dog.

輸出：

中國男孩

中華田園犬

雖然結果明顯是人工智慧生成的，但我還是會給 nano-banana 打滿分。這完全是因為影像質量超高，對提示的描述精準，而且我在提示中從未提到要讓影像過於逼真。

2. 影像合併

為了保持一致性，我在剩下的測試中對這兩張圖片進行了調整。所以我讓模型將男孩和狗的兩張圖片在風景優美的背景下合併。提示如下：

提示詞：show the boy and the dog playing in a huge open field against the backdrop of a river flowing in a valley and snow-capped mountains on the other side of the river

輸出：

男孩和狗

AI 模型花了不少時間才找到正確的輸出結果。由於初始結果比例略有偏差，我反覆嘗試了各種提示和結果，才找到我想要的結果。但一旦找到，我簡直驚呆了！所有細節都如我所說的一樣精準，而且美觀程度也達到了我的預期。

3. 影像編輯

影像生成和合並後，就到了編輯部分。為了測試這些，我首先使用 Gemini Flash 2.5 Image 在風景如畫的場景中新增了一間小屋。提示如下：

提示詞：in this image, show a small shed near the river at a distance

輸出：

男孩和狗

第一次嘗試就完美無瑕。看來谷歌在 nano-banana 上投入了大量精力，尤其是在那些突出其優勢的領域。

4. 保持角色一致性

這是大多數 AI 模型最難的部分。說實話，我對這個USP（獨特賣點）非常懷疑。所以自然而然地，我也非常興奮地想嘗試一下。我讓模型將圖片中的整個場景改為海灘。提示如下：

提示詞：show the boy and the dog running as they are in a beach instead of the current setting. the boy is now wearing shorts and a vest, and has a tattoo across his left-arm

輸出：

海灘上的男孩和狗

Gemini 2.5 Flash Image 的表現相當出色，令人印象深刻。雖然經過反覆嘗試才達到理想的視覺效果，但新的影像模型幾乎完美地還原了男孩和狗狗的細節。如果仔細觀察，你會發現男孩的髮型略有不同。其餘部分在我看來幾乎與之前的設定完全一樣。我甚至嘗試了“單臂紋身”的創意，看看 Gemini 的表現如何。我只能說，模型做得太棒了！

5. 構建基於Gemini 2.5 Flash Image的應用

為了在可重複生成和編輯影像的應用上測試 Gemini 2.5 Flash Image，我們在 Google AI Studio 的“構建模式”中使用了以下提示：

提示詞：Create a Try on App, where users can upload their pictures and try various clothes to see how they look in them.

Google-Nano-banana

輸出：您可以在此處檢視我們構建的試穿應用程式。

小結

只需在全新 Gemini 2.5 Flash Image 上進行一系列影像生成和編輯，我就能明顯感受到其更新和增強的功能。尤其讓我興奮的是該模型新增的影像合併功能。我可以預見，這項功能將在無數場景中為我個人帶來幫助。對於大多數其他內容創作者而言，全新 Gemini 2.5 Flash Image 上的影像編輯和角色一致性功能將帶來顛覆性的改變。

我們經常嘗試使用這些全新的 AI 模型，以測試其能力的極限。因此，請務必持續關注本站，瞭解 AI 領域的最新動態。

Gemini Google Nano Banana

Gemini 2.5 Image（Nano Banana）擊敗所有影像編輯器！

文章目录

Gemini 2.5 Flash Image是什麼？

Gemini 2.5 Flash Image功能

保持字元一致性

基於提示的影像編輯

多影像融合

原生世界知識

Gemini Flash 2.5影像可訪問性

個人使用者

開發者

1. 安裝所需庫

2. 驗證您的API訪問許可權

3. 配置並呼叫模型

4. 解析並儲存生成的影像

Gemini Flash 2.5 Image動手實踐

1. 生成新影像

2. 影像合併

3. 影像編輯

4. 保持角色一致性

5. 構建基於Gemini 2.5 Flash Image的應用

小結

評論留言

取消回覆

Gemini 2.5 Image（Nano Banana）擊敗所有影像編輯器！

文章目录

Gemini 2.5 Flash Image是什麼？

Gemini 2.5 Flash Image功能

保持字元一致性

基於提示的影像編輯

多影像融合

原生世界知識

Gemini Flash 2.5影像可訪問性

個人使用者

開發者

1. 安裝所需庫

2. 驗證您的API訪問許可權

3. 配置並呼叫模型

4. 解析並儲存生成的影像

Gemini Flash 2.5 Image動手實踐

1. 生成新影像

2. 影像合併

3. 影像編輯

4. 保持角色一致性

5. 構建基於Gemini 2.5 Flash Image的應用

小結

相關文章

評論留言

取消回覆