Gemini 2.5 Image(Nano Banana)擊敗所有影像編輯器!

Gemini 2.5 Image(Nano Banana)擊敗所有影像編輯器!

文章目录

  • Gemini 2.5 Flash Image是什麼?
  • Gemini 2.5 Flash Image功能
  • 保持字元一致性
  • 基於提示的影像編輯
  • 多影像融合
  • 原生世界知識
  • Gemini Flash 2.5影像可訪問性
  • 個人使用者
  • 開發者
  • Gemini Flash 2.5 Image動手實踐
  • 1. 生成新影像
  • 2. 影像合併
  • 3. 影像編輯
  • 4. 保持角色一致性
  • 5. 構建基於Gemini 2.5 Flash Image的應用
  • 小結

Nano Banana

Nano-Banana 是 Gemini 最新影像生成模型的名稱,也就是 Gemini 2.5 Flash Image。Gemini 2.5 Flash Image 或 nano-banana 不僅僅是一個影像生成模型,它還是一個影像編輯模型。為什麼?因為這次更新現在允許你將多張圖片混合成一張。至少它是這麼宣傳的,正如谷歌在介紹新 Gemini 影像生成模型的部落格中提到的那樣。

如果它能做到它所說的並且做得很好,我個人認識的十幾個人工智慧愛好者都會非常興奮地嘗試一下。如果您是 AI 影像生成的愛好者之一,這裡有您需要了解的有關新 Gemini 2.5 Flash Image 的所有資訊,以及我對其進行的實際實驗。

Gemini 2.5 Flash Image是什麼?

簡而言之,Gemini 2.5 Flash Image 是 Google 推出的全新影像生成和編輯模型。它是備受讚譽的 Gemini 2.0 Flash Image 影像生成模型的更新,使其速度更快、效能更佳,並新增了影像編輯功能。

具體來說,全新的 Gemini 2.5 Flash Image 可以將多幅影像融合為一幅,保持字元一致性,並對影像進行有針對性的變換。正如 Google 所說,該模型利用 Gemini 的“世界知識”來生成和編輯影像。

讓我們更詳細地探討一下這些功能。

Gemini 2.5 Flash Image功能

保持字元一致性

幾乎所有使用過 AI 生成影像的人都會遇到這個問題。單獨的影像提示通常效果很好。但當你希望某個特定元素在一組影像中原樣顯示時,幾乎所有已知的 AI 模型都會失效。

Google 聲稱已經透過全新的 Gemini 2.5 Flash Image 解決了這個問題。以下是關於 nano-banana 在這方面功能的描述:

“現在,您可以將同一個角色放置在不同的環境中,在新的場景中從多個角度展示同一款產品,或者生成一致的品牌資產,同時保留主題。”

它成功了嗎?很快,在我使用該模型的親身體驗中就能找到答案。

基於提示的影像編輯

這很像“Photoshop”在影像中新增/刪除特定元素,但只需簡單的提示即可。正如谷歌所聲稱的那樣,Gemini 2.5 Flash Image 可以“模糊影像背景、去除 T 恤上的汙漬、從照片中移除整個人物”,以及更多其他功能。

如果效能出色,結合自然語言提示的精確區域性編輯功能使其成為一個強大的 AI 模型。別擔心,我們很快就會在實際操作中試用它。

多影像融合

這似乎是 Gemini 2.5 Flash Image 的最新熱門更新。谷歌表示,Nano-Banana 可以“理解併合並多張輸入影像”,這意味著你現在只需一個提示就能融合影像。比如,把錯過活動的人新增到合影中,把一個物體放入場景中,或者任何你能想到的用途。只需一個簡單的提示即可。

動手載入。敬請期待!

原生世界知識

人工智慧模型缺乏對現實世界的深度語義理解。它們生成的幾乎所有美學影像都源於訓練資料。谷歌聲稱已經繞過了這個問題,因為新的奈米香蕉模型“受益於 Gemini 的世界知識”。

谷歌沒有透露更多有關這一功能如何實現的資訊,但表示這項功能為 Gemini 2.5 Flash 影像模型解鎖了新的用例。不用擔心,我們很快就會對其進行全面測試。

在此之前,以下是如何訪問新的 Gemini Flash 2.5 影像的方法

Gemini Flash 2.5影像可訪問性

全新 Google nano-banana 或 Gemini Flash 2.5 影像現已透過 Gemini 應用或網站面向個人使用者開放。

個人使用者

您可以直接在手機上下載該應用,或訪問 gemini.google.com,選擇頂部的 2.5 Flash,然後點選“Tools”部分下的“Create Images”即可訪問該模型。

開發者

開發者可以透過 Gemini API 和 Google AI Studio 訪問該工具,企業客戶可以透過 Vertex AI 訪問該工具。

透過 API 訪問,請按以下步驟操作:

1. 安裝所需庫

使用 pip 安裝最新版本的 Google 生成式人工智慧 SDK,並確保已安裝用於影像處理的 PIL (Pillow):

pip install google-generativeai pillow

此命令將在指令碼開始時匯入所有必需的庫,以確保指令碼順利執行。

2. 驗證您的API訪問許可權

透過將 API 金鑰(如果需要)匯出為環境變數或透過雲身份提供商進行身份驗證來設定身份驗證,以便 genai SDK 可以訪問 Google 的生成式 AI 端點:

import os
os.environ["GOOGLE_API_KEY"] = ""

確保您的 API 帳戶處於活動狀態,並具有足夠的請求配額。

3. 配置並呼叫模型

初始化客戶端,將模型設定為“gemini-2.5-flash-image-preview”,並使用 SDK 的內容生成方法傳遞相關提示:

from google import genai
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt],
)

4. 解析並儲存生成的影像

遍歷響應以檢查文字和影像輸出,然後使用 PIL 儲存生成的影像:

from PIL import Image
from io import BytesIO
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")

要透過 Google AI Studio 訪問,只需使用 Google AI Studio 上的“build mode”即可。進入平臺後,您只需輸入提示,即可基於 Gemini 2.5 Flash Image 設計您想要的影像生成/編輯應用程式。想想換臉或換衣服。

Gemini Flash 2.5 Image動手實踐

由於使用提示進行 AI 影像生成非常簡單,我決定嘗試全新的 Gemini Flash 2.5 Image 的所有獨特賣點,當然,除了基本的影像生成功能之外。親自檢視結果:

1. 生成新影像

這是我使用 Gemini 2.5 Pro Flash 生成的兩張圖片。一張是來自喜馬偕爾邦山區的 25 歲男孩,另一張是一隻加迪犬。提示如下:

提示詞 1:give me a portrait image of an Chinese boy, around the age of 25, hailing from GuangZhou. The boy has dense, black hair and black eyes, and is wearing a super cool solid White shirt

提示詞 2:Please give me a portrait of a Chinese native dog, black, with thick fur, and larger than the average street dog.

輸出:

中國男孩

中華田園犬

雖然結果明顯是人工智慧生成的,但我還是會給 nano-banana 打滿分。這完全是因為影像質量超高,對提示的描述精準,而且我在提示中從未提到要讓影像過於逼真。

2. 影像合併

為了保持一致性,我在剩下的測試中對這兩張圖片進行了調整。所以我讓模型將男孩和狗的兩張圖片在風景優美的背景下合併。提示如下:

提示詞:show the boy and the dog playing in a huge open field against the backdrop of a river flowing in a valley and snow-capped mountains on the other side of the river

輸出:

男孩和狗

AI 模型花了不少時間才找到正確的輸出結果。由於初始結果比例略有偏差,我反覆嘗試了各種提示和結果,才找到我想要的結果。但一旦找到,我簡直驚呆了!所有細節都如我所說的一樣精準,而且美觀程度也達到了我的預期。

3. 影像編輯

影像生成和合並後,就到了編輯部分。為了測試這些,我首先使用 Gemini Flash 2.5 Image 在風景如畫的場景中新增了一間小屋。提示如下:

提示詞:in this image, show a small shed near the river at a distance

輸出:

男孩和狗

第一次嘗試就完美無瑕。看來谷歌在 nano-banana 上投入了大量精力,尤其是在那些突出其優勢的領域。

4. 保持角色一致性

這是大多數 AI 模型最難的部分。說實話,我對這個USP(獨特賣點)非常懷疑。所以自然而然地,我也非常興奮地想嘗試一下。我讓模型將圖片中的整個場景改為海灘。提示如下:

提示詞:show the boy and the dog running as they are in a beach instead of the current setting. the boy is now wearing shorts and a vest, and has a tattoo across his left-arm

輸出:

海灘上的男孩和狗

Gemini 2.5 Flash Image 的表現相當出色,令人印象深刻。雖然經過反覆嘗試才達到理想的視覺效果,但新的影像模型幾乎完美地還原了男孩和狗狗的細節。如果仔細觀察,你會發現男孩的髮型略有不同。其餘部分在我看來幾乎與之前的設定完全一樣。我甚至嘗試了“單臂紋身”的創意,看看 Gemini 的表現如何。我只能說,模型做得太棒了!

5. 構建基於Gemini 2.5 Flash Image的應用

為了在可重複生成和編輯影像的應用上測試 Gemini 2.5 Flash Image,我們在 Google AI Studio 的“構建模式”中使用了以下提示:

提示詞:Create a Try on App, where users can upload their pictures and try various clothes to see how they look in them.

Google-Nano-banana

輸出:您可以在此處檢視我們構建的試穿應用程式

小結

只需在全新 Gemini 2.5 Flash Image 上進行一系列影像生成和編輯,我就能明顯感受到其更新和增強的功能。尤其讓我興奮的是該模型新增的影像合併功能。我可以預見,這項功能將在無數場景中為我個人帶來幫助。對於大多數其他內容創作者而言,全新 Gemini 2.5 Flash Image 上的影像編輯和角色一致性功能將帶來顛覆性的改變。

我們經常嘗試使用這些全新的 AI 模型,以測試其能力的極限。因此,請務必持續關注本站,瞭解 AI 領域的最新動態。

評論留言