Nano Banana Pro vs ChatGPT Image 1.5深度測評:誰才是AI生圖的首選?

Nano Banana Pro vs ChatGPT Image 1.5深度測評:誰才是AI生圖的首選?

文章目录

  • 什麼是GPT Image 1.5?
  • 什麼是Nano-Banana Pro?
  • 終極挑戰:讓我們來製作一些影像
  • 任務 1:多步驟影像編輯及狀態保持
  • 任務 2:單條提示中的密集指令執行
  • 任務 3:具有實際應用價值的技術圖表
  • 任務 4:多幅影像的風格一致性
  • 任務 5:照片級寫實與藝術指導的權衡
  • 結論
  • 常見問題解答

 

Nano Banana Pro vs ChatGPT Image 1.5 深度測評:誰才是AI生圖的首選?

隨著 ChatGPT 最新模型席捲全球,您或許會好奇老牌產品 Nano Banana Pro 的現狀。Nano Banana 讓所有使用者都能體驗到專業級的影像生成和編輯功能,是人們在進行 AI 影像生成時首選的工具。

但這種情況是否依然存在?未來是否依然如此?本文將透過對 ChatGPT Image 和 Nano Banana 最新版本進行一系列挑戰性任務的測試,來揭曉答案,看看哪款產品表現更佳。

什麼是GPT Image 1.5?

ChatGPT Image 1.5 是 OpenAI 最新推出的影像生成模型,旨在快速、精準地將創意轉化為視覺影像。無論使用者是根據空白提示進行創作,還是編輯現有照片,該模型都能提供與預期效果高度一致的結果。它支援精確編輯,同時保留影像細節,並且影像生成速度比以往版本快 4 倍。

GPT Image 1.5

Source: ChatGPT

該型號在 ChatGPT 中引入了全新的影像體驗,讓影像的建立和最佳化變得輕鬆便捷。

什麼是Nano-Banana Pro?

Nano Banana Pro 在原版 Nano Banana 的基礎上進行了重大升級,新增了高階文字渲染功能,可實現清晰的影像文字;對光照、拍攝角度和寬高比進行了精確的編輯控制;支援清晰的 2K 解析度輸出;增強了世界知識庫,可生成更精準的圖表和資訊圖;並能夠無縫組合更多照片。它繼承了基礎型號的所有優點,並將其提升至專業級,助力使用者創作高質量的創意作品。

Nano-Banana Pro

Source: DeepMind

終極挑戰:讓我們來製作一些影像

這些影像生成模型本身就非常先進。測試它們生成徽標和毛絨玩具的效果對它們來說簡直是小菜一碟,根本無法真正檢驗它們的強大功能。

因此,我將使用以下複雜任務來測試它們:

任務 1:多步驟影像編輯及狀態保持

測試內容:模型能否在多次編輯過程中保持場景特徵、光照一致性和物體位置。大多數模型在多次編輯疊加時都會降低影像質量或“重置”影像。

我使用了以下影像作為輸入:

客廳照片

現在我會逐步進行修改,並判斷該模型在多大程度上保留了影像的完整性。

Change the time of day from Night to Day.(將時間從夜晚改為白天。)

分別使用Nano Banana Pro和ChatGPT Image 1.5修改照片時間

Replace the sofa with a Wooden sofa set.(把沙發換成木質沙發。)

分別使用Nano Banana Pro和ChatGPT Image 1.5修改照片物體

Adjust the camera angle to the perspective from the open space outside. From the glass doors visible in the image looking inside the room.(調整相機角度,從室外空曠的空間視角,也就是從圖中可見的玻璃門向房間內部看去的視角。)

分別使用Nano Banana Pro和ChatGPT Image 1.5修改照片拍照角度

點評:

與 ChatGPT Image 1.5 相比,Nano Banana Pro 的輸出效果更好。ChatGPT 的響應影像中存在以下錯誤,凸顯了這一點:

  1. 在從夜晚切換到白天時,建築物的背景與原圖有所不同。
  2. 當沙發被替換為木質沙發組合時,茶几的結構也發生了變化。

在最後一個任務中,兩個模型都未能生成一張勉強合格的影像。

有趣的是:輸入影像竟然是由 ChatGPT Image 自己生成的!但它在任務中的表現仍然不盡如人意。

任務 2:單條提示中的密集指令執行

此任務測試:在約束條件下對提示的執行能力、文字渲染的準確性以及構圖規劃能力。模型通常只能正確處理一兩個細節,而忽略其餘部分。

Generate a poster for a tech conference with:1. Three speakers, each with distinct clothing, age, and ethnicity2. Accurate name placement under each person3. A specific color palette limited to four colors4. A background that subtly references AI without using obvious symbols like robots or brains(請為一場科技會議設計一張海報,內容包括:1. 三位演講者,每位演講者的著裝、年齡和種族各不相同;2. 每位演講者下方準確標註姓名;3. 使用不超過四種顏色的特定配色方案;4. 背景設計巧妙地融入人工智慧元素,但避免使用機器人或大腦等明顯的符號。)

響應:

分別使用Nano Banana Pro和ChatGPT Image 1.5生成科技會議海報

點評:

Nano Banana Pro 生成的海報可以用於宣傳技術會議,而 ChatGPT Image 的輸出看起來更像是 Photoshop 初學者的作品。

任務 3:具有實際應用價值的技術圖表

此任務測試內容:世界知識、圖表邏輯、空間推理和文字清晰度。如果模型不能真正理解結構,那麼“漂亮”的模型在這裡就會徹底失敗。

Create a labeled infographic explaining how a transformer-based language model processes text, including:1. Tokenization2. Attention layers3. Embeddings4. Output probabilitiesAll labels must be readable and placed correctly.(建立一個帶有標籤的資訊圖,解釋基於 Transformer 的語言模型如何處理文字,包括:1. 分詞;2. 注意力層;3. 詞嵌入;4. 輸出機率。所有標籤必須清晰易讀且位置正確。)

響應:

分別使用Nano Banana Pro和ChatGPT Image 1.5生成技術圖表

點評:

兩張資訊圖都存在一些缺陷。Nano Banana Pro 相對而言更好一些。它的錯誤很少,視覺效果也恰到好處,文字搭配也比較合理。這使得它更容易理解。ChatGPT Image 1.5 則完全採用了視覺呈現的方式。但考慮到其中多餘的步驟(第四步)以及缺乏解釋的視覺元素,讀者很難理解其所傳達的資訊。

任務 4:多幅影像的風格一致性

此任務測試:角色身份的保持性和風格的連貫性。這是目前影像生成領域最難的問題之一。

Generate a three-image storyboard for a short film:Frame 1: Opening sceneFrame 2: ConflictFrame 3: ResolutionThe same character must appear in all three frames with consistent facial features, clothing, and proportions, while lighting and camera angles change.(請為一部短片生成一個包含三幅影像的故事板:第一幀:開場場景;第二幀:衝突;第三幀:解決。同一角色必須出現在所有三幀中,並且面部特徵、服裝和身材比例保持一致,同時光線和拍攝角度會有所變化。)

響應:

分別使用Nano Banana Pro和ChatGPT Image 1.5生成風格一致的圖片

點評:

故事板的含義如下:

  • 一系列圖畫,通常包含一些指示和對話,代表電影或電視製作中計劃的鏡頭。

當我要求提供故事板時,我希望影像中能隱含一些指示,或者輔以文字說明。ChatGPT Image 1.5 的回覆將所有內容都塞進一張圖中,這本身就很乏味。

Nano Banana Pro 不僅提供了多張顯示指示的影像,還新增了文字說明,解釋了影像之間的過渡。非常出色的回覆。

Nano Banana Pro對生成風格一致的圖片進行說明

任務 5:照片級寫實與藝術指導的權衡

本任務測試內容:精細渲染、文字清晰度、材質真實感,以及在藝術光影與商業準確性之間取得平衡的能力。

Create a product shot of a smartwatch that:1. Looks photorealistic enough for an e-commerce site2. Uses dramatic, studio-style lighting3. Includes engraved text on the dial that remains sharp and readable4. Maintains correct reflections and material properties(請創作一張智慧手錶產品圖,使其:1. 達到電商網站所需的照片級寫實效果;2. 使用戲劇化的影棚風格燈光;3. 錶盤上的雕刻文字清晰易讀;4. 保持正確的反射效果和材質屬性。)

響應:

分別使用Nano Banana Pro和ChatGPT Image 1.5生成實物照片

點評:

Nano Banana Pro 生成的影像類似於智慧手錶的釋出畫面。ChatGPT Image 生成的影像則像一塊模擬手錶,卻被冠以智慧手錶之名,而且它並沒有透過設計來體現智慧,而是在錶盤邊緣生硬地印上了“Smartwatch”(智慧手錶)字樣。

結論

以下是我在使用這兩個影像生成模型時的一些發現:

  • 顯而易見的是,Nano Banana Pro 的速度遠超 ChatGPT Image 1.5。當提示資訊複雜或包含多個步驟時,這種等待時間的差異尤為明顯。
  • ChatGPT 的影像介面非常不穩定。有時它執行完美,讓人幾乎感覺不到它的存在。而有時,你甚至很難從中生成影像。這種體驗上的差異令人震驚。
  • ChatGPT Image 的功能僅限於生成單張圖片。從任務 4 可以看出,當需要多張或多級影像時,ChatGPT Image 1.5 的表現令人失望。即使進行再複雜的提示設計,模型也只能顯示一張影像。而 Nano Banana Pro 顯然沒有這些限制。

綜上所述,Nano Banana Pro 依然保持著當初使其成為主流模型的優勢。雖然 ChatGPT Image 1.5 在基於文字的視覺呈現方面有所進步,但在其他方面的表現卻差強人意。

常見問題解答

問題1:什麼是 ChatGPT Image 1.5?

答:ChatGPT Image 1.5 是 OpenAI 最新的影像生成模型,它能將提示資訊或現有照片轉化為高精度、高生成速度且可進行精細編輯的影像,同時保持影像的一致性。

問題2:Nano Banana Pro 與早期版本有何不同?

答:Nano Banana Pro 增加了高階文字渲染、對光照和相機角度的精確控制、2K 解析度輸出、更強大的世界知識庫以及更出色的多影像合成功能,可用於專業級創意作品。

問題3:哪個工具在複雜的影像處理任務中表現更佳?

答:Nano Banana Pro 在速度、多步驟編輯、處理包含大量文字的影像以及多影像一致性方面始終優於 ChatGPT Image 1.5,而 ChatGPT Image 在處理複雜提示資訊和介面穩定性方面表現欠佳。

評論留言