
隨著 ChatGPT 最新模型席捲全球,您或許會好奇老牌產品 Nano Banana Pro 的現狀。Nano Banana 讓所有使用者都能體驗到專業級的影像生成和編輯功能,是人們在進行 AI 影像生成時首選的工具。
但這種情況是否依然存在?未來是否依然如此?本文將透過對 ChatGPT Image 和 Nano Banana 最新版本進行一系列挑戰性任務的測試,來揭曉答案,看看哪款產品表現更佳。
什麼是GPT Image 1.5?
ChatGPT Image 1.5 是 OpenAI 最新推出的影像生成模型,旨在快速、精準地將創意轉化為視覺影像。無論使用者是根據空白提示進行創作,還是編輯現有照片,該模型都能提供與預期效果高度一致的結果。它支援精確編輯,同時保留影像細節,並且影像生成速度比以往版本快 4 倍。

Source: ChatGPT
該型號在 ChatGPT 中引入了全新的影像體驗,讓影像的建立和最佳化變得輕鬆便捷。
什麼是Nano-Banana Pro?
Nano Banana Pro 在原版 Nano Banana 的基礎上進行了重大升級,新增了高階文字渲染功能,可實現清晰的影像文字;對光照、拍攝角度和寬高比進行了精確的編輯控制;支援清晰的 2K 解析度輸出;增強了世界知識庫,可生成更精準的圖表和資訊圖;並能夠無縫組合更多照片。它繼承了基礎型號的所有優點,並將其提升至專業級,助力使用者創作高質量的創意作品。

Source: DeepMind
終極挑戰:讓我們來製作一些影像
這些影像生成模型本身就非常先進。測試它們生成徽標和毛絨玩具的效果對它們來說簡直是小菜一碟,根本無法真正檢驗它們的強大功能。
因此,我將使用以下複雜任務來測試它們:
任務 1:多步驟影像編輯及狀態保持
測試內容:模型能否在多次編輯過程中保持場景特徵、光照一致性和物體位置。大多數模型在多次編輯疊加時都會降低影像質量或“重置”影像。
我使用了以下影像作為輸入:

現在我會逐步進行修改,並判斷該模型在多大程度上保留了影像的完整性。
Change the time of day from Night to Day.(將時間從夜晚改為白天。)

Replace the sofa with a Wooden sofa set.(把沙發換成木質沙發。)

Adjust the camera angle to the perspective from the open space outside. From the glass doors visible in the image looking inside the room.(調整相機角度,從室外空曠的空間視角,也就是從圖中可見的玻璃門向房間內部看去的視角。)

點評:
與 ChatGPT Image 1.5 相比,Nano Banana Pro 的輸出效果更好。ChatGPT 的響應影像中存在以下錯誤,凸顯了這一點:
- 在從夜晚切換到白天時,建築物的背景與原圖有所不同。
- 當沙發被替換為木質沙發組合時,茶几的結構也發生了變化。
在最後一個任務中,兩個模型都未能生成一張勉強合格的影像。
有趣的是:輸入影像竟然是由 ChatGPT Image 自己生成的!但它在任務中的表現仍然不盡如人意。
任務 2:單條提示中的密集指令執行
此任務測試:在約束條件下對提示的執行能力、文字渲染的準確性以及構圖規劃能力。模型通常只能正確處理一兩個細節,而忽略其餘部分。
Generate a poster for a tech conference with:1. Three speakers, each with distinct clothing, age, and ethnicity2. Accurate name placement under each person3. A specific color palette limited to four colors4. A background that subtly references AI without using obvious symbols like robots or brains(請為一場科技會議設計一張海報,內容包括:1. 三位演講者,每位演講者的著裝、年齡和種族各不相同;2. 每位演講者下方準確標註姓名;3. 使用不超過四種顏色的特定配色方案;4. 背景設計巧妙地融入人工智慧元素,但避免使用機器人或大腦等明顯的符號。)
響應:

點評:
Nano Banana Pro 生成的海報可以用於宣傳技術會議,而 ChatGPT Image 的輸出看起來更像是 Photoshop 初學者的作品。
任務 3:具有實際應用價值的技術圖表
此任務測試內容:世界知識、圖表邏輯、空間推理和文字清晰度。如果模型不能真正理解結構,那麼“漂亮”的模型在這裡就會徹底失敗。
Create a labeled infographic explaining how a transformer-based language model processes text, including:1. Tokenization2. Attention layers3. Embeddings4. Output probabilitiesAll labels must be readable and placed correctly.(建立一個帶有標籤的資訊圖,解釋基於 Transformer 的語言模型如何處理文字,包括:1. 分詞;2. 注意力層;3. 詞嵌入;4. 輸出機率。所有標籤必須清晰易讀且位置正確。)
響應:

點評:
兩張資訊圖都存在一些缺陷。Nano Banana Pro 相對而言更好一些。它的錯誤很少,視覺效果也恰到好處,文字搭配也比較合理。這使得它更容易理解。ChatGPT Image 1.5 則完全採用了視覺呈現的方式。但考慮到其中多餘的步驟(第四步)以及缺乏解釋的視覺元素,讀者很難理解其所傳達的資訊。
任務 4:多幅影像的風格一致性
此任務測試:角色身份的保持性和風格的連貫性。這是目前影像生成領域最難的問題之一。
Generate a three-image storyboard for a short film:Frame 1: Opening sceneFrame 2: ConflictFrame 3: ResolutionThe same character must appear in all three frames with consistent facial features, clothing, and proportions, while lighting and camera angles change.(請為一部短片生成一個包含三幅影像的故事板:第一幀:開場場景;第二幀:衝突;第三幀:解決。同一角色必須出現在所有三幀中,並且面部特徵、服裝和身材比例保持一致,同時光線和拍攝角度會有所變化。)
響應:

點評:
故事板的含義如下:
- 一系列圖畫,通常包含一些指示和對話,代表電影或電視製作中計劃的鏡頭。
當我要求提供故事板時,我希望影像中能隱含一些指示,或者輔以文字說明。ChatGPT Image 1.5 的回覆將所有內容都塞進一張圖中,這本身就很乏味。
Nano Banana Pro 不僅提供了多張顯示指示的影像,還新增了文字說明,解釋了影像之間的過渡。非常出色的回覆。

任務 5:照片級寫實與藝術指導的權衡
本任務測試內容:精細渲染、文字清晰度、材質真實感,以及在藝術光影與商業準確性之間取得平衡的能力。
Create a product shot of a smartwatch that:1. Looks photorealistic enough for an e-commerce site2. Uses dramatic, studio-style lighting3. Includes engraved text on the dial that remains sharp and readable4. Maintains correct reflections and material properties(請創作一張智慧手錶產品圖,使其:1. 達到電商網站所需的照片級寫實效果;2. 使用戲劇化的影棚風格燈光;3. 錶盤上的雕刻文字清晰易讀;4. 保持正確的反射效果和材質屬性。)
響應:

點評:
Nano Banana Pro 生成的影像類似於智慧手錶的釋出畫面。ChatGPT Image 生成的影像則像一塊模擬手錶,卻被冠以智慧手錶之名,而且它並沒有透過設計來體現智慧,而是在錶盤邊緣生硬地印上了“Smartwatch”(智慧手錶)字樣。
結論
以下是我在使用這兩個影像生成模型時的一些發現:
- 顯而易見的是,Nano Banana Pro 的速度遠超 ChatGPT Image 1.5。當提示資訊複雜或包含多個步驟時,這種等待時間的差異尤為明顯。
- ChatGPT 的影像介面非常不穩定。有時它執行完美,讓人幾乎感覺不到它的存在。而有時,你甚至很難從中生成影像。這種體驗上的差異令人震驚。
- ChatGPT Image 的功能僅限於生成單張圖片。從任務 4 可以看出,當需要多張或多級影像時,ChatGPT Image 1.5 的表現令人失望。即使進行再複雜的提示設計,模型也只能顯示一張影像。而 Nano Banana Pro 顯然沒有這些限制。
綜上所述,Nano Banana Pro 依然保持著當初使其成為主流模型的優勢。雖然 ChatGPT Image 1.5 在基於文字的視覺呈現方面有所進步,但在其他方面的表現卻差強人意。
常見問題解答
問題1:什麼是 ChatGPT Image 1.5?
答:ChatGPT Image 1.5 是 OpenAI 最新的影像生成模型,它能將提示資訊或現有照片轉化為高精度、高生成速度且可進行精細編輯的影像,同時保持影像的一致性。
問題2:Nano Banana Pro 與早期版本有何不同?
答:Nano Banana Pro 增加了高階文字渲染、對光照和相機角度的精確控制、2K 解析度輸出、更強大的世界知識庫以及更出色的多影像合成功能,可用於專業級創意作品。
問題3:哪個工具在複雜的影像處理任務中表現更佳?
答:Nano Banana Pro 在速度、多步驟編輯、處理包含大量文字的影像以及多影像一致性方面始終優於 ChatGPT Image 1.5,而 ChatGPT Image 在處理複雜提示資訊和介面穩定性方面表現欠佳。

評論留言