Nano Banana Pro vs ChatGPT Image 1.5深度测评：谁才是AI生图的首选？

Nano Banana Pro vs ChatGPT Image 1.5 深度测评：谁才是AI生图的首选？

随着 ChatGPT 最新模型席卷全球，您或许会好奇老牌产品 Nano Banana Pro 的现状。Nano Banana 让所有用户都能体验到专业级的图像生成和编辑功能，是人们在进行 AI 图像生成时首选的工具。

但这种情况是否依然存在？未来是否依然如此？本文将通过对 ChatGPT Image 和 Nano Banana 最新版本进行一系列挑战性任务的测试，来揭晓答案，看看哪款产品表现更佳。

什么是GPT Image 1.5？

ChatGPT Image 1.5 是 OpenAI 最新推出的图像生成模型，旨在快速、精准地将创意转化为视觉图像。无论用户是根据空白提示进行创作，还是编辑现有照片，该模型都能提供与预期效果高度一致的结果。它支持精确编辑，同时保留图像细节，并且图像生成速度比以往版本快 4 倍。

GPT Image 1.5

Source: ChatGPT

该型号在 ChatGPT 中引入了全新的图像体验，让图像的创建和优化变得轻松便捷。

什么是Nano-Banana Pro？

Nano Banana Pro 在原版 Nano Banana 的基础上进行了重大升级，新增了高级文本渲染功能，可实现清晰的图像文本；对光照、拍摄角度和宽高比进行了精确的编辑控制；支持清晰的 2K 分辨率输出；增强了世界知识库，可生成更精准的图表和信息图；并能够无缝组合更多照片。它继承了基础型号的所有优点，并将其提升至专业级，助力用户创作高质量的创意作品。

Nano-Banana Pro

Source: DeepMind

终极挑战：让我们来制作一些图像

这些图像生成模型本身就非常先进。测试它们生成徽标和毛绒玩具的效果对它们来说简直是小菜一碟，根本无法真正检验它们的强大功能。

因此，我将使用以下复杂任务来测试它们：

任务 1：多步骤图像编辑及状态保持

测试内容：模型能否在多次编辑过程中保持场景特征、光照一致性和物体位置。大多数模型在多次编辑叠加时都会降低图像质量或“重置”图像。

我使用了以下图像作为输入：

客厅照片

现在我会逐步进行修改，并判断该模型在多大程度上保留了图像的完整性。

Change the time of day from Night to Day.（将时间从夜晚改为白天。）

分别使用Nano Banana Pro和ChatGPT Image 1.5修改照片时间

Replace the sofa with a Wooden sofa set.（把沙发换成木质沙发。）

分别使用Nano Banana Pro和ChatGPT Image 1.5修改照片物体

Adjust the camera angle to the perspective from the open space outside. From the glass doors visible in the image looking inside the room.（调整相机角度，从室外空旷的空间视角，也就是从图中可见的玻璃门向房间内部看去的视角。）

分别使用Nano Banana Pro和ChatGPT Image 1.5修改照片拍照角度

点评：

与 ChatGPT Image 1.5 相比，Nano Banana Pro 的输出效果更好。ChatGPT 的响应图像中存在以下错误，凸显了这一点：

在从夜晚切换到白天时，建筑物的背景与原图有所不同。
当沙发被替换为木质沙发组合时，茶几的结构也发生了变化。

在最后一个任务中，两个模型都未能生成一张勉强合格的图像。

有趣的是：输入图像竟然是由 ChatGPT Image 自己生成的！但它在任务中的表现仍然不尽如人意。

任务 2：单条提示中的密集指令执行

此任务测试：在约束条件下对提示的执行能力、文本渲染的准确性以及构图规划能力。模型通常只能正确处理一两个细节，而忽略其余部分。

Generate a poster for a tech conference with:1. Three speakers, each with distinct clothing, age, and ethnicity2. Accurate name placement under each person3. A specific color palette limited to four colors4. A background that subtly references AI without using obvious symbols like robots or brains（请为一场科技会议设计一张海报，内容包括：1. 三位演讲者，每位演讲者的着装、年龄和种族各不相同；2. 每位演讲者下方准确标注姓名；3. 使用不超过四种颜色的特定配色方案；4. 背景设计巧妙地融入人工智能元素，但避免使用机器人或大脑等明显的符号。）

响应：

分别使用Nano Banana Pro和ChatGPT Image 1.5生成科技会议海报

点评：

Nano Banana Pro 生成的海报可以用于宣传技术会议，而 ChatGPT Image 的输出看起来更像是 Photoshop 初学者的作品。

任务 3：具有实际应用价值的技术图表

此任务测试内容：世界知识、图表逻辑、空间推理和文本清晰度。如果模型不能真正理解结构，那么“漂亮”的模型在这里就会彻底失败。

Create a labeled infographic explaining how a transformer-based language model processes text, including:1. Tokenization2. Attention layers3. Embeddings4. Output probabilitiesAll labels must be readable and placed correctly.（创建一个带有标签的信息图，解释基于 Transformer 的语言模型如何处理文本，包括：1. 分词；2. 注意力层；3. 词嵌入；4. 输出概率。所有标签必须清晰易读且位置正确。）

响应：

分别使用Nano Banana Pro和ChatGPT Image 1.5生成技术图表

点评：

两张信息图都存在一些缺陷。Nano Banana Pro 相对而言更好一些。它的错误很少，视觉效果也恰到好处，文字搭配也比较合理。这使得它更容易理解。ChatGPT Image 1.5 则完全采用了视觉呈现的方式。但考虑到其中多余的步骤（第四步）以及缺乏解释的视觉元素，读者很难理解其所传达的信息。

任务 4：多幅图像的风格一致性

此任务测试：角色身份的保持性和风格的连贯性。这是目前图像生成领域最难的问题之一。

Generate a three-image storyboard for a short film:Frame 1: Opening sceneFrame 2: ConflictFrame 3: ResolutionThe same character must appear in all three frames with consistent facial features, clothing, and proportions, while lighting and camera angles change.（请为一部短片生成一个包含三幅图像的故事板：第一帧：开场场景；第二帧：冲突；第三帧：解决。同一角色必须出现在所有三帧中，并且面部特征、服装和身材比例保持一致，同时光线和拍摄角度会有所变化。）

响应：

分别使用Nano Banana Pro和ChatGPT Image 1.5生成风格一致的图片

点评：

故事板的含义如下：

一系列图画，通常包含一些指示和对话，代表电影或电视制作中计划的镜头。

当我要求提供故事板时，我希望图像中能隐含一些指示，或者辅以文字说明。ChatGPT Image 1.5 的回复将所有内容都塞进一张图中，这本身就很乏味。

Nano Banana Pro 不仅提供了多张显示指示的图像，还添加了文字说明，解释了图像之间的过渡。非常出色的回复。

Nano Banana Pro对生成风格一致的图片进行说明

任务 5：照片级写实与艺术指导的权衡

本任务测试内容：精细渲染、文字清晰度、材质真实感，以及在艺术光影与商业准确性之间取得平衡的能力。

Create a product shot of a smartwatch that:1. Looks photorealistic enough for an e-commerce site2. Uses dramatic, studio-style lighting3. Includes engraved text on the dial that remains sharp and readable4. Maintains correct reflections and material properties（请创作一张智能手表产品图，使其：1. 达到电商网站所需的照片级写实效果；2. 使用戏剧化的影棚风格灯光；3. 表盘上的雕刻文字清晰易读；4. 保持正确的反射效果和材质属性。）

响应：

分别使用Nano Banana Pro和ChatGPT Image 1.5生成实物照片

点评：

Nano Banana Pro 生成的图像类似于智能手表的发布画面。ChatGPT Image 生成的图像则像一块模拟手表，却被冠以智能手表之名，而且它并没有通过设计来体现智能，而是在表盘边缘生硬地印上了“Smartwatch”（智能手表）字样。

结论

以下是我在使用这两个图像生成模型时的一些发现：

显而易见的是，Nano Banana Pro 的速度远超 ChatGPT Image 1.5。当提示信息复杂或包含多个步骤时，这种等待时间的差异尤为明显。
ChatGPT 的图像界面非常不稳定。有时它运行完美，让人几乎感觉不到它的存在。而有时，你甚至很难从中生成图像。这种体验上的差异令人震惊。
ChatGPT Image 的功能仅限于生成单张图片。从任务 4 可以看出，当需要多张或多级图像时，ChatGPT Image 1.5 的表现令人失望。即使进行再复杂的提示设计，模型也只能显示一张图像。而 Nano Banana Pro 显然没有这些限制。

综上所述，Nano Banana Pro 依然保持着当初使其成为主流模型的优势。虽然 ChatGPT Image 1.5 在基于文本的视觉呈现方面有所进步，但在其他方面的表现却差强人意。

常见问题解答

问题1：什么是 ChatGPT Image 1.5？

答：ChatGPT Image 1.5 是 OpenAI 最新的图像生成模型，它能将提示信息或现有照片转化为高精度、高生成速度且可进行精细编辑的图像，同时保持图像的一致性。

问题2：Nano Banana Pro 与早期版本有何不同？

答：Nano Banana Pro 增加了高级文本渲染、对光照和相机角度的精确控制、2K 分辨率输出、更强大的世界知识库以及更出色的多图像合成功能，可用于专业级创意作品。

问题3：哪个工具在复杂的图像处理任务中表现更佳？

答：Nano Banana Pro 在速度、多步骤编辑、处理包含大量文本的图像以及多图像一致性方面始终优于 ChatGPT Image 1.5，而 ChatGPT Image 在处理复杂提示信息和界面稳定性方面表现欠佳。

AI生图 ChatGPT Image 1.5 Nano Banana Pro

Nano Banana Pro vs ChatGPT Image 1.5深度测评：谁才是AI生图的首选？

文章目录

什么是GPT Image 1.5？

什么是Nano-Banana Pro？