
随着 ChatGPT 最新模型席卷全球,您或许会好奇老牌产品 Nano Banana Pro 的现状。Nano Banana 让所有用户都能体验到专业级的图像生成和编辑功能,是人们在进行 AI 图像生成时首选的工具。
但这种情况是否依然存在?未来是否依然如此?本文将通过对 ChatGPT Image 和 Nano Banana 最新版本进行一系列挑战性任务的测试,来揭晓答案,看看哪款产品表现更佳。
什么是GPT Image 1.5?
ChatGPT Image 1.5 是 OpenAI 最新推出的图像生成模型,旨在快速、精准地将创意转化为视觉图像。无论用户是根据空白提示进行创作,还是编辑现有照片,该模型都能提供与预期效果高度一致的结果。它支持精确编辑,同时保留图像细节,并且图像生成速度比以往版本快 4 倍。

Source: ChatGPT
该型号在 ChatGPT 中引入了全新的图像体验,让图像的创建和优化变得轻松便捷。
什么是Nano-Banana Pro?
Nano Banana Pro 在原版 Nano Banana 的基础上进行了重大升级,新增了高级文本渲染功能,可实现清晰的图像文本;对光照、拍摄角度和宽高比进行了精确的编辑控制;支持清晰的 2K 分辨率输出;增强了世界知识库,可生成更精准的图表和信息图;并能够无缝组合更多照片。它继承了基础型号的所有优点,并将其提升至专业级,助力用户创作高质量的创意作品。

Source: DeepMind
终极挑战:让我们来制作一些图像
这些图像生成模型本身就非常先进。测试它们生成徽标和毛绒玩具的效果对它们来说简直是小菜一碟,根本无法真正检验它们的强大功能。
因此,我将使用以下复杂任务来测试它们:
任务 1:多步骤图像编辑及状态保持
测试内容:模型能否在多次编辑过程中保持场景特征、光照一致性和物体位置。大多数模型在多次编辑叠加时都会降低图像质量或“重置”图像。
我使用了以下图像作为输入:

现在我会逐步进行修改,并判断该模型在多大程度上保留了图像的完整性。
Change the time of day from Night to Day.(将时间从夜晚改为白天。)

Replace the sofa with a Wooden sofa set.(把沙发换成木质沙发。)

Adjust the camera angle to the perspective from the open space outside. From the glass doors visible in the image looking inside the room.(调整相机角度,从室外空旷的空间视角,也就是从图中可见的玻璃门向房间内部看去的视角。)

点评:
与 ChatGPT Image 1.5 相比,Nano Banana Pro 的输出效果更好。ChatGPT 的响应图像中存在以下错误,凸显了这一点:
- 在从夜晚切换到白天时,建筑物的背景与原图有所不同。
- 当沙发被替换为木质沙发组合时,茶几的结构也发生了变化。
在最后一个任务中,两个模型都未能生成一张勉强合格的图像。
有趣的是:输入图像竟然是由 ChatGPT Image 自己生成的!但它在任务中的表现仍然不尽如人意。
任务 2:单条提示中的密集指令执行
此任务测试:在约束条件下对提示的执行能力、文本渲染的准确性以及构图规划能力。模型通常只能正确处理一两个细节,而忽略其余部分。
Generate a poster for a tech conference with:1. Three speakers, each with distinct clothing, age, and ethnicity2. Accurate name placement under each person3. A specific color palette limited to four colors4. A background that subtly references AI without using obvious symbols like robots or brains(请为一场科技会议设计一张海报,内容包括:1. 三位演讲者,每位演讲者的着装、年龄和种族各不相同;2. 每位演讲者下方准确标注姓名;3. 使用不超过四种颜色的特定配色方案;4. 背景设计巧妙地融入人工智能元素,但避免使用机器人或大脑等明显的符号。)
响应:

点评:
Nano Banana Pro 生成的海报可以用于宣传技术会议,而 ChatGPT Image 的输出看起来更像是 Photoshop 初学者的作品。
任务 3:具有实际应用价值的技术图表
此任务测试内容:世界知识、图表逻辑、空间推理和文本清晰度。如果模型不能真正理解结构,那么“漂亮”的模型在这里就会彻底失败。
Create a labeled infographic explaining how a transformer-based language model processes text, including:1. Tokenization2. Attention layers3. Embeddings4. Output probabilitiesAll labels must be readable and placed correctly.(创建一个带有标签的信息图,解释基于 Transformer 的语言模型如何处理文本,包括:1. 分词;2. 注意力层;3. 词嵌入;4. 输出概率。所有标签必须清晰易读且位置正确。)
响应:

点评:
两张信息图都存在一些缺陷。Nano Banana Pro 相对而言更好一些。它的错误很少,视觉效果也恰到好处,文字搭配也比较合理。这使得它更容易理解。ChatGPT Image 1.5 则完全采用了视觉呈现的方式。但考虑到其中多余的步骤(第四步)以及缺乏解释的视觉元素,读者很难理解其所传达的信息。
任务 4:多幅图像的风格一致性
此任务测试:角色身份的保持性和风格的连贯性。这是目前图像生成领域最难的问题之一。
Generate a three-image storyboard for a short film:Frame 1: Opening sceneFrame 2: ConflictFrame 3: ResolutionThe same character must appear in all three frames with consistent facial features, clothing, and proportions, while lighting and camera angles change.(请为一部短片生成一个包含三幅图像的故事板:第一帧:开场场景;第二帧:冲突;第三帧:解决。同一角色必须出现在所有三帧中,并且面部特征、服装和身材比例保持一致,同时光线和拍摄角度会有所变化。)
响应:

点评:
故事板的含义如下:
- 一系列图画,通常包含一些指示和对话,代表电影或电视制作中计划的镜头。
当我要求提供故事板时,我希望图像中能隐含一些指示,或者辅以文字说明。ChatGPT Image 1.5 的回复将所有内容都塞进一张图中,这本身就很乏味。
Nano Banana Pro 不仅提供了多张显示指示的图像,还添加了文字说明,解释了图像之间的过渡。非常出色的回复。

任务 5:照片级写实与艺术指导的权衡
本任务测试内容:精细渲染、文字清晰度、材质真实感,以及在艺术光影与商业准确性之间取得平衡的能力。
Create a product shot of a smartwatch that:1. Looks photorealistic enough for an e-commerce site2. Uses dramatic, studio-style lighting3. Includes engraved text on the dial that remains sharp and readable4. Maintains correct reflections and material properties(请创作一张智能手表产品图,使其:1. 达到电商网站所需的照片级写实效果;2. 使用戏剧化的影棚风格灯光;3. 表盘上的雕刻文字清晰易读;4. 保持正确的反射效果和材质属性。)
响应:

点评:
Nano Banana Pro 生成的图像类似于智能手表的发布画面。ChatGPT Image 生成的图像则像一块模拟手表,却被冠以智能手表之名,而且它并没有通过设计来体现智能,而是在表盘边缘生硬地印上了“Smartwatch”(智能手表)字样。
结论
以下是我在使用这两个图像生成模型时的一些发现:
- 显而易见的是,Nano Banana Pro 的速度远超 ChatGPT Image 1.5。当提示信息复杂或包含多个步骤时,这种等待时间的差异尤为明显。
- ChatGPT 的图像界面非常不稳定。有时它运行完美,让人几乎感觉不到它的存在。而有时,你甚至很难从中生成图像。这种体验上的差异令人震惊。
- ChatGPT Image 的功能仅限于生成单张图片。从任务 4 可以看出,当需要多张或多级图像时,ChatGPT Image 1.5 的表现令人失望。即使进行再复杂的提示设计,模型也只能显示一张图像。而 Nano Banana Pro 显然没有这些限制。
综上所述,Nano Banana Pro 依然保持着当初使其成为主流模型的优势。虽然 ChatGPT Image 1.5 在基于文本的视觉呈现方面有所进步,但在其他方面的表现却差强人意。
常见问题解答
问题1:什么是 ChatGPT Image 1.5?
答:ChatGPT Image 1.5 是 OpenAI 最新的图像生成模型,它能将提示信息或现有照片转化为高精度、高生成速度且可进行精细编辑的图像,同时保持图像的一致性。
问题2:Nano Banana Pro 与早期版本有何不同?
答:Nano Banana Pro 增加了高级文本渲染、对光照和相机角度的精确控制、2K 分辨率输出、更强大的世界知识库以及更出色的多图像合成功能,可用于专业级创意作品。
问题3:哪个工具在复杂的图像处理任务中表现更佳?
答:Nano Banana Pro 在速度、多步骤编辑、处理包含大量文本的图像以及多图像一致性方面始终优于 ChatGPT Image 1.5,而 ChatGPT Image 在处理复杂提示信息和界面稳定性方面表现欠佳。


评论留言