百度最新模型ERNIE-4.5-VL评测：3B模型中的“图像化思考”

百度 Ernie 开源模型家族沉寂了一段时间，但他们终于带着重磅消息回归，不负众望。最新版本悄然发布，却蓄势待发，势必带来巨大冲击。该模型在 3B 参数下新增了“Thinking with images”模式，功能强大。本文将作为 ERNIE-4.5-VL 的指南，并对其发布时宣称的性能进行测试。

什么是ERNIE-4.5-VL？

ERNIE-4.5-VL-28B-A3B-Thinking 或许是史上最长的模型名称，但它提供的功能绝对物超所值。它基于强大的 ERNIE-4.5-VL-28B-A3B 架构构建，在多模态推理能力方面实现了飞跃。 ERNIE 4.5 拥有区区 30 亿个活跃参数，却声称在文档和图表理解的各项基准测试中，其性能优于 Gemini-2.5-Pro 和 GPT-5-High。但这还不是全部！此次发布最令人着迷的部分是其“Thinking with Images”功能，该功能允许放大和缩小图像，从而捕捉更精细的细节。

如何访问？

访问该模型最简单的方法是在 HuggingFace Spaces 上使用它。

使用 transformers 库，您可以使用类似这样的样板代码来访问模型。

让我们来测试ERNIE 4.5

为了了解 ERNIE-4.5…Thinking 与其同类模型相比表现如何，我们将其与 Gemini-2.5-Pro 进行了视觉任务测试。我们将测试这两个模型在以下任务上的表现：

目标检测
密集图像理解

之所以选择这两个任务，是因为它们对以往的模型来说难度很高。我将在 HuggingFace Spaces 界面测试该模型：https://huggingface.co/spaces/baidu/ERNIE-4.5-VL-28B-A3B-Thinking

目标检测

对于这项任务，我将使用著名的手指问题。迄今为止，模型在解决最简单的问题时仍然举步维艰：

查询：“How many fingers are there in the image?”

两只手掌

来源：Aiathrive

响应：

AI对两只手掌进行识别

点评：结果错误！从模型的思路来看，它似乎完全没有考虑到人手可能拥有超过5根手指的情况。这或许在大多数情况下是理想情况，但对于拥有超过5根手指的人来说，这种模型的预测就存在偏差/错误。我很好奇 Gemini-2.5-pro 在相同任务上的表现如何，于是进行了测试：

Gemini-2.5-pro 在相同任务上的表现

即使是它也无法回答这个难以捉摸的问题——到底有多少根手指！

密集图像理解

对于这项任务，我将使用一张信息量巨大且密集的图像（尺寸为 12528 × 8352，大小超过 7 MB），其中包含大量关于世界各地货币的细节信息。模型通常难以处理如此密集的图像。

查询：“What can you find from this image? Give me the exact figures and details that are present there.”

密集图像理解

来源: xkcd

响应：

密集图像理解结果

点评：该模型能够识别图像中大量的密集内容，并能辨认出一些细节，尽管其中一些识别有误。

错误的识别结果可能是由于 OCR 识别过程中对图像的误判造成的。但它能够处理并（在一定程度上）理解图像内容，这本身就是一个巨大的进步。尤其考虑到其他模型，例如 Gemini-2.5 Pro，在面对同一图像时甚至连尝试都做不到：

Gemini-2.5 Pro 无法进行巨量图片识别

拥有 30 亿活跃参数的模型能够超越 Gemini-2.5 Pro。他们说得没错！

性能

我无法在所有可能的测试范围内对模型进行全面测试。因此，以下是官方基准测试结果：

官方基准测试结果

来源：X

在图表质量保证 (chartQA) 方面，该模型展现出明显的优势，这解释了该公司声称的“在文档和图表理解方面表现更佳”。尽管图示略显晦涩难懂。

小结

鉴于其他中国实验室发布的众多模型，ERNIE 团队并没有就此止步。我们需要 LLM 的多样性，而我评估过的 ERNIE 模型都相当有前景。考虑到这些结果，ERNIE 的长期缺席最终取得了丰硕成果。根据百度最新的推文，未来几天还将有更多模型发布。最新的百度模型印证了“参数越多并不一定意味着模型越好”的说法。

常见问题解答

问 1：什么是 ERNIE-4.5-VL？

答：它是百度最新的多模态模型，拥有 30 亿个活跃参数，专为跨文本和图像的高级推理而设计，在文档和图表理解方面超越了 Gemini-2.5-Pro 等模型。

问 2：如何访问 ERNIE-4.5-VL？

答：您可以直接在 HuggingFace Spaces 上进行测试，网址为 https://huggingface.co/spaces/baidu/ERNIE-4.5-VL-28B-A3B-Thinking。

问 3：ERNIE-4.5-VL 的独特之处是什么？

答：它的“图像思考”功能支持图像内的交互式缩放，有助于捕捉细节，并在密集视觉推理方面超越更大型的模型。

问 4：未来的 AI 模型会越来越大吗？

答：不一定。许多研究人员现在认为，未来在于优化架构和效率，而不是无休止地增加参数数量。

问 5：为什么优化成为人工智能开发的重点？

答：因为更大的模型成本高昂、运行缓慢且能耗巨大。更智能的训练和参数高效的技术能够以更少的资源获得相似甚至更好的结果。

ERNIE 4.5 百度

百度最新模型ERNIE-4.5-VL评测：3B模型中的“图像化思考”

文章目录

什么是ERNIE-4.5-VL？

如何访问？

让我们来测试ERNIE 4.5

目标检测

密集图像理解

性能

小结

常见问题解答

评论留言

取消回复

百度最新模型ERNIE-4.5-VL评测：3B模型中的“图像化思考”

文章目录

什么是ERNIE-4.5-VL？

如何访问？

让我们来测试ERNIE 4.5

目标检测

密集图像理解

性能

小结

常见问题解答

相关文章

评论留言

取消回复