
百度 Ernie 開源模型家族沉寂了一段時間,但他們終於帶著重磅訊息迴歸,不負眾望。最新版本悄然釋出,卻蓄勢待發,勢必帶來巨大沖擊。該模型在 3B 引數下新增了“Thinking with images”模式,功能強大。本文將作為 ERNIE-4.5-VL 的指南,並對其釋出時宣稱的效能進行測試。
什麼是ERNIE-4.5-VL?
ERNIE-4.5-VL-28B-A3B-Thinking 或許是史上最長的模型名稱,但它提供的功能絕對物超所值。它基於強大的 ERNIE-4.5-VL-28B-A3B 架構構建,在多模態推理能力方面實現了飛躍。 ERNIE 4.5 擁有區區 30 億個活躍引數,卻聲稱在文件和圖表理解的各項基準測試中,其效能優於 Gemini-2.5-Pro 和 GPT-5-High。但這還不是全部!此次釋出最令人著迷的部分是其“Thinking with Images”功能,該功能允許放大和縮小影像,從而捕捉更精細的細節。
如何訪問?
訪問該模型最簡單的方法是在 HuggingFace Spaces 上使用它。
使用 transformers 庫,您可以使用類似這樣的樣板程式碼來訪問模型。
讓我們來測試ERNIE 4.5
為了瞭解 ERNIE-4.5…Thinking 與其同類模型相比表現如何,我們將其與 Gemini-2.5-Pro 進行了視覺任務測試。我們將測試這兩個模型在以下任務上的表現:
- 目標檢測
- 密集影像理解
之所以選擇這兩個任務,是因為它們對以往的模型來說難度很高。我將在 HuggingFace Spaces 介面測試該模型:https://huggingface.co/spaces/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
目標檢測
對於這項任務,我將使用著名的手指問題。迄今為止,模型在解決最簡單的問題時仍然舉步維艱:
查詢:“How many fingers are there in the image?”

來源:Aiathrive
響應:

點評:結果錯誤!從模型的思路來看,它似乎完全沒有考慮到人手可能擁有超過5根手指的情況。這或許在大多數情況下是理想情況,但對於擁有超過5根手指的人來說,這種模型的預測就存在偏差/錯誤。我很好奇 Gemini-2.5-pro 在相同任務上的表現如何,於是進行了測試:

即使是它也無法回答這個難以捉摸的問題——到底有多少根手指!
密集影像理解
對於這項任務,我將使用一張資訊量巨大且密集的影像(尺寸為 12528 × 8352,大小超過 7 MB),其中包含大量關於世界各地貨幣的細節資訊。模型通常難以處理如此密集的影像。
查詢:“What can you find from this image? Give me the exact figures and details that are present there.”

來源: xkcd
響應:
















點評:該模型能夠識別影像中大量的密集內容,並能辨認出一些細節,儘管其中一些識別有誤。
錯誤的識別結果可能是由於 OCR 識別過程中對影像的誤判造成的。但它能夠處理並(在一定程度上)理解影像內容,這本身就是一個巨大的進步。尤其考慮到其他模型,例如 Gemini-2.5 Pro,在面對同一影像時甚至連嘗試都做不到:

擁有 30 億活躍引數的模型能夠超越 Gemini-2.5 Pro。他們說得沒錯!
效能
我無法在所有可能的測試範圍內對模型進行全面測試。因此,以下是官方基準測試結果:

來源:X
在圖表質量保證 (chartQA) 方面,該模型展現出明顯的優勢,這解釋了該公司聲稱的“在文件和圖表理解方面表現更佳”。儘管圖示略顯晦澀難懂。
小結
鑑於其他中國實驗室釋出的眾多模型,ERNIE 團隊並沒有就此止步。我們需要 LLM 的多樣性,而我評估過的 ERNIE 模型都相當有前景。考慮到這些結果,ERNIE 的長期缺席最終取得了豐碩成果。根據百度最新的推文,未來幾天還將有更多模型釋出。最新的百度模型印證了“引數越多並不一定意味著模型越好”的說法。
常見問題解答
問 1:什麼是 ERNIE-4.5-VL?
答:它是百度最新的多模態模型,擁有 30 億個活躍引數,專為跨文字和影像的高階推理而設計,在文件和圖表理解方面超越了 Gemini-2.5-Pro 等模型。
問 2:如何訪問 ERNIE-4.5-VL?
答:您可以直接在 HuggingFace Spaces 上進行測試,網址為 https://huggingface.co/spaces/baidu/ERNIE-4.5-VL-28B-A3B-Thinking。
問 3:ERNIE-4.5-VL 的獨特之處是什麼?
答:它的“影像思考”功能支援影像內的互動式縮放,有助於捕捉細節,並在密集視覺推理方面超越更大型的模型。
問 4:未來的 AI 模型會越來越大嗎?
答:不一定。許多研究人員現在認為,未來在於最佳化架構和效率,而不是無休止地增加引數數量。
問 5:為什麼最佳化成為人工智慧開發的重點?
答:因為更大的模型成本高昂、執行緩慢且能耗巨大。更智慧的訓練和引數高效的技術能夠以更少的資源獲得相似甚至更好的結果。

評論留言