GLM 4.5基準排名第三:強勢挑戰GPT‑4o與Grok

GLM 4.5基準排名第三:強勢挑戰GPT‑4o與Grok

文章目录

  • 認識Z.ai:中國AI巨頭之一
  • 全新GLM-4.5和GLM-4.5 Air
  • GLM 4.5
  • GLM 4.5 Air
  • GLM 4.5的主要特性
  • 如何訪問GLM 4.5?
  • GLM 4.5實戰
  • 內容生成
  • 推理
  • 編碼
  • GLM 4.5基準測試
  • 整體效能
  • 代理任務效能
  • 推理效能
  • 編碼效能
  • 小結

GLM 4.5

當每個人都痴迷於 ChatGPT 和 Grok 時,中國的科技公司一直在悄悄地醞釀一些激烈的競爭。首先是 Kimi 的 K2 和阿里巴巴的 Qwen3-Coder。現在,Z.ai 剛剛釋出了他們的最新型號:GLM 4.5 及其更輕的 GLM 4.5 Air 版本,它們正熱火朝天。早期測試顯示,這些新模型在全球排名第三和第六,與 OpenAI 和馬斯克的 Grok 等巨頭並駕齊驅。但真正重要的是 —— 這些不僅僅是聊天機器人。它們是為“代理”人工智慧而構建的,這意味著它們實際上可以自己完成工作,而不僅僅是談論它。它們真的能勝過我們都習慣的西方人工智慧嗎?答案可能會讓你大吃一驚。請繼續閱讀以瞭解更多資訊。

認識Z.ai:中國AI巨頭之一

Z.ai,前身為智譜,是一家總部位於北京的初創公司,自 2019 年以來一直致力於構建法學碩士 (LLM)。該公司的長期目標是將 AGI(通用人工智慧)與人類意圖相結合。Z.ai 誕生於清華大學,是中國首個開放權重法學碩士 (LLM) 領域的領軍企業,早期就釋出了 GLM 系列(通用語言模型),目前已在全球範圍內得到廣泛應用。

應用範圍究竟有多廣?如今,超過 70 萬開發者使用 Z.ai 的模型。隨著在國際基準測試中的地位不斷提升,Z.ai 正逐漸成為下一波全球 AI 創新浪潮中的關鍵力量。

如果使用者群不足以證明其主導地位,那麼要知道,Z.ai 得到了騰訊、阿里巴巴和高瓴資本等重量級投資者的支援,目前估值超過 20 億美元。

所以,沒錯,它不僅僅是一個追逐基準的實驗室。它是一頭人工智慧猛獁象,現在它長出了兩根新獠牙。

全新GLM-4.5和GLM-4.5 Air

正如該公司在其宣佈全新 LLM 釋出的部落格中所說,它們是“混合推理模型”。這意味著它們能夠“以複雜推理和工具使用為導向的思維模式”,以及“以即時響應為導向的非思維模式”。

Z.ai

GLM 4.5 和 GLM 4.5 Air 現已在 Z.ai 上線

首先,GLM 4.5 是 Z.ai 迄今為止最強大的產品,而 GLM 4.5 Air 則是其輕量級的兄弟產品。以下是對這兩款產品的簡要介紹。

GLM 4.5

這款旗艦模型擁有 3550 億個總引數架構和 320 億個活躍引數,專為推理、生成和多智慧體任務的大規模部署而設計。

GLM 4.5 Air

這款輕量級的兄弟產品擁有 1060 億個總引數和 120 億個活躍引數,針對裝置端和小規模雲端推理進行了最佳化,且不犧牲核心功能。

這些模型能夠處理複雜的推理、工具使用和編碼,同時兼具成本效益和開放的重量級。這些模型是 Z.ai 對 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 的回應,基準測試成績也充分證明了這一點。

然而,僅僅是數字並不能讓這個版本如此特別。至少在紙面上,新 LLM 的“開放性和易用性”才是關鍵。與許多封閉的 API 或受限模型不同,Z.ai 將 GLM 4.5 開源,可進行微調,並可在靈活的許可證 (Apache/MIT) 下使用。這使得公司和開發者可以擁有自己的 LLM 堆疊,在本地執行,甚至可以對其進行修改以用於商業用途。

結果——開發者社羣一片歡呼!

至於其他方面,以下是 GLM 4.5 系列 LLM 的一些主要特性,讓您大致瞭解它們的功能。

GLM 4.5的主要特性

全新 GLM 4.5 系列 LLM 的設計秉承了獨特的設計理念。以下是它們帶來的所有新功能。

  1. 雙重思考模式,更智慧地使用:GLM-4.5 引入了兩種不同的模式:思考模式和非思考模式。思考模式可以處理數學、程式設計和邏輯等複雜任務。雖然需要時間,但推理能力更強。非思考模式速度更快,非常適合輕鬆回覆。這種雙模式設定使模型更加靈活,能夠在需要時進行深度分析,在不需要時快速給出答案。
  2. 專為代理智慧 (Agentic Intelligence) 打造:Z.ai 的新模型支援多步推理、函式呼叫和外部工具的使用。這意味著它們可以透過自然語言瀏覽網頁、生成幻燈片,甚至構建網站。
  3. 使用 slime 進行訓練:定製強化學習 (RL) 引擎,為了教授實際技能,Z.ai 構建了強大的強化學習 (RL) 系統 slime。它將訓練與資料生成分離,從而加快了流程。Slime 支援軟體開發和研究等耗時且基於工具的任務。它甚至使用 FP8 混合精度來加快部署速度。根據 Z.ai 的說法,這使得 GLM-4.5 更加智慧、高效。
  4. 全棧創作者:全新的 Z.ai 模型可以設計應用程式、生成程式碼,甚至構建互動式遊戲。它與 Claude Code 等工具相容,並透過簡單的聊天接受指令。結果如何?該模型能夠將創意轉化為真正的產品——Web 應用程式、海報、幻燈片等等。它就是簡化的編碼。

如何訪問GLM 4.5?

如何訪問全新的 GLM 4.5 系列取決於您的使用方式。以下是使用和訪問這些 LLM 的三種方式:

  1. 直接訪問(作為聊天機器人):您可以直接在 Z.ai 網站上將全新的 Z.ai LLM 用作聊天機器人。只需從左上​​角選擇模型,然後輸入提示即可開始使用。
  2. API 訪問:要訪問 API,您可以點選此處訪問 Z.ai API,並根據需要使用 API 指南。
  3. 開放權重:GLM 4.5 開放權重模型可在 HuggingFaceModelScope 上獲取。

獲得訪問許可權後,您就可以開始使用 GLM 4.5 執行所需的任務。如果您想了解 LLM 在效能方面的表現,下面簡要介紹一下它在內容、影像和程式碼生成方面的表現。

GLM 4.5實戰

為了讓大家一睹 Z.ai 的真正實力,我們試用了其全新的 LLM 課程。以下是我們在各個應用類別中的發現:

內容生成

為了測試其內容生成能力,我在 Z.ai 上給 GLM 4.5 課程設定了以下提示:

提示詞:Write a 100-word product description for a smart electric bicycle designed for city commuters. Highlight its eco-friendliness, smart features, and portability.

輸出:

基於簡單易懂的內容生成提示,該 LLM 課程能夠生成相當不錯的輸出。它成功地為產品描述構建了一個良好的敘事框架,甚至還為產品命名。至於這究竟是幻覺還是僅僅是領先一步,就交給大家來判斷吧。

作為一名內容專家,我認為這是一個“良好”的結果——還算不錯,也算不上特別出色。

Z.ai內容生成

推理

我用我最喜歡的、古老的數學+物理問題測試了Z.ai新模型的推理能力,這道題是我在JEE備考期間第一次學習的。

提示詞:Four people, standing on the corner of a square, look at the person on their right corner and move. if all of them are moving at the same speed “s”, will any of them ever meet? if yes, where? Explain your reasoning?

輸出:

一開始失敗了。為了避免出現任何孤立問題,我們在多臺機器上將題目輸入到GLM 4.5,結果卻出現了語法錯誤:

語法錯誤

只有當我們透過其中一臺機器登入時,LLM 才能提供正確的答案,並且能夠進行完整的推理,儘管耗時相當長。我不確定是什麼原因造成的,但你可能需要登入並檢視GLM 4.5的理想答案:

測試了Z.ai新模型的推理能力

相反,我常用的 LLM ChatGPT 4o 能夠在 2 秒內回答問題,甚至還製作了一張解釋圖表。它的輸出如下:

LLM ChatGPT 4o

編碼

我使用以下提示來測試 GLM 4.5 的編碼能力。

提示詞:Code the Home Page of a website for a real estate developer based in Dubai. Keep it simple, elegant, with a colour theme of White and Beige across. List About Us and Contact Us as the clickable links to other pages on the website at the header

輸出:

GLM 4.5 的表現非常出色。它能夠完美地生成整個主頁,甚至完美地解決了配色方案和頁尾頁面連結方面的問題。您可以在此處預覽程式碼和網站外觀:

GLM 4.5 的編碼能力 GLM 4.5 的編碼能力 GLM 4.5 的編碼能力

GLM 4.5基準測試

Z.ai 的目標是憑藉新模型與全球領先的 LLM 競爭,雖然目前尚未領先,但確實給競爭對手帶來了沉重打擊。

以下是一些基準測試結果作為佐證:

整體效能

基於涵蓋 LLM“代理 (3)”、“推理 (7)”和“編碼 (2)”效能的 12 項基準測試,Z.ai 表示,新的 GLM 4.5 排名第三,而其 Air 版本排名第六。考慮到競爭對手名單包括 OpenAI、Anthropic、Google DeepMind、xAI 等巨頭,這非常令人印象深刻。

GLM 4.5 整體基準效能

GLM 4.5 整體基準效能

其基準效能涵蓋各種用例,包括:

代理任務效能

GLM 4.5 的代理能力在 TAU-bench 和 BFCL-v3(伯克利函式呼叫排行榜 v3)上進行了測試。在這兩個基準測試中,GLM-4.5 的效能均與 Claude 4 Sonnet 相當。

在網頁瀏覽方面,新的 LLM 在 BrowseComp 基準測試中進行了評估。GLM-4.5 的效能優於 Claude-4-Opus(18.8%),並接近 o4-mini-high(28.3%),在所有問題的正確率達到 26.4%。

GLM 4.5 代理效能

GLM 4.5 代理效能

推理效能

正如 Z.ai 所說,其新模型的思維模式使其能夠“解決複雜的推理問題,包括數學、科學和邏輯問題”。以下是其在 MMLU Pro、AIME24、MATH 500、SciCode 等基準測試中的效能指標。

GLM 4.5 推理基準測試效能

GLM 4.5 推理基準測試效能

編碼效能

GLM 4.5 系列在 SWE-bench Verified 和 Terminal Bench 上進行了編碼能力評估。結果表明,這兩種模型在從零開始構建編碼專案以及代理解決現有專案中的編碼任務方面都表現出色。此外,LLM 的一大優勢在於,它還可以整合到現有的編碼工具包中,例如 Claude Code、Roo Code 和 CodeGeex。

您可以在此處檢視它們的基準測試效能:

GLM 4.5 編碼基準測試效能

GLM 4.5 編碼基準測試效能

小結

GLM 4.5 和 GLM 4.5 Air 的釋出似乎是對 AI 壟斷核心的一次精心策劃的打擊。Z.ai 明確表示,先進的效能和開放性並非必須相互排斥。 GLM 4.5 系列擁有開放權重模型、強大的推理能力、工具智慧以及強大的代理工作流,突破了當今實用 LLM 的極限。

更重要的是,Z.ai 不僅僅是追逐基準。它正在構建一個生態系統,其中包括像 Slime 一樣完善的強化學習基礎設施。正因如此,GLM 4.5 不僅僅是排行榜上的一個數字。它是邁向自主 AI 堆疊的墊腳石,而這正是當今每個國家、企業和開發者都迫切追求的目標。

評論留言