
当每个人都痴迷于 ChatGPT 和 Grok 时,中国的科技公司一直在悄悄地酝酿一些激烈的竞争。首先是 Kimi 的 K2 和阿里巴巴的 Qwen3-Coder。现在,Z.ai 刚刚发布了他们的最新型号:GLM 4.5 及其更轻的 GLM 4.5 Air 版本,它们正热火朝天。早期测试显示,这些新模型在全球排名第三和第六,与 OpenAI 和马斯克的 Grok 等巨头并驾齐驱。但真正重要的是 —— 这些不仅仅是聊天机器人。它们是为“代理”人工智能而构建的,这意味着它们实际上可以自己完成工作,而不仅仅是谈论它。它们真的能胜过我们都习惯的西方人工智能吗?答案可能会让你大吃一惊。请继续阅读以了解更多信息。
认识Z.ai:中国AI巨头之一
Z.ai,前身为智谱,是一家总部位于北京的初创公司,自 2019 年以来一直致力于构建法学硕士 (LLM)。该公司的长期目标是将 AGI(通用人工智能)与人类意图相结合。Z.ai 诞生于清华大学,是中国首个开放权重法学硕士 (LLM) 领域的领军企业,早期就发布了 GLM 系列(通用语言模型),目前已在全球范围内得到广泛应用。
应用范围究竟有多广?如今,超过 70 万开发者使用 Z.ai 的模型。随着在国际基准测试中的地位不断提升,Z.ai 正逐渐成为下一波全球 AI 创新浪潮中的关键力量。
如果用户群不足以证明其主导地位,那么要知道,Z.ai 得到了腾讯、阿里巴巴和高瓴资本等重量级投资者的支持,目前估值超过 20 亿美元。
所以,没错,它不仅仅是一个追逐基准的实验室。它是一头人工智能猛犸象,现在它长出了两根新獠牙。
全新GLM-4.5和GLM-4.5 Air
正如该公司在其宣布全新 LLM 发布的博客中所说,它们是“混合推理模型”。这意味着它们能够“以复杂推理和工具使用为导向的思维模式”,以及“以即时响应为导向的非思维模式”。

GLM 4.5 和 GLM 4.5 Air 现已在 Z.ai 上线
首先,GLM 4.5 是 Z.ai 迄今为止最强大的产品,而 GLM 4.5 Air 则是其轻量级的兄弟产品。以下是对这两款产品的简要介绍。
GLM 4.5
这款旗舰模型拥有 3550 亿个总参数架构和 320 亿个活跃参数,专为推理、生成和多智能体任务的大规模部署而设计。
GLM 4.5 Air
这款轻量级的兄弟产品拥有 1060 亿个总参数和 120 亿个活跃参数,针对设备端和小规模云端推理进行了优化,且不牺牲核心功能。
这些模型能够处理复杂的推理、工具使用和编码,同时兼具成本效益和开放的重量级。这些模型是 Z.ai 对 OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3 的回应,基准测试成绩也充分证明了这一点。
然而,仅仅是数字并不能让这个版本如此特别。至少在纸面上,新 LLM 的“开放性和易用性”才是关键。与许多封闭的 API 或受限模型不同,Z.ai 将 GLM 4.5 开源,可进行微调,并可在灵活的许可证 (Apache/MIT) 下使用。这使得公司和开发者可以拥有自己的 LLM 堆栈,在本地运行,甚至可以对其进行修改以用于商业用途。
结果——开发者社区一片欢呼!
至于其他方面,以下是 GLM 4.5 系列 LLM 的一些主要特性,让您大致了解它们的功能。
GLM 4.5的主要特性
全新 GLM 4.5 系列 LLM 的设计秉承了独特的设计理念。以下是它们带来的所有新功能。
- 双重思考模式,更智能地使用:GLM-4.5 引入了两种不同的模式:思考模式和非思考模式。思考模式可以处理数学、编程和逻辑等复杂任务。虽然需要时间,但推理能力更强。非思考模式速度更快,非常适合轻松回复。这种双模式设置使模型更加灵活,能够在需要时进行深度分析,在不需要时快速给出答案。
- 专为代理智能 (Agentic Intelligence) 打造:Z.ai 的新模型支持多步推理、函数调用和外部工具的使用。这意味着它们可以通过自然语言浏览网页、生成幻灯片,甚至构建网站。
- 使用 slime 进行训练:定制强化学习 (RL) 引擎,为了教授实际技能,Z.ai 构建了强大的强化学习 (RL) 系统 slime。它将训练与数据生成分离,从而加快了流程。Slime 支持软件开发和研究等耗时且基于工具的任务。它甚至使用 FP8 混合精度来加快部署速度。根据 Z.ai 的说法,这使得 GLM-4.5 更加智能、高效。
- 全栈创作者:全新的 Z.ai 模型可以设计应用程序、生成代码,甚至构建交互式游戏。它与 Claude Code 等工具兼容,并通过简单的聊天接受指令。结果如何?该模型能够将创意转化为真正的产品——Web 应用程序、海报、幻灯片等等。它就是简化的编码。
如何访问GLM 4.5?
如何访问全新的 GLM 4.5 系列取决于您的使用方式。以下是使用和访问这些 LLM 的三种方式:
- 直接访问(作为聊天机器人):您可以直接在 Z.ai 网站上将全新的 Z.ai LLM 用作聊天机器人。只需从左上角选择模型,然后输入提示即可开始使用。
- API 访问:要访问 API,您可以点击此处访问 Z.ai API,并根据需要使用 API 指南。
- 开放权重:GLM 4.5 开放权重模型可在 HuggingFace 和 ModelScope 上获取。
获得访问权限后,您就可以开始使用 GLM 4.5 执行所需的任务。如果您想了解 LLM 在性能方面的表现,下面简要介绍一下它在内容、图像和代码生成方面的表现。
GLM 4.5实战
为了让大家一睹 Z.ai 的真正实力,我们试用了其全新的 LLM 课程。以下是我们在各个应用类别中的发现:
内容生成
为了测试其内容生成能力,我在 Z.ai 上给 GLM 4.5 课程设置了以下提示:
提示词:“Write a 100-word product description for a smart electric bicycle designed for city commuters. Highlight its eco-friendliness, smart features, and portability.“
输出:
基于简单易懂的内容生成提示,该 LLM 课程能够生成相当不错的输出。它成功地为产品描述构建了一个良好的叙事框架,甚至还为产品命名。至于这究竟是幻觉还是仅仅是领先一步,就交给大家来判断吧。
作为一名内容专家,我认为这是一个“良好”的结果——还算不错,也算不上特别出色。

推理
我用我最喜欢的、古老的数学+物理问题测试了Z.ai新模型的推理能力,这道题是我在JEE备考期间第一次学习的。
提示词:“Four people, standing on the corner of a square, look at the person on their right corner and move. if all of them are moving at the same speed “s”, will any of them ever meet? if yes, where? Explain your reasoning?“
输出:
一开始失败了。为了避免出现任何孤立问题,我们在多台机器上将题目输入到GLM 4.5,结果却出现了语法错误:

只有当我们通过其中一台机器登录时,LLM 才能提供正确的答案,并且能够进行完整的推理,尽管耗时相当长。我不确定是什么原因造成的,但你可能需要登录并查看GLM 4.5的理想答案:

相反,我常用的 LLM ChatGPT 4o 能够在 2 秒内回答问题,甚至还制作了一张解释图表。它的输出如下:

编码
我使用以下提示来测试 GLM 4.5 的编码能力。
提示词:“Code the Home Page of a website for a real estate developer based in Dubai. Keep it simple, elegant, with a colour theme of White and Beige across. List About Us and Contact Us as the clickable links to other pages on the website at the header“
输出:
GLM 4.5 的表现非常出色。它能够完美地生成整个主页,甚至完美地解决了配色方案和页脚页面链接方面的问题。您可以在此处预览代码和网站外观:

GLM 4.5基准测试
Z.ai 的目标是凭借新模型与全球领先的 LLM 竞争,虽然目前尚未领先,但确实给竞争对手带来了沉重打击。
以下是一些基准测试结果作为佐证:
整体性能
基于涵盖 LLM“代理 (3)”、“推理 (7)”和“编码 (2)”性能的 12 项基准测试,Z.ai 表示,新的 GLM 4.5 排名第三,而其 Air 版本排名第六。考虑到竞争对手名单包括 OpenAI、Anthropic、Google DeepMind、xAI 等巨头,这非常令人印象深刻。

GLM 4.5 整体基准性能
其基准性能涵盖各种用例,包括:
代理任务性能
GLM 4.5 的代理能力在 TAU-bench 和 BFCL-v3(伯克利函数调用排行榜 v3)上进行了测试。在这两个基准测试中,GLM-4.5 的性能均与 Claude 4 Sonnet 相当。
在网页浏览方面,新的 LLM 在 BrowseComp 基准测试中进行了评估。GLM-4.5 的性能优于 Claude-4-Opus(18.8%),并接近 o4-mini-high(28.3%),在所有问题的正确率达到 26.4%。

GLM 4.5 代理性能
推理性能
正如 Z.ai 所说,其新模型的思维模式使其能够“解决复杂的推理问题,包括数学、科学和逻辑问题”。以下是其在 MMLU Pro、AIME24、MATH 500、SciCode 等基准测试中的性能指标。

GLM 4.5 推理基准测试性能
编码性能
GLM 4.5 系列在 SWE-bench Verified 和 Terminal Bench 上进行了编码能力评估。结果表明,这两种模型在从零开始构建编码项目以及代理解决现有项目中的编码任务方面都表现出色。此外,LLM 的一大优势在于,它还可以集成到现有的编码工具包中,例如 Claude Code、Roo Code 和 CodeGeex。
您可以在此处查看它们的基准测试性能:

GLM 4.5 编码基准测试性能
小结
GLM 4.5 和 GLM 4.5 Air 的发布似乎是对 AI 垄断核心的一次精心策划的打击。Z.ai 明确表示,先进的性能和开放性并非必须相互排斥。 GLM 4.5 系列拥有开放权重模型、强大的推理能力、工具智能以及强大的代理工作流,突破了当今实用 LLM 的极限。
更重要的是,Z.ai 不仅仅是追逐基准。它正在构建一个生态系统,其中包括像 Slime 一样完善的强化学习基础设施。正因如此,GLM 4.5 不仅仅是排行榜上的一个数字。它是迈向自主 AI 堆栈的垫脚石,而这正是当今每个国家、企业和开发者都迫切追求的目标。


评论留言