谷歌刚刚推出了最新的最先进的轻量级语言模型-Gemma 3。该模型看起来很有前途,在标准基准测试中的表现优于 Meta 的 Llama 3、DeepSeek-V3 和 OpenAI 的 o3-mini。虽然谷歌声称它是“世界上最好的单加速器模型”,但让我们看看它与其他流行模型的实际表现如何。在本篇 Gemma 3 27B 与 DeepSeek-R1 的对比中,我们将了解这款新模型的功能、基准测试和性能,并与著名的 DeepSeek-R1 进行比较。
什么是Gemma 3?
Gemma 3 是谷歌最新的开源人工智能模型系列,旨在实现从手持设备到企业级工作站等各种设备的无缝部署。Gemma 3 在 PaliGemma 2 的支持下引入了多模态功能,使其能够处理文本和视觉内容。它还能将音频文件和整个文件夹作为上下文数据输入。
Grok 3 等大型模型使用了超过 10 万个英伟达 H100 GPU,DeepSeek-R1 使用了 32 个 GPU,而 Gemma 3 估计只需一个 GPU 就能工作。尽管如此,Gemma 3 的体积小,只有 27B 参数,但它的性能却远远超过 DeepSeek-V3、OpenAI 的 o3-mini、Llama3-405B 和 Mistral Large 等大型模型。
以下是谷歌最新 Gemma 3 模型的一些主要特点:
- 多种规格:Gemma 3 有多种尺寸(1B、4B、12B 和 27B)可供选择,使其在不同的使用情况下都具有高效性和成本效益。
- 小尺寸:Gemma 3 27B 是最大的变体,由于其参数大小为 27B,因此可在提供高性能的同时保持高效率。
- 单加速器兼容性:该模型经过优化,可在单个 GPU 或 TPU 上运行,并与 Nvidia GPU 兼容。这使得从智能手机到工作站等设备都能使用它。
- 多模态:Gemma 3 可以分析文本、图像、短视频和音频文件,从而支持可视化问题解答和基于图像的故事讲述等应用。
- 谷歌集成:由于 Gemma 3 由谷歌开发,因此用户可以直接从谷歌驱动器上传文件。
- 多语种:Gemma 3 预先训练了超过 35 种语言,并支持 140 多种语言,为翻译和光学字符识别(OCR)等任务提供了便利。
- 大型上下文窗口:它在 1B 模型中支持 32k 个词组,在更大的模型中支持多达 128k 个词组,而在 Gemma 2 中仅支持 8k 个词组。
- ShieldGemma 2:图像安全分类器,可过滤露骨、危险或暴力内容,提高生成输出的安全性。
如何访问Gemma 3
Gemma 3 可在 Google AI Studio 上使用。以下是如何访问它:
- 打开 Google AI Studio:点击此处打开 Google AI Studio。
- 登录或注册:使用您的 Gmail 凭据登录。如果还没有账户,请注册一个。
- 选择 Gemma 3 27B:登录后,进入模特选择下拉列表,一路向下滚动找到 Gemma 3 27B。选择该模特并开始聊天即可。
或者,您也可以直接访问 Gemma 3 的 Hugging Face 空间。你还可以用它在 Keras、JAX 和 Ollama 上构建模型。
Gemma 3 与 DeepSeek-R1:功能对比
现在让我们开始 Gemma 3 与 DeepSeek-R1 的比较。我们先来看看它们的功能,看看每个模型都有哪些优点。
功能 | Gemma 3 | DeepSeek-R1 |
模型规格 | 1B, 4B, 12B, 27B 参数 | 共 671B (每次查询有 37B 活动数据) |
上下文窗口 | 27B 模型最多 128K tokens,1B 模型只有 32K。 | 最多 128K tokens |
GPU资源 | 在单 GPU/TPU 上运行 | 需要高端 GPU(H800/H100) |
图像生成 | ❌ No | ❌ No |
图像分析 | ✅ Yes (via SigLIP) | ❌ No |
视频分析 | ✅ Yes (short clips) | ❌ No |
多模态 | ✅ 文本,图像,视频 | ❌ 主要基于文本;可从图像中提取文本 |
文件上传 | ✅ 文本,图像,视频 | ❌ 大部分为文本输入 |
网页搜索 | ❌ No | ✅ Yes |
语言 | 35+ 支持和训练 140+ | English & Chinese 最佳 |
安全 | ✅ 由 ShieldGemma 2 提供强大的安全性 | ❌ 安全性较弱,存在越狱风险 |
Gemma 3与DeepSeek-R1:性能比较
既然我们已经知道了 Gemma 3 和 DeepSeek-R1 的功能,那就让我们来测试它们的一些共同特性,并比较它们的性能。在这次比较中,我们将测试这两个模型在以下三个任务中的性能:
- 编码:制作动画
- 逻辑推理:解决一个谜题
- STEM 解决问题:解决一个物理问题
对于每项任务,我们都将在两个模型上尝试相同的提示,并根据生成速度和输出质量来评估它们的反应。
如果你想加入我的行列,亲自尝试一些提示进行比较,可以通过启用聊天界面上的“DeepThink”功能访问 DeepSeek-R1。
任务 1:编码
首先,我们来测试两个模型的编码能力。在这项任务中,我将要求 Gemma 3 和 DeepSeek-R1 为一个基于物理的动画编写 Python 代码。我们将在 Google Colab 上运行两个模型生成的代码,并比较它们的输出结果。
提示词:Write a python program that shows a ball bouncing inside a spinning pentagon, following the laws of Physics, increasing its speed every time it bounces off an edge.
Gemma 3的输出
DeepSeek-R1的输出
对比分析
一旦得到提示,Gemma 3 几乎立即开始编写代码。另一方面,DeepSeek-R1 则从解释提示开始,带我们了解它的思考过程。这两个模型都为我们提供了如何运行代码的说明。Gemma 还为我们提供了一些关键的改进和说明,而 DeepSeek 则解释了动画的组成部分,并提到了其可调整的参数。
综上所述,Gemma 制作的只是一系列相同的五边形静态图像,而不是可视化动画,这令人相当失望。与此同时,DeepSeek-R1 做得很好,它按照提示创建了一个模拟,球飞离了屏幕,速度超过了峰值。因此,很明显,DeepSeek-R1 赢得了本轮比赛。
任务 2:逻辑推理
在这项任务中,我们将给模型出一道逻辑题,让他们解题并比较他们的回答。
提示词:A solid, four-inch cube of wood is coated with blue paint on all six sides.Then the cube is cut into smaller one-inch cubes.These new one-inch cubes will have either three blue sides, two blue sides, one blue side, or no blue sides. How many of each will there be?”
Gemma 3的回复
DeepSeek-R1的回复
比较分析
两个模型都利用逻辑推理准确地解开了谜题。不过,Gemma 3 只用了大约 30 秒就得出了正确答案,而 DeepSeek-R1 则用了将近两倍的时间。Gemma 直接将其思维过程融入到答案中,而 DeepSeek 则在生成答案之前先让我们详细了解其思维过程。虽然这种透明的方式有助于我们了解模型的思维方式,但我觉得对于这项任务来说,时间过长是不必要的。要想得到更简单、更快捷的答案,我给 Gemma 3 加分!
得分:Gemma 3: 1 | DeepSeek-R1: 1
任务 3:STEM问题解决
在这项任务中,我们将测试这些模型在解决科学和数学相关问题方面的能力。我会给这些模型一个涉及计算的物理问题,看看他们能解决多少。
提示词:A satellite of mass 500 kg is in a circular orbit around Earth at an altitude of 500 km. Given:
- Mass of Earth = 5.97 × 10²⁴ kg
- Radius of Earth = 6,371 km
- Gravitational constant (G) = 6.674 × 10⁻¹¹ N·m²/kg²
Calculate:a) The orbital velocity of the satellite.b) The period of revolution around Earth.”
Gemma 3的回复
“Okay, let’s break down the calculations for the satellite’s orbital velocity and period.
a) Orbital Velocity
The orbital velocity (v) of a satellite in a circular orbit is determined by the balance between the gravitational force and the centripetal force. The formula is:
v = √(GM/r)
Where:
- G = Gravitational constant (6.674 × 10⁻¹¹ N·m²/kg²)
- M = Mass of Earth (5.97 × 10²⁴ kg)
- r = Orbital radius (distance from the center of Earth to the satellite)
First, we need to calculate the orbital radius (r):
r = Radius of Earth + Altitude
Plugging in the values,
r = 6,371 km + 500 km
r = 6,871 km = 6,871,000 m (Convert to meters)
Now, plug the values into the velocity formula:
v = √((6.674 × 10⁻¹¹ N·m²/kg² * 5.97 × 10²⁴ kg) / 6,871,000 m)
v = √((3.9857 × 10¹⁴ N·m²/kg) / 6,871,000 m) = √(5.799 × 10⁷ m²/s²) ≈ 7615 m/s
Therefore, the orbital velocity of the satellite is approximately 7.615 km/s.
b) Period of Revolution
The period (T) of revolution is the time it takes for the satellite to complete one orbit. It can be calculated using the following formula:
T = 2πr / v
Where:
- π ≈ 3.14159
- r = Orbital radius (6,871,000 m)
- v = Orbital velocity (7615 m/s)
Plug in the values:
T = (2 * 3.14159 * 6,871,000 m) / 7615 m/s
T = 43,109,886.8 m / 7615 m/s ≈ 5652 seconds
Convert to minutes:
T ≈ 5652 seconds / 60 seconds/minute
T ≈ 94.2 minutes
Therefore, the period of revolution of the satellite around Earth is approximately 94.2 minutes.
Summary:
- Orbital Velocity: 7.615 km/s
- Period of Revolution: 94.2 minutes”
DeepSeek-R1的回复
对比分析
虽然两个模型都能按照所有步骤正确回答问题,但 Gemma 只用了 35 秒,比 DeepSeek-R1 快了 6 倍多!与之前的任务类似,DeepSeek-R1 在生成答案前解释了整个思考过程,而 Gemma 3 则在解释步骤的同时直接开始生成答案。Gemma 给出的速度单位是 km/s,而 DeepSeek 给出的速度单位是 m/s,这是正确的 SI 速度单位。
对于问题的第二部分,尽管两个模型使用了相同的公式和数值,但 Gemma 3 将 2πr 即(2 * 3.14159 * 6,871,000)计算为 43,109,886.8,而不是实际值 43171729.78。这导致模型得到的最终答案偏差了 12 秒,这在与空间有关的计算中是一个很大的差距。因此,在这项任务中,DeepSeek-R1 也得分。
得分:Gemma 3: 1 | DeepSeek-R1: 2
性能比较摘要
任务 | Gemma 3 性能 | DeepSeek-R1 性能 | 胜出者 |
编码:动画 | 快速开始生成代码,但未能制作出有效的动画。提供了解释和改进,但缺乏执行力。 | 用时较长,但根据提示提供了一个有效的动画。解释了组件并包含可调整参数。 | DeepSeek-R1 |
逻辑推理 | 在约 30 秒内正确解题,将思考过程融入答题中,答案简明扼要。 | 也能正确解题,但耗时两倍,并提供了详细的步骤说明。 | Gemma 3 |
STEM问题解决 | 快速作答(约 35 秒),步骤基本正确,但在最终答案中出现计算错误。提供的速度单位是 km/s,而不是 SI 单位(m/s)。 | 用时明显较长,但采用了有条理的方法,确保使用正确的国际单位进行正确计算。 | DeepSeek-R1 |
虽然 Gemma 3 在速度和多模态能力方面表现出色,但在执行编码和复杂问题解决等繁重任务时却显得力不从心。另一方面,DeepSeek-R1 尽管速度较慢,却能提供更精确的输出,尤其是在 STEM 相关问题上。
Gemma 3与DeepSeek-R1:基准测试比较
尽管 Gemma 3 的规模较小,仅有 27B 参数,但它的表现一直优于 DeepSeek-V3、OpenAI 的 o3-mini、Llama3-405B 和 Mistral Large 等规模更大的模型,尤其是在编码任务中。不过,从聊天机器人竞技场的 elo 分数来看,它仅次于 DeepSeek-R1。
Source: Google Dev
在 Chatbot Arena 的实时排行榜上,Gemma 3 与 Qwen2.5-Max、o1-preview 和 o3-mini(高)并列排在第 9 位。同时,DeepSeek-R1 在同一排行榜上排名第 6。
Source: Chatbot Arena
在其他标准基准测试中,DeepSeek-R1 几乎在所有方面都优于 Gemma 3。以下是部分测试结果。
Benchmark (Metric) | Bird-SQL | MMLU-Pro (EM) | GPQA-Diamond (Pass@1) | SimpleQA (Correct) | LiveCodeBench (Pass@1-COT) | MATH-500 (Pass@1) |
Gemma 3 27B | 54.4 | 67.5 | 42.4 | 10 | 29.7 | 89 |
DeepSeek R1 | 34 | 84.0 | 71.5 | 30.1 | 65.9 | 97.3 |
资源:
- DeepSeek-R1: https://huggingface.co/deepseek-ai/DeepSeek-R1
- Gemma 3: https://ai.google.dev/gemma
小结
通过对 Gemma 3 和 DeepSeek-R1 的对比,我们清楚地了解了这两个模型在实际应用中的性能。虽然谷歌的 Gemma 3 是一款为提高效率而优化的轻量级模型,令人印象深刻,但 DeepSeek-R1 仍然是人工智能领域的主导力量,在多个基准测试和任务中表现出卓越的性能。
不过,Gemma 3 能够在单个 GPU 上运行,并与谷歌的生态系统集成,这使它成为开发人员和研究人员寻求高效、易用模型的可行选择。它的体积较小,也使其成为手持设备和小型项目的最佳选择。
评论留言