GPT-4最强竞争对手?谷歌最新多模态AI模型Gemini AI

谷歌最新多模态AI模型Gemini AI

在今年 6 月举行的谷歌 I/O 2023 大会上,该公司向我们展示了其能力最强的人工智能模型- Gemini。最后,在2023年底之前,谷歌向公众发布了 Gemini AI 模型。谷歌将其称为 ” Gemini 时代”,因为这是该公司的一个重要里程碑。但是,谷歌 Gemini AI 究竟是什么,它能否取代长期以来的王者——GPT-4?要想知道答案,让我们来详细了解一下 Gemini AI 模型。

什么是 Gemini AI?

Gemini 是谷歌 Deepmind 团队开发的最新、功能最强大的大型语言模型(LLM),该团队是总部位于伦敦的谷歌子公司。它是由谷歌内部人工智能部门开发的 PaLM 2 模型的后续产品。这是我们第一次看到 Deepmind 团队向公众发布成熟的人工智能系统。

值得注意的是,谷歌在 2023 年 4 月合并了 Google Brain 部门和 Deepmind 团队,以开发出一个可以与 OpenAI 最佳模型相抗衡的强大模型。而 Gemini 就是这一共同努力的结晶。

现在我们来讨论一个至关重要的问题:Gemini AI 与 OpenAI 的 GPT-4 或其自己的 PaLM 2 模型有何不同?首先,Gemini 是一个真正的多模态模型。虽然 PaLM 2 支持图像分析,但它依赖于 Google Lens 和语义分析来从上传的图像中推断数据点。从根本上说,这是谷歌为 Bard 提供图像支持的权宜之计。

至于同样是多模态模型的 GPT-4,Gemini AI 在这方面也有所不同。在我们关于即将推出的 GPT-5 模型的详细文章中,我们解释了 GPT-4 并不是一个密集的模型。相反,它基于 “Mixture of Experts” 架构,针对不同的任务将 16 个不同的模型拼接在一起。因此,对于图像分析、图像生成和语音处理等不同任务,它有不同的模型,如 GPT-4 Vision、Dall -E、Whisper 等。

gemini多模态ai示例

图片来源:Google Deepmind

这就是谷歌 Gemini AI 与其他多模态模型的不同之处。Gemini 是一个 “原生多模态人工智能模型“,它从一开始就被设计成一个多模态模型,包括文本、图像、音频、视频和代码,所有这些都训练在一起,形成一个强大的人工智能系统。

由于 Gemini 本身的多模态能力,它可以同时无缝处理不同模态的信息。

如果你想知道,这对你这样的最终用户来说有什么不同?拥有原生多模态人工智能系统有很多优势,我们将在下文中详细讨论。但在此之前,我们先来了解一下 Gemini 的多模态功能。

Gemini AI 是真正的多模态模型

要了解 Gemini AI 与其他多模态模型的不同之处,让我们以音频处理为例。OpenAI 的 Whisper v3 是当今流行的语音识别模型之一。它可以识别多语言语音、识别语言、转录语音并进行翻译。但是,它无法识别语音的语气、语调和细微差别,例如发音。

有人在说 “你好” 的时候可能很悲伤,也可能很高兴,但 Whisper 无法解读说话者的情绪,因为它只是在转录音频。但另一方面,Gemini 可以端对端地处理原始音频信号,捕捉细微差别和情绪。谷歌的人工智能模型可以区分不同语言的发音,并在转录时加上适当的注释。这使得 Gemini AI 成为一个能力更强的多模态系统。

gemini ai 多模式能力

图片来源:Google Deepmind

除此之外,Gemini 还能分析和生成图像(可能内置了 Imagen 2)。在视觉分析方面,Gemini 表现出色。它可以找到图像之间的联系,从剧照中猜测电影,将图像转化为代码,了解周围环境,评估手写文本,解释数学和物理问题中的推理等等。即使谷歌伪造了 “Gemini AI” 人工智能演示,这也可能是真的。

别忘了,它还能处理和理解视频。在编码方面,Gemini AI 支持大多数编程语言,包括 Python、Java、C++、Go 等流行语言。在解决复杂的编码问题方面,它要比 PaLM 2 强得多。Gemini 第一次就能解决约 75% 的 Python 函数,而 PaLM 2 只能解决 45%。如果用户回馈一些调试输入,解决率还会超过 90%。

除此之外,谷歌还为高级代码生成创建了一个专门版本的 Gemini,并将其命名为 AlphaCode 2。它擅长竞技编程,能解决涉及复杂数学和计算机科学理论的令人难以置信的难题。与人类选手相比,AlphaCode 2 在编程竞赛中击败了 85% 的参赛者。

总之,谷歌 Gemini AI 是一个出色的多模态人工智能系统,可用于多种使用案例,包括文本生成/推理、图像分析、代码生成、音频处理和视频理解。

Gemini AI 有三种版本

谷歌公布了 Gemini AI 的三种型号:Ultra、Pro 和 Nano,但没有透露它们的参数大小。Gemini Ultra 最接近 GPT-4 模型,是谷歌最大、功能最强的模型,具有全套多模态功能。据该公司称,Ultra 模型最适合高度复杂和极具挑战性的任务。

Gemini AI 有三种版本

图片来源:Google

不过,Gemini Ultra 型号尚未发布。该公司表示,Ultra 将通过严格的信任和安全检查,明年初将面向开发者和企业客户推出。

此外,谷歌还将在明年初推出 Bard Advanced,供消费者体验具有完整多模态功能的 Gemini Ultra。用户还可能获得 AlphaCode 2 的访问权限。

由 Gemini Pro 支持的 Google Bard

由 Gemini Pro 支持的 Google Bard

至于 Gemini Pro,它已经在谷歌 Bard(ChatGPT 替代) 上上线,从 PaLM 2 到 Gemini Pro 的过渡将在 12 月底完成。

Pro 模型专为广泛的任务而设计,它在多项基准测试中击败了 OpenAI 的 GPT-3.5 模型(详情见下文)。谷歌还发布了 Gemini Pro 模型的 API,包括文本和视觉模型。

目前,Gemini Pro 模型仅在全球 170 多个国家提供英语版本。此外,Gemini Pro 的多模态支持和新的语言支持将很快添加到 Bard 中。此外,谷歌表示 Gemini 将在未来几个月内集成到更多的谷歌产品中,包括搜索、Chrome 浏览器、广告和 Duet AI。

最后,最小的 Gemini Nano 型号已经搭载在 Pixel 8 Pro 上,并将添加到其他 Pixel 设备中。Nano 模型专为智能手机上的设备、私人和个性化人工智能体验而设计。

从 WhatsApp、Line 和 KakaoTalk 开始,它将为录音应用中的摘要和 Gboard 中的智能回复等功能提供支持。明年初将增加对其他消息应用的支持。

Gemini AI 运行高效

说到原生多模态人工智能系统的优势,首先,它可以更快、更高效地运行模型,并将产品扩展到数百万用户。我们已经知道,OpenAI 的 GPT-4 运行速度相对较慢,最近,该公司暂停了 ChatGPT Plus 订阅,以满足硬件要求。运行各种纯文本、纯视觉、纯音频模型,并以次优方式将它们组合在一起,会抬高整个基础设施的成本。归根结底,它妨碍了用户体验。

谷歌在其博文中表示,Gemini 正在其最高效的 TPU 系统(v4 和 v5e)上运行,该系统速度更快,可扩展性更强。与较早的 PaLM 2 模型相比,在人工智能加速器上运行 Gemini 模型的速度更快,成本更低。因此,拥有一个原生多模态模型具有众多优势,它使谷歌能够为数百万用户提供服务,同时保持较低的计算成本。

Gemini Ultra 与 GPT-4:基准测试

现在,让我们来看看一些基准测试数据,看看谷歌发布的 Gemini 是否成功超越了 OpenAI。根据谷歌的数据,在通常用于评估 LLM 性能的 32 项基准测试中,Gemini Ultra 在 30 项测试中均优于 GPT-4 型号。谷歌吹捧 Gemini Ultra 在流行的 MMLU 基准测试中获得了 90.04% 的最高分,而 GPT-4 的得分率为 86.4%。在 MMLU 基准测试中,它的得分甚至超过了人类专家(89.8%)。

谷歌gemini基准分数

图片来源:Google Deepmind

关于 Gemini Ultra 的 MMLU 基准数据,来自多方面的批评纷至沓来。谷歌在使用 CoT@32(Chain-of-Thought,思维链)提示时获得了 90.04% 的准确响应。在标准的 5 次提示下,Gemini Ultra 的得分降至 83.7%,而 GPT-4 的得分则为 86.4%,GPT-4 仍然是 MMLU 测试中得分最高的。

虽然这并没有削弱 Gemini Ultra 的能力,但这意味着需要更好的提示才能让模型做出准确的反应。

在标准的 5-shot 提示下,Gemini Ultra 的得分率降至 83.7%,而 GPT-4 的得分率为 86.4%,GPT-4 仍然是 MMLU 测试中得分最高的。

在其他基准测试中,在 HumanEval(Python 代码生成)中,Gemini Ultra 得分 74.4%,而 GPT-4 得分 67.0%。在用于评估常识推理的 HellaSwag 测试中,Gemini Ultra(87.8%)输给了 GPT-4(95.3%)。在测试具有挑战性的多步骤推理任务的 Big-Bench Hard 基准测试中,Gemini Ultra(83.6%)击败了 GPT-4(83.1%)。

在多模式测试中,Gemini Ultra 几乎在所有方面都战胜了 GPT-4V (Vision)。在 MMMU 测试中,Gemini Ultra 得分为 59.4%,GPT-4V 得分为 56.8%。在自然图像理解(VQAv2 测试)中,Gemini Ultra 得分 77.8%,GPT-4V 得分 77.2%。接着,在自然图像 OCR 测试(TextVQA)中,Gemini Ultra 得分 82.3%,GPT-4V 得分 78%。在文档理解测试(DocVQA)中,Gemini Ultra 得分 90.9%,GPT-4V 得分 88.4%。最后,在信息图理解方面,Gemini Ultra 得分 80.3%,GPT-4V 得分 75.1%。

 谷歌多模态模型gemini基准分数

图片来源:Google Deepmind

您可以在 Google Deepmind 发布的研究论文中找到 Gemini Ultra 和 GPT-4 之间的更深入比较。从基准数据中得出的主要结论是,谷歌确实推出了一款有能力与包括 GPT-4 在内的最佳 LLM 相抗衡的机型。在多模态能力方面,谷歌似乎又回来了。

安全检查到位

说到人工智能的安全性,谷歌总是信奉 “大胆而负责” 的格言。谷歌 Deepmind 团队也遵循着同样的原则。谷歌表示,在向公众发布这些模型之前,已经对其进行了内部和外部测试。

它围绕 Gemini AI 模型制定了积极的政策,以检查用户输入和响应中的偏差和毒性。Gemini AI 模型仍然会产生幻觉,但程度要小得多。

谷歌还与 MLCommons 等外部公司合作,对人工智能系统进行评估。谷歌还在为业界建立一个安全人工智能框架(SAIF),以降低人工智能系统的相关风险。该公司目前正在对其强大的 Gemini Ultra 模型进行安全检查,一旦所有检查完成,该模型将于明年初发布。

小结

虽然谷歌被一年前发布的 ChatGPT 打了个措手不及,但现在看来,谷歌终于通过 Gemini 模型赶上了 OpenAI 的步伐。尤其是 Ultra 模型,令人印象深刻,我们已经迫不及待地想对它进行测试了,且不论一些粗略的基准数据。从研究论文中可以看出,它的多模态视觉能力非常出色,编码性能也是一流的。

Gemini AI 模型与我们迄今为止从谷歌看到的模型截然不同。它们更像是从零开始构建的人工智能系统。也就是说,OpenAI 可能会在明年初谷歌发布 Gemini Ultra 模型时推出 GPT-5,这将再次让谷歌与时间赛跑。尽管如此,你如何看待谷歌新的 Gemini AI 模型?请在下面的评论区分享你的想法。

评论留言