Grok Imagine：这个新的视频生成模型水平如何？

八月初，Grok 已成为美国、英国和新加坡等主要国家/地区 App Store 下载量最高的应用。虽然 Grok-4 是一款非常出色的法学硕士 (LLM) 课程，但这款聊天机器人缺少了最热门的 AI 功能之一——视频。不过，埃隆·马斯克似乎也感受到了这种“错失恐惧症 (FOMO)”的影响。因此，他和他的团队刚刚发布了 Imagine：一款基于 AI 的视频生成功能，并应用于他们的聊天机器人中。

它能与谷歌的 Veo 3 或 OpenAI 的 Sora 媲美吗？继续阅读，解答您的所有疑问。此外，本文章还将指导您了解 Imagine 是什么、如何使用它以及它可以做什么。

什么是Grok Imagine？

Grok Imagine 是 X 的 Grok 聊天机器人中最新的视频生成功能，能够生成图像和视频。它使用简单的文本提示即可生成高质量的输出。

Grok Imagine 现在制作*视频*的时间仅为主要竞争对手制作单张图片所需时间的一半到四分之一！——埃隆·马斯克

毋庸置疑，Imagine 的速度和激情是毋庸置疑的。它操作简单，任何具备基本提示技能的人都可以使用 Grok 的 Imagine 将自己的想象变为现实。生成的视频时长为 6 秒，比 Veo 3 制作的视频短，但比 OpenAI 的 Sora 长。

Grok Imagine的主要功能有哪些？

Imagine 的一些主要功能包括：

文本转图像/视频生成：该模型根据文本提示创建图像和视频。用户只需提供他们想要的内容的详细描述，模型即可快速生成内容。
图像转视频生成：该模型还可以使用上传的图像作为参考来制作视频，将静态图片转换为动态场景。

图像转视频生成

音频集成：视频包含 AI 生成的音轨，可自动与视觉效果同步，完美契合氛围和主题。这里没有静音片段！
更少限制：想要激发创造力？启用“Spicy 模式”即可绕过严格的筛选，探索更具前卫感、更少审查的输出。非常适合喜欢突破界限的创作者。但涉及敏感内容时，仍然需要注意。

Grok Imagine 护栏

速度与创意的碰撞：大多数 AI 视频工具都需要等待（1-2 分钟——对 AI 来说简直是漫长的等待），而 Imagine 只需一半的时间，就能创造出更具创意的成果。快速并不意味着千篇一律。
语音命令魔法：无需打字——只需说出您的构想。Imagine 的语音支持功能让您能够通过自然的语音命令生成图像和视频，让创作变得如同灵感迸发般轻松。

谁可以使用Grok Imagine？

Imagine 目前处于测试阶段，仅供以下付费用户使用：

Super Grok 和 Super Grok Heavy 用户可以抢先体验 Imagine 视频生成工具。
X Premium + 和 Premium 用户没有资格享受抢先体验，但他们可以加入候补名单。如果他们是活跃的 X 用户，则有望很快获得访问权限。

目前，每个帐户可渲染的视频数量存在限制。Premium、Premium + 和 Super Grok Heavy 用户的上限分别为 50、100 和 500。

如何访问Imagine？

要访问 Grok 的 Imagine，请按以下步骤操作：

下载 Grok/Super Grok 移动应用程序（因为 Imagine 目前仅在移动应用程序中可用）
下载后，使用您的付费帐户登录
您会在顶部看到一个选项：Ask – Imagine。
点击 Imagine

在文本框中添加您的提示即可开始使用。

尝试Grok的Imagine功能

现在我们已经了解了 Grok 最新的视频生成功能，接下来让我们测试一下它在以下任务中的表现：

生成产品视频
生成病毒式表情包视频
生成电影镜头

任务1：产品视频

提示词：“A model picks up a lipstick, shaped like a metallic pen, placed on a 90’s retro style restaurant and applies it on her lips and smiles, the focus should be on the lips and the background needs to be of a retro style restaurant, which is slightly blurred. The name of the lipstick – Nude browns by Popper, comes on the screen at the end.”

输出：

该模型首先会根据你的提示生成各种图像。你可以选择最喜欢的图像。点击后，你将看到以下选项：

产品视频

您可以通过点击“心形图标”将图片标记为收藏。
您可以通过点击“向下箭头图标”下载图片。
您可以通过点击“向上箭头图标”分享图片。

最后，在右侧，您会找到“make video”选项，点击它，几秒钟后，您将获得一段根据您的提示制作的视频，其中包含您选择的图片。

视频几乎瞬间生成，画质也让我惊喜！它完美地聚焦在口红上，完全符合我的提示。虽然看得出来这是AI生成的（模型在逼真地涂抹口红方面有些吃力），但高清画质依然令人眼前一亮。

真正让我印象深刻的是？提示里的每一个字都完全按照字面意思出现在视频里，没有任何尴尬的拼写错误或误解。

任务 2：表情包视频

提示词：”A monkey typing furiously on a laptop while another monkey asks it to come outside, while the first monkey refuses and says – AI Agents are coming to take its job”

输出：

不出所料，Imagine 生成了多个图像选项供我选择。然而，与我之前的经验不同，一些生成的图像包含错误的文本——这次的准确率明显下降。

表情包视频

拼写有错误。最后，在浏览了大量生成的图像后，我终于找到了一张文字正确、感觉与我给出的提示相似的图片。

虽然我的提示里还有其他问题，但我没能在一个图片里找到。不过，我用来生成视频的图片做了一个相当有趣的梗。它发出的声音听起来就像两只猴子在争吵。总的来说，我喜欢这个视频——它很有趣，也达到了预期目的。

任务 3：电影镜头

提示词：“A girl running through a dark alley, camera running with her, from the top, it starts to rain and she slips and looks back with fear, the last shot remains focused on her face, a cinematic shot.”

输出：

该工具提供了多种图像选项，但生成的视频并没有完全符合我的要求。虽然一开始效果很好——捕捉到了我要求的氛围和镜头——但随着视频的播放，质量明显下降。AI 生成的伪影变得明显，瑕疵也一目了然。

我怀疑模型表现不佳是因为我的任务包含多个复杂的请求。即便如此，音效还是恰到好处——完美匹配了场景的需求。

Grok Imagine怎么样？

我对 Imagine 的看法褒贬不一。Imagine 最棒的两点是它的速度和生成的图像质量。在视频生成方面，我认为我们很快就会看到它变得更好。目前，该模型落后于 Sora 和 Veo 3 以及像 Hulileo 和 Wan 这样的中国模型，它们都是视频生成潜力的典范。

随着任务的详细程度越来越高，Imagine 的效果也会越来越好，所以在生成视频时一定要尽可能多地提供背景信息。目前生成的声音只是普通的声音；它们与生成的视频不太融合。

小结

Imagine 是一个很棒的模型，但它还有很大的改进空间。鉴于它是 Grok 的第一个图像生成模型，我相信团队很快就会让它超越任何现有模型。目前，该模型表现良好，但鉴于市面上有如此多的先进视频生成模型，它确实感觉略显过时。

话虽如此，请继续尝试一下 Imagine。它非常适合快速片段和短视频来展示创意。而且，由于其相当灵活的速率限制，您可以用它真正创造出有意义的东西。

Grok Grok Imagine

Grok Imagine：这个新的视频生成模型水平如何？

文章目录

什么是Grok Imagine？

Grok Imagine的主要功能有哪些？

谁可以使用Grok Imagine？

如何访问Imagine？