
八月初,Grok 已成为美国、英国和新加坡等主要国家/地区 App Store 下载量最高的应用。虽然 Grok-4 是一款非常出色的法学硕士 (LLM) 课程,但这款聊天机器人缺少了最热门的 AI 功能之一——视频。不过,埃隆·马斯克似乎也感受到了这种“错失恐惧症 (FOMO)”的影响。因此,他和他的团队刚刚发布了 Imagine:一款基于 AI 的视频生成功能,并应用于他们的聊天机器人中。
它能与谷歌的 Veo 3 或 OpenAI 的 Sora 媲美吗?继续阅读,解答您的所有疑问。此外,本文章还将指导您了解 Imagine 是什么、如何使用它以及它可以做什么。
什么是Grok Imagine?
Grok Imagine 是 X 的 Grok 聊天机器人中最新的视频生成功能,能够生成图像和视频。它使用简单的文本提示即可生成高质量的输出。
Grok Imagine 现在制作*视频*的时间仅为主要竞争对手制作单张图片所需时间的一半到四分之一!——埃隆·马斯克
毋庸置疑,Imagine 的速度和激情是毋庸置疑的。它操作简单,任何具备基本提示技能的人都可以使用 Grok 的 Imagine 将自己的想象变为现实。生成的视频时长为 6 秒,比 Veo 3 制作的视频短,但比 OpenAI 的 Sora 长。
Grok Imagine的主要功能有哪些?
Imagine 的一些主要功能包括:
- 文本转图像/视频生成:该模型根据文本提示创建图像和视频。用户只需提供他们想要的内容的详细描述,模型即可快速生成内容。
- 图像转视频生成:该模型还可以使用上传的图像作为参考来制作视频,将静态图片转换为动态场景。

- 音频集成:视频包含 AI 生成的音轨,可自动与视觉效果同步,完美契合氛围和主题。这里没有静音片段!
- 更少限制:想要激发创造力?启用“Spicy 模式”即可绕过严格的筛选,探索更具前卫感、更少审查的输出。非常适合喜欢突破界限的创作者。但涉及敏感内容时,仍然需要注意。

- 速度与创意的碰撞:大多数 AI 视频工具都需要等待(1-2 分钟——对 AI 来说简直是漫长的等待),而 Imagine 只需一半的时间,就能创造出更具创意的成果。快速并不意味着千篇一律。
- 语音命令魔法:无需打字——只需说出您的构想。Imagine 的语音支持功能让您能够通过自然的语音命令生成图像和视频,让创作变得如同灵感迸发般轻松。
谁可以使用Grok Imagine?
Imagine 目前处于测试阶段,仅供以下付费用户使用:
- Super Grok 和 Super Grok Heavy 用户可以抢先体验 Imagine 视频生成工具。
- X Premium + 和 Premium 用户没有资格享受抢先体验,但他们可以加入候补名单。如果他们是活跃的 X 用户,则有望很快获得访问权限。
目前,每个帐户可渲染的视频数量存在限制。Premium、Premium + 和 Super Grok Heavy 用户的上限分别为 50、100 和 500。
如何访问Imagine?
要访问 Grok 的 Imagine,请按以下步骤操作:
- 下载 Grok/Super Grok 移动应用程序(因为 Imagine 目前仅在移动应用程序中可用)
- 下载后,使用您的付费帐户登录
- 您会在顶部看到一个选项:Ask – Imagine。
- 点击 Imagine
在文本框中添加您的提示即可开始使用。
尝试Grok的Imagine功能
现在我们已经了解了 Grok 最新的视频生成功能,接下来让我们测试一下它在以下任务中的表现:
- 生成产品视频
- 生成病毒式表情包视频
- 生成电影镜头
任务1:产品视频
提示词:“A model picks up a lipstick, shaped like a metallic pen, placed on a 90’s retro style restaurant and applies it on her lips and smiles, the focus should be on the lips and the background needs to be of a retro style restaurant, which is slightly blurred. The name of the lipstick – Nude browns by Popper, comes on the screen at the end.”
输出:
该模型首先会根据你的提示生成各种图像。你可以选择最喜欢的图像。点击后,你将看到以下选项:

- 您可以通过点击“心形图标”将图片标记为收藏。
- 您可以通过点击“向下箭头图标”下载图片。
- 您可以通过点击“向上箭头图标”分享图片。
最后,在右侧,您会找到“make video”选项,点击它,几秒钟后,您将获得一段根据您的提示制作的视频,其中包含您选择的图片。
视频几乎瞬间生成,画质也让我惊喜!它完美地聚焦在口红上,完全符合我的提示。虽然看得出来这是AI生成的(模型在逼真地涂抹口红方面有些吃力),但高清画质依然令人眼前一亮。
真正让我印象深刻的是?提示里的每一个字都完全按照字面意思出现在视频里,没有任何尴尬的拼写错误或误解。
任务 2:表情包视频
提示词:”A monkey typing furiously on a laptop while another monkey asks it to come outside, while the first monkey refuses and says – AI Agents are coming to take its job”
输出:
不出所料,Imagine 生成了多个图像选项供我选择。然而,与我之前的经验不同,一些生成的图像包含错误的文本——这次的准确率明显下降。

拼写有错误。最后,在浏览了大量生成的图像后,我终于找到了一张文字正确、感觉与我给出的提示相似的图片。
虽然我的提示里还有其他问题,但我没能在一个图片里找到。不过,我用来生成视频的图片做了一个相当有趣的梗。它发出的声音听起来就像两只猴子在争吵。总的来说,我喜欢这个视频——它很有趣,也达到了预期目的。
任务 3:电影镜头
提示词:“A girl running through a dark alley, camera running with her, from the top, it starts to rain and she slips and looks back with fear, the last shot remains focused on her face, a cinematic shot.”
输出:
该工具提供了多种图像选项,但生成的视频并没有完全符合我的要求。虽然一开始效果很好——捕捉到了我要求的氛围和镜头——但随着视频的播放,质量明显下降。AI 生成的伪影变得明显,瑕疵也一目了然。
我怀疑模型表现不佳是因为我的任务包含多个复杂的请求。即便如此,音效还是恰到好处——完美匹配了场景的需求。
Grok Imagine怎么样?
我对 Imagine 的看法褒贬不一。Imagine 最棒的两点是它的速度和生成的图像质量。在视频生成方面,我认为我们很快就会看到它变得更好。目前,该模型落后于 Sora 和 Veo 3 以及像 Hulileo 和 Wan 这样的中国模型,它们都是视频生成潜力的典范。
随着任务的详细程度越来越高,Imagine 的效果也会越来越好,所以在生成视频时一定要尽可能多地提供背景信息。目前生成的声音只是普通的声音;它们与生成的视频不太融合。
小结
Imagine 是一个很棒的模型,但它还有很大的改进空间。鉴于它是 Grok 的第一个图像生成模型,我相信团队很快就会让它超越任何现有模型。目前,该模型表现良好,但鉴于市面上有如此多的先进视频生成模型,它确实感觉略显过时。
话虽如此,请继续尝试一下 Imagine。它非常适合快速片段和短视频来展示创意。而且,由于其相当灵活的速率限制,您可以用它真正创造出有意义的东西。


评论留言