
Qwen 模型还有什么做不到的吗?到目前为止,他们的文本和编码模型在大多数排行榜和领域都名列前茅。正因如此,阿里巴巴的 Qwen 团队才敢于创新。阿里巴巴发布了“Qwen-Image”——一个原生的文本渲染图像生成模型,旨在挑战 GPT-4.1、DALL-E 2 或 Midjourney 的霸主地位。最棒的是?它是免费的,更棒的是,它对所有人开放!在这篇文章中,我们将为您提供有关 Qwen-Image 的所有详细信息,包括如何使用它、它的性能、应用程序等等。
让我们来看看 Qwen-Image 是否“Qwen-tastic”!
什么是Qwen-Image?
Qwen Image 是阿里巴巴 Qwen 团队最新的图像生成模型。它是一个 200 亿 MMDiT 图像基础模型,这意味着该模型包含 200 亿个参数,是一个多模态扩散变换器模型。 Qwen-Image 是一个开放权重的文本到图像生成模型,目前在人工智能分析图像竞技场排行榜上排名第五,并且是唯一一个进入前十名的开放权重模型!

Source: X
Qwen-Image模型是如何工作的?
Qwen-Image 模型沿用了 OpenAI GPT-4o 中的方法。它利用自回归 Transformer 架构进行图像生成和编辑。为此,该模型采用双重编码方法:
- Qwen2.5-VL 对提示的语义进行编码
- 图像生成使用扩散模型 MMDiT 在潜在空间中进行
- 最终图像由 VAE 编码器从该潜在空间生成。
You can read the full technical report of the Qwen-Image model here.
您可以在此处阅读 Qwen-Image 模型的完整技术报告。
Qwen-Image的主要特点
Qwen-Image 的一些突出特点包括:
- 增强的文本整合:Qwen-Image 模型在整合复杂文本方面表现出色,无论是多行布局、段落,还是精细的细节。它同样适用于字母语言(例如英语)和表意文字语言(例如中文)。
- 高效的图像编辑:该模型提供卓越的图像编辑功能。在编辑过程中,模型在融入新变化的同时,保留了实际图像的语义和视觉含义。
- 易用性:该模型易于使用,即使在简单的提示下也能良好运行。
这些功能以及该模型的卓越性能已在各种基准测试中得到验证,使 Qwen-Image 成为一款强大的图像生成模型。
如何访问Qwen-Image?
要通过聊天访问 Qwen-Image 模型,
- 请访问 https://chat.qwen.ai/
- 选择任意非编码模型,例如 Qwen-235B-A3B-2507

3. 在文本框下方,屏幕中间,选择“Image Generation”。在文本框中输入您的提示并开始!您可以通过其他方式访问模型,例如:
试用Qwen Image
现在我们已经了解了 Qwen-Image 的诸多细节,接下来让我们测试一下它的三个主要任务:
- 生成文本密集型图片
- 生成信息图
- 编辑图片
让我们逐一介绍:
任务 1:设计网页
提示词:“Create a visually engaging landing page for a shampoo product. Highlight the shampoo’s unique features (e.g., hydration, repair, or natural ingredients) with a clean and modern design. Include a hero section with the shampoo bottle image, a catchy headline like ‘Transform Your Hair Today,’ and a call-to-action button (‘Shop Now’ or ‘Learn More’). Add sections for benefits, key ingredients, customer testimonials, and a subscription option. Use soft, fresh colors, high-quality visuals, and ensure the layout is mobile-friendly and conversion-focused.”
输出:

生成的图像效果很好;它包含了很多我要求合并的文本。它很好地抓住了提示的精髓,并且对整个图像进行了恰当的设计。但也有一些不足之处。虽然拼写正确,但有一处单词不完整,而且我提到的一些单词没有被合并。我喜欢模型为这项任务选择的颜色主题。
任务 2:创建流程图
提示词:“ Design a clear, modern infographic that explains the image generation process of a 20B MMDiT foundation model in 3 steps:
- Prompt Encoding: Show Qwen2.5-VL encoding the semantic meaning of the user’s prompt.
- Latent Space Generation: Visualize MMDiT diffusion creating an abstract image in latent space.
- Final Image Creation: Illustrate a VAE decoder transforming the latent representation into the final high-quality image.
Use icons, arrows, and short labels for each step. The flow should be visually logical and easy to follow, with a tech-inspired color palette.”
输出:

我一点也不喜欢这个输出。有些地方的文字缺失,有些地方则完全模糊不清。图标和整体图像感觉有点混乱。步骤 1、2、3 的流程都还清晰,但图像却很不清晰。
任务 3:图像编辑
输入图像:

提示词:“Change the night into a sunny morning, replace the man’s clothes with an orange shirt and white shorts, and replace the cat with a small puppy.”
输出:

这个结果简直完美。简直完美。我要求的所有改变都发生在图像中。光线合适,衣服和动物都改变了。一个小问题:虽然模型用白天取代了夜晚,但并没有移除月亮,尽管它使它看起来像一朵圆形的云。这是一张编辑得非常好的图像,只花了几秒钟就生成了!
我对Qwen-Image的使用体验
总的来说,我非常喜欢该模型的编辑功能,但图像生成,尤其是在合并大量文本或设计信息图表方面,是 Qwen-Image 未来需要大力改进的地方——尤其是如果它想与 OpenAI、Google 或 X 等公司竞争的话。

但它有一个非常酷的功能,而大多数顶级模型都没有。您可以直接从文本框中选择所需的帧大小!如果您是内容创作者,这真的可以帮助您为每个社交媒体平台创建“合适大小”的图像。
Qwen Image:性能表现
现在我们已经测试了该模型,让我们来看看 Qwen 团队发布的 Qwen-Image 模型与其他同类模型的性能对比结果:
图像生成和编辑基准测试
- Qwen-Image 模型在几乎所有图像生成和编辑基准测试中都领先或与最佳模型不相上下。
- GPT-4.1 和 Seedream3.0 是 Qwen-Image 的强劲竞争对手,在多个基准测试中得分与其不相上下。
- FLUX.1 模型是一个不错的竞争对手,但落后于 Qwen-image 模型。
文本渲染基准测试

- Qwen-Image 在中文文本渲染方面领先,在英语渲染方面也遥遥领先。
- GPT4.1 在多个基准测试中超越或匹敌 Qwen-image。
- Seedream 3.0 是一个强劲的竞争对手,但在中文和英语基准测试中均落后于 Qwen-Image。
小结
Qwen 模型目前在文本和编码任务的排行榜上占据主导地位。Qwen-Image 拥有类似的潜力,但尚未完全实现。该模型能够遵循提示,但在处理大量上下文时会遇到困难。但它对开源社区来说是一个伟大的礼物。它在完全开源的情况下,可以与顶级付费模型竞争。随着用户和开发者越来越多地使用 Qwen-Image,我们很快就能期待 Qwen-Image 模型也能引领图像生成分析!
我的最终想法——尝试一下 Qwen-Image 模型。它很好,只是我们周围有很多优秀的模型,而没有意识到它的潜力。
您还可以阅读关于寻找最佳 AI 图像生成模型的文章。
如果您想了解其他免费图像生成模型,可以参考以下文章:2025 年值得尝试的 7 大 AI 图像生成器。


评论留言