
Qwen 模型還有什麼做不到的嗎?到目前為止,他們的文字和編碼模型在大多數排行榜和領域都名列前茅。正因如此,阿里巴巴的 Qwen 團隊才敢於創新。阿里巴巴釋出了“Qwen-Image”——一個原生的文字渲染影像生成模型,旨在挑戰 GPT-4.1、DALL-E 2 或 Midjourney 的霸主地位。最棒的是?它是免費的,更棒的是,它對所有人開放!在這篇文章中,我們將為您提供有關 Qwen-Image 的所有詳細資訊,包括如何使用它、它的效能、應用程式等等。
讓我們來看看 Qwen-Image 是否“Qwen-tastic”!
什麼是Qwen-Image?
Qwen Image 是阿里巴巴 Qwen 團隊最新的影像生成模型。它是一個 200 億 MMDiT 影像基礎模型,這意味著該模型包含 200 億個引數,是一個多模態擴散變換器模型。 Qwen-Image 是一個開放權重的文字到影像生成模型,目前在人工智慧分析影像競技場排行榜上排名第五,並且是唯一一個進入前十名的開放權重模型!

Source: X
Qwen-Image模型是如何工作的?
Qwen-Image 模型沿用了 OpenAI GPT-4o 中的方法。它利用自迴歸 Transformer 架構進行影像生成和編輯。為此,該模型採用雙重編碼方法:
- Qwen2.5-VL 對提示的語義進行編碼
- 影像生成使用擴散模型 MMDiT 在潛在空間中進行
- 最終影像由 VAE 編碼器從該潛在空間生成。
You can read the full technical report of the Qwen-Image model here.
您可以在此處閱讀 Qwen-Image 模型的完整技術報告。
Qwen-Image的主要特點
Qwen-Image 的一些突出特點包括:
- 增強的文字整合:Qwen-Image 模型在整合複雜文字方面表現出色,無論是多行佈局、段落,還是精細的細節。它同樣適用於字母語言(例如英語)和表意文字語言(例如中文)。
- 高效的影像編輯:該模型提供卓越的影像編輯功能。在編輯過程中,模型在融入新變化的同時,保留了實際影像的語義和視覺含義。
- 易用性:該模型易於使用,即使在簡單的提示下也能良好執行。
這些功能以及該模型的卓越效能已在各種基準測試中得到驗證,使 Qwen-Image 成為一款強大的影像生成模型。
如何訪問Qwen-Image?
要透過聊天訪問 Qwen-Image 模型,
- 請訪問 https://chat.qwen.ai/
- 選擇任意非編碼模型,例如 Qwen-235B-A3B-2507

3. 在文字框下方,螢幕中間,選擇“Image Generation”。在文字框中輸入您的提示並開始!您可以透過其他方式訪問模型,例如:
試用Qwen Image
現在我們已經瞭解了 Qwen-Image 的諸多細節,接下來讓我們測試一下它的三個主要任務:
- 生成文字密集型圖片
- 生成資訊圖
- 編輯圖片
讓我們逐一介紹:
任務 1:設計網頁
提示詞:“Create a visually engaging landing page for a shampoo product. Highlight the shampoo’s unique features (e.g., hydration, repair, or natural ingredients) with a clean and modern design. Include a hero section with the shampoo bottle image, a catchy headline like ‘Transform Your Hair Today,’ and a call-to-action button (‘Shop Now’ or ‘Learn More’). Add sections for benefits, key ingredients, customer testimonials, and a subscription option. Use soft, fresh colors, high-quality visuals, and ensure the layout is mobile-friendly and conversion-focused.”
輸出:

生成的影像效果很好;它包含了很多我要求合併的文字。它很好地抓住了提示的精髓,並且對整個影像進行了恰當的設計。但也有一些不足之處。雖然拼寫正確,但有一處單詞不完整,而且我提到的一些單詞沒有被合併。我喜歡模型為這項任務選擇的顏色主題。
任務 2:建立流程圖
提示詞:“ Design a clear, modern infographic that explains the image generation process of a 20B MMDiT foundation model in 3 steps:
- Prompt Encoding: Show Qwen2.5-VL encoding the semantic meaning of the user’s prompt.
- Latent Space Generation: Visualize MMDiT diffusion creating an abstract image in latent space.
- Final Image Creation: Illustrate a VAE decoder transforming the latent representation into the final high-quality image.
Use icons, arrows, and short labels for each step. The flow should be visually logical and easy to follow, with a tech-inspired color palette.”
輸出:

我一點也不喜歡這個輸出。有些地方的文字缺失,有些地方則完全模糊不清。圖示和整體影像感覺有點混亂。步驟 1、2、3 的流程都還清晰,但影像卻很不清晰。
任務 3:影像編輯
輸入影像:

提示詞:“Change the night into a sunny morning, replace the man’s clothes with an orange shirt and white shorts, and replace the cat with a small puppy.”
輸出:

這個結果簡直完美。簡直完美。我要求的所有改變都發生在影像中。光線合適,衣服和動物都改變了。一個小問題:雖然模型用白天取代了夜晚,但並沒有移除月亮,儘管它使它看起來像一朵圓形的雲。這是一張編輯得非常好的影像,只花了幾秒鐘就生成了!
我對Qwen-Image的使用體驗
總的來說,我非常喜歡該模型的編輯功能,但影像生成,尤其是在合併大量文字或設計資訊圖表方面,是 Qwen-Image 未來需要大力改進的地方——尤其是如果它想與 OpenAI、Google 或 X 等公司競爭的話。

但它有一個非常酷的功能,而大多數頂級模型都沒有。您可以直接從文字框中選擇所需的幀大小!如果您是內容創作者,這真的可以幫助您為每個社交媒體平臺建立“合適大小”的影像。
Qwen Image:效能表現
現在我們已經測試了該模型,讓我們來看看 Qwen 團隊釋出的 Qwen-Image 模型與其他同類模型的效能對比結果:
影像生成和編輯基準測試
- Qwen-Image 模型在幾乎所有影像生成和編輯基準測試中都領先或與最佳模型不相上下。
- GPT-4.1 和 Seedream3.0 是 Qwen-Image 的強勁競爭對手,在多個基準測試中得分與其不相上下。
- FLUX.1 模型是一個不錯的競爭對手,但落後於 Qwen-image 模型。
文字渲染基準測試

- Qwen-Image 在中文文字渲染方面領先,在英語渲染方面也遙遙領先。
- GPT4.1 在多個基準測試中超越或匹敵 Qwen-image。
- Seedream 3.0 是一個強勁的競爭對手,但在中文和英語基準測試中均落後於 Qwen-Image。
小結
Qwen 模型目前在文字和編碼任務的排行榜上佔據主導地位。Qwen-Image 擁有類似的潛力,但尚未完全實現。該模型能夠遵循提示,但在處理大量上下文時會遇到困難。但它對開源社羣來說是一個偉大的禮物。它在完全開源的情況下,可以與頂級付費模型競爭。隨著使用者和開發者越來越多地使用 Qwen-Image,我們很快就能期待 Qwen-Image 模型也能引領影像生成分析!
我的最終想法——嘗試一下 Qwen-Image 模型。它很好,只是我們周圍有很多優秀的模型,而沒有意識到它的潛力。
您還可以閱讀關於尋找最佳 AI 影像生成模型的文章。
如果您想了解其他免費影像生成模型,可以參考以下文章:2025 年值得嘗試的 7 大 AI 影像生成器。

評論留言