业界动态

阿里通义千问首个图像生成基础模型Qwen-Image开源

发布日期：2025-08-05

来源：IT之家

8 月 5 日消息，阿里通义千问团队今日宣布开源 Qwen-Image，这是一个 20B 的 MMDiT 模型，也是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。

Qwen-Image 的主要特性包括：

文本渲染能力：Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。

一致性的图像编辑能力：通过增强的多任务训练范式，Qwen-Image 在编辑过程中能保持编辑的一致性。

跨基准性能表现：在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得 SOTA。

通义千问团队在多个公开基准上对 Qwen-Image 进行了全面评估，包括用于通用图像生成的 GenEval、DPG 和 OneIG-Bench，以及用于图像编辑的 GEdit、ImgEdit 和 GSO。

Qwen-Image 在所有基准测试中均取得了最先进的性能。此外，在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果表明，Qwen-Image 在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。

除了文本处理，Qwen-Image 在通用图像生成方面支持多种艺术风格。从照片级写实场景到印象派绘画，从动漫风格到极简设计，该模型能够灵活响应各种创意提示。

在图像编辑方面，Qwen-Image 支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作。这让普通用户也能实现专业级的图像编辑。

Magazine.Subscription.jpg

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306116；邮箱：aet@chinaaet.com。

通义千问 Qwen

点击查看ChinaAET RISC-V专题

什么是数字化转型？

进入订阅《网络安全与数据治理》杂志

技术沙龙-数据要素资产化为网络安全行业带来的新发展机遇

电子技术应用杂志过刊一览