Qwen-Image 是阿里巴巴通义千问团队开源的一个 20B 参数的 MMDiT 模型,在复杂文本渲染和精确图像编辑方面取得了重大进展。它在包括 GenEval、DPG 和 OneIG-Bench 在内的所有 9 项公共基准测试中排名第一,中英文文本渲染达到商业标准。
了解 Qwen-Image 的独特之处。这个强大的 AI 模型提供卓越的文本渲染和图像生成能力,可与顶级商业模型相媲美。
Qwen-Image 擅长在图像中渲染复杂文本,支持原生多语言。生成具有精确中英文文本渲染的图像,达到商业标准,非常适合创建包含文本元素的设计。
以像素级精度转换现有图像。Qwen-Image 的图像到图像功能允许您编辑和优化视觉效果,同时保持结构完整性和关键构图细节。
在包括 GenEval、DPG 和 OneIG-Bench 在内的所有 9 项公共基准测试中排名第一。Qwen-Image 提供最先进的结果,在多个评估指标上超越竞争模型。
支持文本到图像和图像到图像两种生成模式。从头创建令人惊叹的视觉效果,或使用先进的 AI 功能转换现有图像,全部集成在一个强大的模型中。
探索推动 Qwen-Image 卓越性能的技术能力:
基于庞大的 20B 参数 MMDiT(多模态扩散 Transformer)架构构建,Qwen-Image 利用先进的 Transformer 技术实现卓越的图像生成质量。
支持多种宽高比生成图像,包括正方形、竖版(3:4、9:16)和横版(4:3、16:9)格式。为您的项目需求选择完美尺寸。
通过引导比例、推理步数、种子控制和去噪强度等参数微调生成。通过精细控制生成过程实现精确结果。
内置安全检查器和质量控制确保生成的内容符合标准。配置输出格式(PNG/JPEG)和加速选项以获得最佳性能。
发现使 Qwen-Image 成为 AI 图像生成和编辑明智选择的优势:
作为阿里巴巴通义千问团队的开源模型,Qwen-Image 提供透明度、灵活性和社区驱动的改进。可自由用于商业和研究目的。
拥有 20B 参数和 MMDiT 架构,Qwen-Image 提供满足商业标准的专业质量结果。非常适合需要可靠 AI 图像生成的企业、创作者和开发者。
原生支持多种语言的文本渲染,特别是中文和英文。为全球受众生成具有准确文本元素的图像,无需额外处理。
将 Qwen-Image 无缝集成到您的创意工作流中。支持各种图像尺寸、格式和生成参数,使其适用于从营销到设计的各种用例。
查找关于 Qwen-Image 及其能力的常见问题答案。