Qwen-Image-2.0: унифицированная генерация и редактирование изображений в разрешении 2K, первое место на AI Arena

Alibaba

исследования офиц. + СМИ 3 ист. ~1 мин

Qwen-Image-2.0 — унифицированная модель генерации и редактирования изображений, объединяющая Qwen3-VL в качестве энкодера условий с Multimodal Diffusion Transformer. Поддерживает промпты до 1000 токенов, генерирует изображения в нативном разрешении 2K и занимает первое место на AI Arena в категориях text-to-image и редактирования изображений — при этом сокращая число параметров с 20B до 7B по сравнению с предшественником.

Почему это важно

#1 HF Daily Paper (87 апвотов); трёхкратное сокращение параметров при получении разрешения 2K и поддержки промптов до 1000 токенов ставит модель выше конкурентов для профессиональной генерации контента

Важность: 3/5

#1 HF Daily Paper с 87 апвотами; первое место на AI Arena в категориях text-to-image и редактирования изображений; значительный прирост параметрической эффективности от команды Qwen в Alibaba.

qwen multimodal image-generation diffusion efficiency

Источники

официальный Qwen-Image-2.0 Technical Report — arXiv:2605.10730

СМИ Qwen-Image-2.0 Technical Report — Hugging Face Daily Papers

СМИ Qwen-Image-2.0: Professional Infographics, Exquisite Photorealism — Alibaba Cloud Blog