Alibaba、オープンソース画像生成モデル「Qwen-Image-2512」を公開

Alibabaの研究チーム「QwenLM」は2025年12月31日、テキストから画像を生成する基盤モデル「Qwen-Image-2512」を公開しました。Apache 2.0ライセンスで提供され、商用利用を含め自由に使用・改変・ファインチューニングが可能とのことです。

Qwen-Image-2512: Finer Details, Greater Realism https://qwen.ai/blog?id=qwen-image-2512

Qwen-Image-2512は、2025年8月にリリースされたQwen-Imageの12月アップデート版です。今回のアップデートでは、特に人物生成における「AI生成感」の低減に注力しており、より自然でリアルな人物画像の生成が可能になったとのことです。

また、風景や動物の毛並みなど自然物の描写がより詳細になり、テキスト要素の精度と品質も向上しています。レイアウトの改善により、テキストと画像を組み合わせたマルチモーダル構成においても、より忠実な出力が期待できるとされています。

QwenLMチームがAI Arenaで実施した1万回以上のブラインド評価によると、Qwen-Image-2512は現時点で最強のオープンソースモデルであり、クローズドソースモデルと比較しても高い競争力を持つことが示されています。

モデルは20BパラメータのMMDiT（Multimodal Diffusion Transformer）アーキテクチャを採用しています。対応アスペクト比は1:1、16:9、9:16など7種類で、英語・中国語のプロンプトに対応しています。

VRAM要件は以下の通りです：

Unslothによる最適化済みGGUF版も公開されており、一般的なコンシューマーPCでも動作させることが可能です。

モデルの重みはHugging FaceおよびModelScopeで公開されています。また、Qwen Chatを通じて直接利用することも可能です。GitHubリポジトリではサンプルコードや詳細なドキュメントが提供されており、開発者はすぐに実装を開始できる環境が整っています。