Alibaba、オープンソース画像生成モデル「Qwen-Image-2512」を公開
Alibabaが2025年12月31日、20Bパラメータの画像生成モデル「Qwen-Image-2512」をApache 2.0ライセンスで公開しました。人物のリアリズム向上や高精度なテキスト描画が特徴です。
Alibabaの研究チーム「QwenLM」は2025年12月31日、テキストから画像を生成する基盤モデル「Qwen-Image-2512」を公開しました。Apache 2.0ライセンスで提供され、商用利用を含め自由に使用・改変・ファインチューニングが可能とのことです。
引用元情報
Qwen-Image-2512: Finer Details, Greater Realism https://qwen.ai/blog?id=qwen-image-2512
主な改善点
Qwen-Image-2512は、2025年8月にリリースされたQwen-Imageの12月アップデート版です。今回のアップデートでは、特に人物生成における「AI生成感」の低減に注力しており、より自然でリアルな人物画像の生成が可能になったとのことです。
また、風景や動物の毛並みなど自然物の描写がより詳細になり、テキスト要素の精度と品質も向上しています。レイアウトの改善により、テキストと画像を組み合わせたマルチモーダル構成においても、より忠実な出力が期待できるとされています。
ベンチマーク結果
QwenLMチームがAI Arenaで実施した1万回以上のブラインド評価によると、Qwen-Image-2512は現時点で最強のオープンソースモデルであり、クローズドソースモデルと比較しても高い競争力を持つことが示されています。
技術仕様とハードウェア要件
モデルは20BパラメータのMMDiT(Multimodal Diffusion Transformer)アーキテクチャを採用しています。対応アスペクト比は1:1、16:9、9:16など7種類で、英語・中国語のプロンプトに対応しています。
VRAM要件は以下の通りです:
- FP16(フル精度): 約41GB
- Q4_K_M(量子化版): 約13.1GB(RTX 4080/3090で動作可能)
- Q2_K(低スペック版): 約7.22GB(ミッドレンジGPUで動作可能)
Unslothによる最適化済みGGUF版も公開されており、一般的なコンシューマーPCでも動作させることが可能です。
利用方法
モデルの重みはHugging FaceおよびModelScopeで公開されています。また、Qwen Chatを通じて直接利用することも可能です。GitHubリポジトリではサンプルコードや詳細なドキュメントが提供されており、開発者はすぐに実装を開始できる環境が整っています。