約3分で読めます

Alibaba、オープンソース画像生成モデル「Qwen-Image-2512」を公開

Alibabaが2025年12月31日、20Bパラメータの画像生成モデル「Qwen-Image-2512」をApache 2.0ライセンスで公開しました。人物のリアリズム向上や高精度なテキスト描画が特徴です。

Alibabaの研究チーム「QwenLM」は2025年12月31日、テキストから画像を生成する基盤モデル「Qwen-Image-2512」を公開しました。Apache 2.0ライセンスで提供され、商用利用を含め自由に使用・改変・ファインチューニングが可能とのことです。

引用元情報

Qwen-Image-2512: Finer Details, Greater Realism https://qwen.ai/blog?id=qwen-image-2512

主な改善点

Qwen-Image-2512は、2025年8月にリリースされたQwen-Imageの12月アップデート版です。今回のアップデートでは、特に人物生成における「AI生成感」の低減に注力しており、より自然でリアルな人物画像の生成が可能になったとのことです。

また、風景や動物の毛並みなど自然物の描写がより詳細になり、テキスト要素の精度と品質も向上しています。レイアウトの改善により、テキストと画像を組み合わせたマルチモーダル構成においても、より忠実な出力が期待できるとされています。

ベンチマーク結果

QwenLMチームがAI Arenaで実施した1万回以上のブラインド評価によると、Qwen-Image-2512は現時点で最強のオープンソースモデルであり、クローズドソースモデルと比較しても高い競争力を持つことが示されています。

技術仕様とハードウェア要件

モデルは20BパラメータのMMDiT(Multimodal Diffusion Transformer)アーキテクチャを採用しています。対応アスペクト比は1:1、16:9、9:16など7種類で、英語・中国語のプロンプトに対応しています。

VRAM要件は以下の通りです:

  • FP16(フル精度): 約41GB
  • Q4_K_M(量子化版): 約13.1GB(RTX 4080/3090で動作可能)
  • Q2_K(低スペック版): 約7.22GB(ミッドレンジGPUで動作可能)

Unslothによる最適化済みGGUF版も公開されており、一般的なコンシューマーPCでも動作させることが可能です。

利用方法

モデルの重みはHugging FaceおよびModelScopeで公開されています。また、Qwen Chatを通じて直接利用することも可能です。GitHubリポジトリではサンプルコードや詳細なドキュメントが提供されており、開発者はすぐに実装を開始できる環境が整っています。

この記事をシェア: X Facebook

関連記事

関連記事は準備中です