Japanese Stable Diffusion XL を試してみた

日本特化の商用利用可能 text-to-image モデル「Japanese Stable Diffusion XL」をリリースしました

Stablity AI 社より、日本語プロンプトで入力可能な、出力画像も日本向けにチューニングした text-to-image モデルがリリースされました。

要約

GeForce 2070 (VRAM 8GB) でも動いた
Hugging Face の Usage にあるコードを実行すると、1枚画像を生成するのに 40 分ぐらいかかる
Google colab のノートブックを使うと、Gradio の WebUI で実行できる。これだと 1 枚生成するのに 40 秒ぐらい。

手順 1

Hugging Face でモデルの利用許諾を承認し、アクセストークンを取得します。

https://huggingface.co/stabilityai/japanese-stable-diffusion-xl

いつもの Docker イメージで起動します。

docker run -it --gpus=all --rm -v /work:/work nvidia/cuda:11.8.0-base-ubuntu22.04 /bin/bash

必要なツールをインストールします。

apt update
apt install -y git python3-pip libgl1-mesa-dev libglib2.0-0
pip install Diffusers sentencepiece

アクセストークンを使って Hugging Face にログインします。

huggingface-cli login

例にある Python コードを実行します。

from diffusers import DiffusionPipeline
import torch

pipeline = DiffusionPipeline.from_pretrained(
    "stabilityai/japanese-stable-diffusion-xl", trust_remote_code=True
)
pipeline.to("cuda")

# if using torch < 2.0
# pipeline.enable_xformers_memory_efficient_attention()

prompt = "柴犬、カラフルアート"

image = pipeline(prompt=prompt).images[0]
image.show()

VScode で実行してみた例です。

手順 2

さすがに 1 枚 40 分だとキツいです。また、プロンプトを修正するのも面倒ですね。

Stability AI の記事にある「以下より、JSDXL をお試しいただけます。」にある Colab を開くと、そのまま Japanese Stable Diffusion XL が実行できるノートブックになっています。これを実行すると、Gradio の WebUI が起動するので、いつものようにプロンプトを入力して生成することが可能です。

このノートブックをローカルの VScode などで実行することも可能です。こちらにすると、40 秒かからない程度で生成できるので、これぐらいなら何とか・・・という感じですね。

試行錯誤を重ねるブログ

このブログを検索

Japanese Stable CLIP を試してみた