Japanese Stable CLIP を試してみた

Japanese Stable Diffusion XL を試してみた


Stablity AI 社より、日本語プロンプトで入力可能な、出力画像も日本向けにチューニングした text-to-image モデルがリリースされました。

要約

  • GeForce 2070 (VRAM 8GB) でも動いた
  • Hugging Face の Usage にあるコードを実行すると、1枚画像を生成するのに 40 分ぐらいかかる
  • Google colab のノートブックを使うと、Gradio の WebUI で実行できる。これだと 1 枚生成するのに 40 秒ぐらい。

手順 1

Hugging Face でモデルの利用許諾を承認し、アクセストークンを取得します。

いつもの Docker イメージで起動します。
docker run -it --gpus=all --rm -v /work:/work nvidia/cuda:11.8.0-base-ubuntu22.04 /bin/bash


必要なツールをインストールします。
apt update
apt install -y git python3-pip libgl1-mesa-dev libglib2.0-0
pip install Diffusers sentencepiece


アクセストークンを使って Hugging Face にログインします。
huggingface-cli login


例にある Python コードを実行します。
from diffusers import DiffusionPipeline
import torch

pipeline = DiffusionPipeline.from_pretrained(
    "stabilityai/japanese-stable-diffusion-xl", trust_remote_code=True
)
pipeline.to("cuda")

# if using torch < 2.0
# pipeline.enable_xformers_memory_efficient_attention()

prompt = "柴犬、カラフルアート"

image = pipeline(prompt=prompt).images[0]
image.show()
VScode で実行してみた例です。

手順 2

さすがに 1 枚 40 分だとキツいです。また、プロンプトを修正するのも面倒ですね。
Stability AI の記事にある「以下より、JSDXL をお試しいただけます。」にある Colab を開くと、そのまま Japanese Stable Diffusion XL が実行できるノートブックになっています。これを実行すると、Gradio の WebUI が起動するので、いつものようにプロンプトを入力して生成することが可能です。
このノートブックをローカルの VScode などで実行することも可能です。こちらにすると、40 秒かからない程度で生成できるので、これぐらいなら何とか・・・という感じですね。



コメント