- リンクを取得
- ×
- メール
- 他のアプリ
Stablity AI 社より、日本語プロンプトで入力可能な、出力画像も日本向けにチューニングした text-to-image モデルがリリースされました。
要約
- GeForce 2070 (VRAM 8GB) でも動いた
- Hugging Face の Usage にあるコードを実行すると、1枚画像を生成するのに 40 分ぐらいかかる
- Google colab のノートブックを使うと、Gradio の WebUI で実行できる。これだと 1 枚生成するのに 40 秒ぐらい。
手順 1
Hugging Face でモデルの利用許諾を承認し、アクセストークンを取得します。
いつもの Docker イメージで起動します。
docker run -it --gpus=all --rm -v /work:/work nvidia/cuda:11.8.0-base-ubuntu22.04 /bin/bash
必要なツールをインストールします。
apt update apt install -y git python3-pip libgl1-mesa-dev libglib2.0-0 pip install Diffusers sentencepiece
アクセストークンを使って Hugging Face にログインします。
huggingface-cli login
例にある Python コードを実行します。
from diffusers import DiffusionPipeline import torch pipeline = DiffusionPipeline.from_pretrained( "stabilityai/japanese-stable-diffusion-xl", trust_remote_code=True ) pipeline.to("cuda") # if using torch < 2.0 # pipeline.enable_xformers_memory_efficient_attention() prompt = "柴犬、カラフルアート" image = pipeline(prompt=prompt).images[0] image.show()VScode で実行してみた例です。
手順 2
さすがに 1 枚 40 分だとキツいです。また、プロンプトを修正するのも面倒ですね。
Stability AI の記事にある「以下より、JSDXL をお試しいただけます。」にある Colab を開くと、そのまま Japanese Stable Diffusion XL が実行できるノートブックになっています。これを実行すると、Gradio の WebUI が起動するので、いつものようにプロンプトを入力して生成することが可能です。
このノートブックをローカルの VScode などで実行することも可能です。こちらにすると、40 秒かからない程度で生成できるので、これぐらいなら何とか・・・という感じですね。
コメント
コメントを投稿