Japanese Stable CLIP を試してみた

Stable Diffusion


2022年8月に公開されたようなので、今更ではありますが、Stable Diffusion というものを知りました。Text to Image、作りたい画像を文字で記述すると画像を生成してくれるツールです。
Microsoft も、OpenAI と協力して Bing Image Creator をリリースしていますが、それと同様のツールです。それらとの大きな違いは、ローカルマシンで動かせる、オープンソース (多分) なツールであること。

ローカルマシンで動かせるといっても、Web 上で見かけるインストールしてみた系の情報では「コスパ重視」で RTX3060 を選ぶと良い!なんて書かれている程度のマシンを所有している前提です。手元にあるのは Quadro K2200M に載せ替えた 8560w。VRAM は 2GB なので、さすがに無理そうな気がしますが、一応やってみます。

Stable Diffusion はそのままだと使いづらいので、WebUI を使います。

上記リポジトリをクローンし、webui-user.bat を実行してみます。モデルのダウンロードが行われますが、
エラーで落ちます。「CUDA out of memory」とありますし、タスクマネージャでも専用 GPU メモリの使用率が跳ね上がっているのがわかるので、VRAM 不足なのでしょう。

無理かと思いましたが、調べたところ、VRAM が少ない環境でも動作する起動オプションがあるようなので、それを試してみます。webui-user.bat をメモ帳などで開き、
set COMMANDLINE_ARGS=--lowvram
で保存します。そして変更した webui-user.bat を実行します。
(--medvram オプションでは起動できないことも確認しました)
起動した? 表示されている URL (Running on local URL:  http://127.0.0.1:7860) をブラウザで開いてみると、無事 WebUI が開きます。

画像の生成もできました。ただ、1枚生成するのに 2 分程度かかるのと、Width、Height を 512 より大きくすると画像の生成に失敗します。

2 分待たされて、なかなか「これは!」という画像にあたらないことも多いですが、CPU やメモリにはそれほど負荷がかからないので、何かのついでに処理をさせておけば気にならないように感じます。

コメント