File size: 9,403 Bytes
97b9a13 6f17756 97b9a13 c241ba4 97b9a13 36b27f9 5117613 36b27f9 5117613 36b27f9 93afff2 36b27f9 38d74c9 36b27f9 c82381f 36b27f9 5d37719 310db80 5d37719 23cb7dd 5d37719 06ce4fe 36b27f9 0988bfa 36b27f9 93afff2 36b27f9 93afff2 36b27f9 439b856 36b27f9 439b856 36b27f9 0988bfa 36b27f9 93afff2 36b27f9 93afff2 36b27f9 93afff2 36b27f9 0988bfa 36b27f9 93afff2 0988bfa 10fe604 93afff2 0988bfa 36b27f9 93afff2 36b27f9 2f05a74 0af0cf4 36b27f9 93afff2 36b27f9 93afff2 36b27f9 c241ba4 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 |
---
library_name: diffusers
license: other
license_name: stabilityai-ai-community
license_link: LICENSE.md
language:
- en
base_model:
- stabilityai/stable-diffusion-3.5-large
---
# Emi 3 Model Card

# はじめに
Emi 3 (Ethereal master of illustration 3) は、
オプトアウト済みモデルStable Diffusion 3.5 Largeをベースに
AI Picasso社が開発したAIアートに特化した画像生成AIです。
このモデルの特徴として、Danbooruなどにある無断転載画像を追加に学習していないことがあげられます。
# 使い方
本格的に利用する人は[ここ](emi3.safetensors)からモデルをダウンロードできます。
簡易的に[ここ](https://huggingface.co/spaces/aipicasso/emi-3)からデモを利用することができますが、
出来がイマイチなので、ローカルで使うことをおすすめします。
# モデルの出力向上について
- プロンプトとして約200単語の自然言語を使うことができます。また、AnimagineXLと同じプロンプトを使うこともできます。
- ChatGPTを用いてプロンプトを洗練すると、自分の枠を超えた作品に出会えます。
# シンプルな作品例
大規模言語モデルでプロンプトの作成を補助しています。

```
positive: 1girl with the speech bubble saying "Happy Holidays!", upper body, sivler short hair, blue eyes, warm wear, outdoor, snow
negative: photo
```

```
positive: manga style, monochrome, an aerial view of Tokyo's cityscape. The scene captures the sunset view with dense clusters of modern skyscrapers in Shinjuku and Shibuya. The intricate network of illuminated streets and highways is visible, showcasing the unique landscape where traditional low-rise buildings coexist with contemporary architecture. Mount Fuji's silhouette can be seen in the distant background, while soft evening lights from office buildings and streets envelop the entire city. The image should be ultra high-resolution and photorealistic, composed as if shot with a wide-angle lens from approximately 1,000 feet altitude.
negative:
```

```
positive: Full body shot of a mysterious teenage boy in anime style, with wild spiky red and orange hair that seems to flicker like flames. He's wearing a black sleeveless top with red accents and dark baggy pants with flame patterns along the hem. His amber eyes glow with inner fire, and wisps of flame dance around his outstretched hands. His pose is dynamic, suggesting movement, with one hand raised commanding the fire. The lighting is dramatic, with the flames he controls casting warm orange light across his determined expression. The art style is clean and sharp, reminiscent of modern action anime. Background shows subtle smoke effects and ember particles floating in the air."
negative: photo, bad hands, bad anatomy, low quality
```
# 法律について
本モデルは日本にて作成されました。したがって、日本の法律が適用されます。
本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。
また、本モデルの配布については、著作権法や刑法175条に照らしてみても、
正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の[見解](https://twitter.com/tka0120/status/1601483633436393473?s=20&t=yvM9EX0Em-_7lh8NJln3IQ)を御覧ください。
ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。
# 連絡先
[email protected]
以下、一般的なモデルカードの日本語訳です。
## モデル詳細
- **モデルタイプ:** フローベースの text-to-image 生成モデル
- **言語:** 日本語
- **ライセンス:** [Stabilityai AI Community](LICENSE.md)
- **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Rectified Flow Transformer](https://stability.ai/news/stable-diffusion-3-research-paper) と [OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip)、[CLIP-L](https://github.com/openai/CLIP) 、[T5](https://arxiv.org/abs/1910.10683) です。
- **補足:**
## モデルの使用例
Stable Diffusion 3.5 Largeと同じ使い方です。
たくさんの方法がありますが、2つのパターンを提供します。
- ComfyUI (おすすめ)
- Diffusers
### ComfyUIの場合 (おすすめ)
Stable Diffusion 3.5 Large の使い方と同じく、safetensors形式のモデルファイルを使ってください。
詳しいインストール方法は、[こちらの記事](https://tensorflow.classcat.com/2024/10/23/sd35-large-colab-comfyui/)を参照してください。
### Diffusersの場合
[🤗's Diffusers library](https://github.com/huggingface/diffusers) を使ってください。
まずは、以下のスクリプトを実行し、ライブラリをいれてください。
```bash
pip install -U diffusers
```
次のスクリプトを実行し、画像を生成してください。
```py
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("aipicasso/emi-3", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"anime style, 1girl, looking at viewer, serene expression, gentle smile, multicolored hair, rainbow gradient hair, wavy long hair, heterochromia, purple left eye, blue right eye, pastel color scheme, magical girl aesthetic, white text overlay \"Emi 3\", centered text, modern typography, ethereal lighting, soft glow, fantasy atmosphere, rainbow gradient background, dreamy atmosphere, sparkles, light particles, magical effects, depth of field, bokeh effect",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("emi3.png")
```
複雑な操作は[デモのソースコード](https://huggingface.co/spaces/aipicasso/emi-3/blob/main/app.py)を参考にしてください。
#### 想定される用途
- イラストや漫画、アニメの作画補助
- 商用・非商用は問わない
- 依頼の際のクリエイターとのコミュニケーション
- 画像生成サービスの商用提供
- 生成物の取り扱いには注意して使ってください。
- 自己表現
- このAIを使い、「あなた」らしさを発信すること
- 研究開発
- ファインチューニング(追加学習とも)
- LoRA など
- 他のモデルとのマージ
- 本モデルの性能をFIDなどで調べること
- 教育
- 美大生や専門学校生の卒業制作
- 大学生の卒業論文や課題制作
- 先生が画像生成AIの現状を伝えること
- Hugging Face の Community にかいてある用途
- 日本語か英語で質問してください
#### 想定されない用途
- 物事を事実として表現するようなこと
- 先生を困らせるようなこと
- その他、創作業界に悪影響を及ぼすこと
# 使用してはいけない用途や悪意のある用途
- マネー・ロンダリングに用いないでください
- デジタル贋作 ([Digital Forgery](https://arxiv.org/abs/2212.03860)) は公開しないでください(著作権法に違反するおそれ)
- 他人の作品を無断でImage-to-Imageしないでください(著作権法に違反するおそれ)
- わいせつ物を頒布しないでください (刑法175条に違反するおそれ)
- いわゆる業界のマナーを守らないようなこと
- 事実に基づかないことを事実のように語らないようにしてください(威力業務妨害罪が適用されるおそれ)
- フェイクニュース
## モデルの限界やバイアス
### モデルの限界
- 人間の手がきれいに生成することが難しいです。
### バイアス
- 日本のイラスト風の画像を生成していることに向いていますが、写真のような画像を生成することには向いていません。
## 学習
**学習データ**
- Stable Diffusion と同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
- Stable Diffusion と同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約40万枚の画像
-
**学習プロセス**
- **ハードウェア:** A6000
## 評価結果
第三者による評価を求めています。
## 環境への影響
- **ハードウェアタイプ:** A6000
- **使用時間(単位は時間):** 500
- **学習した場所:** 日本
## 参考文献
```bibtex
@misc{esser2024scalingrectifiedflowtransformers,
title={Scaling Rectified Flow Transformers for High-Resolution Image Synthesis},
author={Patrick Esser and Sumith Kulal and Andreas Blattmann and Rahim Entezari and Jonas Müller and Harry Saini and Yam Levi and Dominik Lorenz and Axel Sauer and Frederic Boesel and Dustin Podell and Tim Dockhorn and Zion English and Kyle Lacey and Alex Goodwin and Yannik Marek and Robin Rombach},
year={2024},
eprint={2403.03206},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2403.03206},
}
``` |